X (Twitter)

[Transformers 및 LLM의 컨텍스트 창에서 연속 잠재 공간 벡터 사용에 관하여] #SundayHarangue 연속 잠재 공간의 벡터를 이용하면 변환기가 문제를 효율적으로 해결할 수 있다는 주장이 많이 있습니다. 제 생각에는 이러한 주장 중 일부는 계산 복잡도 보존 법칙에 위배됩니다. 이러한 주장/비유는 토큰을 개별 토큰의 "중첩"(합집합이라고 생각하세요)으로 보는 것을 중심으로 전개됩니다. 배경 설명으로, 변환기는 잠재 공간 L st에서 작동하며, 모든 (언어적) 토큰은 L의 벡터에 대응합니다. 그러나 이러한 매핑은 일방적입니다. 즉, L의 모든 벡터가 고유한 토큰에 대응하는 것은 아닙니다. 하지만 이러한 벡터(고유한 토큰 매핑이 없는)를 토큰에 대응하는 벡터들의 선형 결합으로 볼 수도 있습니다. 즉, 이러한 벡터들은 토큰들의 합집합/중첩으로 볼 수 있습니다. 변환기 연산이 컨텍스트 창의 엔티티를 임베딩 공간의 벡터로 간주한다는 것은 명백합니다. 특히, 순방향 전달 연산은 처리 중인 벡터에 해당하는 고유 토큰이 있는지 여부는 고려하지 않습니다. 즉, 변환기 연산과 관련하여 컨텍스트 윈도우는 "토큰 벡터"(즉, 고유한 토큰에 해당하는 임베딩 벡터)와 "잠재 벡터"(즉, 고유한 토큰에 해당하지 않는 임베딩 벡터)를 모두 가질 수 있습니다. 위에서 언급했듯이 이러한 잠재 벡터는 토큰 벡터의 선형 결합으로 볼 수 있습니다. 이러한 유연성의 분명한 활용 사례 중 하나는 변환기에서 방출되는 중간 토큰이 잠재 벡터가 될 수 있다는 것입니다. 최종 사용자에게 전달되는 솔루션 토큰만 토큰 벡터가 되어야 합니다. 실제로 https://t.co/f6E3c2j4dm(https://t.co/t4uYw5WTmD)에서 논의했듯이, 중간 토큰이 최종 사용자 의미론을 갖지 않는 한, 잠재 공간의 어떤 벡터든 허용하면 적절한 프롬프트 증강을 학습하는 데 훨씬 더 큰 유연성을 제공합니다(https://t.co/jl0LyWJUys 참조). 중간 토큰에서 잠재 벡터를 사용하는 것에 대해 제기된 또 다른 주장은 "근본적인 문제를 해결하는 효율성을 개선하는 방법"이라는 것입니다. 저는 LLM을 문제 해결 도구로 보는 것에 대해 상당히 회의적입니다. 예를 들어, 저희 연구에 따르면 중간 토큰의 길이와 문제의 근본적인 복잡성 사이에는 연관성이 거의 없습니다(https://t.co/UKgCwgHKeQ 참조). 이는 LLM이 학습 분포와 테스트 인스턴스를 연결하려는 시도를 더 잘 보여준다는 것을 시사합니다. 그럼에도 불구하고, 변환기를 "해결책을 계산하는 방법"으로 본다면(사전 훈련된 LLM에서 실제로 일어나는 일이 아니더라도), 변환기가 잠재 벡터 대신 토큰 벡터에서 작동하도록 하는 것은 단일 엔터티가 아닌 엔터티의 분리된 표현에서 계산을 수행하는 것과 일치하는 것으로 보입니다. 이제, 이접 표현을 사용하면 특정 분포에 대한 평균적인 경우의 효율성을 향상시킬 수 있지만, 최악의 경우의 복잡도는 향상되지 않습니다. 건전성 테스트(sanity test)를 위해, 추상화와 계층 구조는 이접 표현을 사용하는 것으로 볼 수 있으며, 둘 다 문제의 최악의 경우 계산 복잡도를 변경하지 않습니다. 계획에 대한 논거는 https://t.co/aXreC5YKPN 또는 https://t.co/UDzu2Qp7WK를 참조하십시오. 이것이 제가 잠재 토큰을 가진 변환기가 모든 경우에 효율성을 증명 가능하게 높일 수 있다는 주장에 회의적인 이유입니다. 예를 들어, 최근 논문(https://t.co/4oQzEUIFPk)에서는 잠재 토큰을 가진 변환기가 그래프의 지름에 비례하는 시간 안에 그래프 도달 가능성을 해결할 수 있다고 주장합니다(게다가 양자 중첩에 대한 인용까지 덧붙였습니다!). 이는 복잡도 보존 법칙을 위반하지 않고서는, 특히 최악의 경우에는 말이 되지 않습니다(또는 도달 가능성을 "해결한다"는 것의 의미를 바꾸지 않고서는 말입니다. 예를 들어, 이 논문의 경험적 결과는 100% 미만의 정확도에도 만족하는 듯합니다). 금요일 그룹 회의에서 이 논문에 대해 논의할 때, 저는 학생들에게 Graphplan 계획 알고리즘과의 유사점에 대해 이야기했습니다. 이 알고리즘은 도달 가능성과 밀접한 관련이 있는 STRIPS 계획의 속도를 높입니다. 수년 전, Graphplan의 속도 향상은 개별 상태가 아닌 상태 집합에 대한 투영을 수행하는 관점에서 이해할 수 있음을 보였습니다. 그러나 공용체 표현에 대해 직접 연산하는 경우, 표현이 목표 상태에 도달하는 것처럼 보이지만 실제로 유효한 경로를 추출하지 못하는 지점에 도달할 수 있습니다! (Graphplan의 경우, 이 추출에는 비용이 기하급수적으로 증가하는 디코딩 단계가 포함되며, 실패하면 분리된 상태에 대한 투영이 계속됩니다.) 이는 아래 그림 👇과 https://t.co/s20cFEOfQk의 원본 논문(또는 https://t.co/YqN0fh7vp6의 그림 3과 이에 대한 논의)에 설명되어 있습니다. 요약하자면, 저는 잠재 토큰이 LLM이 훈련 후에 배울 수 있는 즉각적인 증강의 유연성을 상당히 증가시킬 수 있다고 믿지만, "고려 중인 문제의 복잡성을 감소시킨다"는 것에는 동의하지 않습니다.

Subbarao Kambhampati (కంభంపాటి సుబ్బారావు)(@rao2z)의 스레드

작성자 정보

스레드 내용