기억에서 문제를 해결하는 것과 처음부터 문제를 해결하는 것 - 또는 LLM에 "복잡성 렌즈"를 적용하는 것의 무의미함 #SundayHarangue #NeurIPS2025 에디션 저는 LLM 작업 성과를 기본 작업의 계산 복잡성 측면에서 보려는 고집에 계속해서 당황하고 있습니다(https://t.co/4X1yQFY3KH 참조). LLM의 들쭉날쭉한 지능이 과제 복잡성과 직접적인 관련이 없다는 것을 보여주는 수많은 일화적 증거에도 불구하고 말입니다. LLM은 국제 수학 올림피아드(IMOL) 문제에서 경쟁력을 갖추면서도, "아마존에서 오른쪽 신발 대신 왼쪽 신발을 보냈고, 그 반대도 마찬가지"라는 유치한 함정에 빠질 수 있습니다. (SOTA LLM을 위한 이런 함정들의 끝없는 목록을 보시려면 @conitzer를 팔로우하세요!) 계산 복잡도는 종종 알고리즘적으로 작업을 처음부터 해결하는 측면에서 나타납니다. LLM의 사전 학습, 사후 학습, 추론 과정은 모두 기억을 바탕으로 문제를 해결하는 것을 의미합니다. 물론, 이는 LLM이 단순히 방대한 기존 솔루션 라이브러리에서 개별 과제 프롬프트에 대한 해답을 직접 검색한다는 것을 의미하지 않습니다. LLM은 과제 프롬프트를 처음부터 알고리즘적으로 해결하는 것이 아니라, 인간의 지식에 대한 사전 및 사후 훈련을 통해 얻은 지식을 구성하는 시행착오적 과정을 통해 과제 프롬프트를 해결하려고 한다는 것입니다. 이러한 관점에서 추론 모델이 출력하는 "중간 토큰"은 처음부터 만든 알고리즘의 흔적이 아니라, 현재 작업 프롬프트를 처리하기 위해 모델이 메모리에 있는 사전 지식을 구성하려는 시도의 흔적으로 해석되어야 합니다. (제가 다른 곳에서 주장했듯이, https://t.co/qE0vAwB636, 사전 훈련은 인간의 선언적 지식을 섭취하는 것으로 볼 수 있고, 사후 훈련은 인간의 절차적 지식을 점진적으로 섭취하는 것으로 볼 수 있습니다. 즉, 절차를 점점 더 길게 펼쳐보는 것입니다.) 이러한 구성적 시행착오 문제 해결의 비용/정확도는 현재 과제 프롬프트의 처음부터 계산된 복잡성이 아니라, 현재 메모리에서 해당 과제에 대한 해법을 얼마나 쉽게 도출할 수 있는지에 달려 있습니다. 이것이 LLM이 훈련 전후 분포에서 크게 벗어나는 과제에서 낮은 정확도를 보이는 이유입니다. https://t.co/RL9ZEOKbpQ를 참조하세요. 메모리 기반 문제 해결의 뚜렷한 징후는 문제가 학습 분포를 벗어났을 때 모델의 정확도가 낮을 뿐만 아니라 중간 토큰("연산")이 길어질 수 있다는 것입니다. 이는 실제로는 처음부터 쉽게 해결할 수 있는 문제라 하더라도 마찬가지입니다. 이것이 바로 #NeurIPS2025 효율적 추론 워크숍에서 발표될 "수행적 사고(Peformative Thinking)" 논문(https://t.co/itCXNctKZ1)의 메시지입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.