이 논문 참 좋아요. 표면적으로 보면 앙상블을 활용한 작업 분해와 자기 일관성에 불과해 보이지만, 다른 것들도 강조하고 싶습니다. 이 논문은 우리 대부분이 LLM에 대해 직관적으로 느끼거나 시도하지만, 간단한 방법으로 시도해 본 후 포기하는 내용을 골라냈습니다.
그들은 "더 똑똑한" 모델을 만드는 것이 아니라 작업을 수백만 개의 작은 조각으로 나누어 각 조각의 오류를 철저히 수정함으로써 기본적으로 결코 실패하지 않는 수백만 단계의 시스템을 구축합니다. 그들은 이 모든 것을 gpt4.1-mini로만 달성합니다.
저는 이 논문에서 얻은 통찰력을 이어받습니다. "백만 단계 동안 오류가 없어야 한다면 작업을 백만 번 중단해야 합니다." 어떻게 분해하고 어떻게 보편적으로 오류를 수정할 것인가가 우리의 구현 노력입니다.
여기서 사용된 아이디어는 전반적으로 여전히 간단한 설정에 있습니다. 하지만 백만 단계에서 오류가 없다는 신뢰성 보장은 농담이 아니며 논문을 보기 전까지는 0% 오류라고 확신할 수 없습니다. 이 논문은 실행에 관한 내용입니다.
여기서 탐구하는 핵심 아이디어는 사전 정의된 분해 세부 정보가 없는 언어 작업에 대해 알아내야 할 내용입니다. 결과의 품질은 모델이 작업을 스스로 얼마나 잘 분해할 수 있는지, 그리고 스스로를 얼마나 잘 수정할 수 있는지에 따라 영향을 받습니다.
하지만 아키텍처 혁신이 전혀 없는 상황에서 제가 어떤 방향으로든 기대를 걸게 된다면, 그것은 다음과 같습니다. 규모와 모든 종류의 작업에 맞게 고안된 것일 뿐입니다.
저는 동적 프로그래밍과 트리 검색이 학습/추론 스택의 일부가 될 것이라고 생각합니다.