X (Twitter)

오픈AI 공동 창립자이자 테슬라 전 AI 책임자이며 세계에서 가장 영향력 있는 AI 연구자 중 한 명인 안드레이 카르파티가 2025년 LLM 연말 결산 보고서를 발표했습니다. 첫 번째 주요 변화는 훈련 방법의 패러다임 전환이었습니다. 2025년 이전에는 활용 가능한 대규모 모델을 학습시키는 과정이 기본적으로 사전 학습, 지도 학습을 통한 미세 조정, 그리고 인간 피드백을 활용한 강화 학습의 세 단계로 이루어졌습니다. 이 공식은 2020년부터 사용되어 왔으며, 현재까지도 안정적이고 신뢰할 수 있는 방식으로 유지되고 있습니다. 2025년에는 중요한 네 번째 단계인 RLVR(검증 가능한 보상을 통한 강화 학습)이 추가되었습니다. 이게 무슨 뜻일까요? 간단히 말해, "정답"이 있는 환경에서 모델이 반복적으로 연습하도록 한다는 뜻입니다. 예를 들어 수학 문제의 경우 답은 맞거나 틀리거나 둘 중 하나이므로 사람이 채점할 필요가 없습니다. 코드도 마찬가지입니다. 실행되면 실행되는 것입니다. 이번 훈련 방식과 이전 훈련 방식의 근본적인 차이점은 무엇일까요? 이전의 지도 학습 방식의 미세 조정과 인간 피드백은 본질적으로 "모델을 모방하는 것"에 가까웠습니다. 즉, 모델은 인간이 제공하는 샘플을 학습하는 방식이었죠. 하지만 RLVR은 다릅니다. 모델이 스스로 문제 해결 전략을 발견하도록 합니다. 수영을 배우는 것과 비슷합니다. 이전에는 교육 영상을 보고 동작을 따라 했지만, 이제는 그냥 물에 던져집니다. 반대편까지 헤엄쳐 갈 수만 있다면 어떻게 헤엄치든 상관없죠. 그 결과, 모델은 마치 스스로 추론하는 것처럼 보이는 무언가를 "파악"해냈습니다. 큰 문제를 작은 단계로 나누고, 잘못된 길로 들어섰을 때는 되돌아가서 다시 시작하는 법을 학습한 것입니다. 이러한 전략은 인간이 보여줄 수 없는 것입니다. 왜냐하면 인간조차도 "올바른 사고 과정"이 어떤 모습인지 명확하게 설명할 수 없기 때문입니다. 이러한 변화는 연쇄 반응을 일으켰고, 컴퓨팅 파워 배분 방식이 바뀌었습니다. 이전에는 대부분의 컴퓨팅 파워가 사전 학습 단계에 투입되었지만, 이제는 강화 학습 단계에 점점 더 많은 컴퓨팅 파워가 사용되고 있습니다. 모델의 파라미터 크기는 크게 늘어나지 않았지만, 추론 능력은 비약적으로 향상되었습니다. OpenAI의 o1은 이러한 변화의 시작점이었고, o3은 사람들이 진정으로 "차이를 체감"할 수 있게 된 변곡점이었습니다. 또 다른 새로운 접근 방식은 추론 과정에서 더 많은 컴퓨팅 성능을 활용하는 것입니다. 모델이 "더 오래 생각하도록" 함으로써 더 긴 추론 체인을 생성하여 성능을 향상시킬 수 있습니다. 이는 본질적으로 모델의 성능을 조절할 수 있는 기능을 추가하는 것과 같습니다. 두 번째 주요 변화는 인공지능 지능의 "형태"가 무엇인지 마침내 이해하게 되었다는 점입니다. 카르파티는 기발한 비유를 사용했습니다. 우리는 "동물을 기르는" 것이 아니라 "유령을 불러내는" 것입니다. 인간 지능은 진화하며, 최적화 목표는 "정글에서 부족이 생존하도록 돕는 것"입니다. 대규모 모델의 지능은 훈련되며, 최적화 목표는 "인간의 텍스트를 모방하고, 수학 문제에서 높은 점수를 얻고, 벤치마크 목록에서 높은 순위를 차지하는 것"입니다. 최적화 목표가 완전히 다르기 때문에 결과 또한 당연히 완전히 다를 것입니다. 따라서 AI의 지능은 "들쭉날쭉한 지능"입니다. 어떤 분야에서는 전지전능한 학자처럼 행동하지만, 다른 분야에서는 초등학생조차 하지 않을 실수를 저지르기도 합니다. 어떤 순간에는 복잡한 공식을 유도하는 데 도움을 주다가도, 다음 순간에는 간단한 탈옥 힌트에 속아 데이터를 제공하기도 합니다. 왜 그럴까요? 검증 가능한 보상이 있는 영역에서는 모델이 해당 영역에서 "급격한 성과"를 보이기 때문입니다. 수학은 표준적인 답이 있고 코드는 검증할 수 있으므로 이러한 영역에서는 발전이 빠릅니다. 하지만 상식, 사회적 상호작용, 창의성과 같은 영역에서는 무엇이 "옳은지" 정의하기 어렵기 때문에 모델이 효율적으로 학습하기가 더 어렵습니다. 이로 인해 카르파티는 벤치마크에 대한 신뢰를 잃었습니다. 이유는 간단합니다. 테스트 문제 자체가 "검증 가능한 환경"이며, 모델은 이러한 환경에 맞춰 최적화될 수 있기 때문입니다. 벤치마크에서 최고 점수를 받는 것은 하나의 예술이 되었습니다. 모든 벤치마크에서 최고 점수를 받더라도 진정한 일반 지능에는 한참 못 미칠 수 있습니다. 세 번째 주요 변화: LLM 응용 프로그램 계층의 등장. Cursor는 올해 엄청난 인기를 얻었지만, Karpathy는 그 가장 큰 의미는 제품 자체에 있는 것이 아니라 "LLM 응용 프로그램"이라는 새로운 종의 존재를 증명하는 데 있다고 믿습니다. "X 도메인의 커서"에 대한 논의가 등장한 것은 새로운 소프트웨어 패러다임의 형성을 시사합니다. 이러한 애플리케이션들은 어떤 역할을 하게 될까요? 먼저 컨텍스트 엔지니어링을 수행합니다. 관련 정보를 정리하여 모델에 입력합니다. 둘째, 여러 모델 호출을 조율해야 합니다. 백엔드에서 여러 API 호출을 처리할 수 있으므로 성능과 비용 사이의 균형을 유지해야 합니다. 셋째, 특수 시나리오에 맞는 인터페이스를 제공하여 사람이 주요 지점에서 개입할 수 있도록 합니다. 넷째, 사용자에게 "자율성 수준 조절 슬라이더"를 제공하세요. 사용자가 더 많은 기능을 수행할지, 더 적은 기능을 수행할지 선택할 수 있도록 하는 것입니다. 일 년 내내 논의되어 온 질문이 하나 있습니다. 바로 이 애플리케이션 계층이 얼마나 "두꺼울" 것인가 하는 점입니다. 모델 공급업체들이 모든 애플리케이션을 장악할까요? 카르파티의 평가에 따르면 모형 제조업체는 "일반적인 기술을 갖춘 대학 졸업생"을 양성하지만, LLM(실무 석사 및 석사) 애플리케이션은 이러한 졸업생들을 조직화, 교육하고 취업시켜 특정 산업 분야에서 일할 수 있는 전문 팀으로 만드는 책임을 집니다. 데이터, 센서, 액추에이터, 피드백 루프는 모두 애플리케이션 계층의 작업입니다. 네 번째 주요 변화: 인공지능이 컴퓨터 안으로 들어왔습니다. 클로드 코드(Claude Code)는 올해 카르파티(Karpathy)가 가장 감명받은 제품 중 하나입니다. 이 제품은 도구를 호출하고, 추론을 수행하고, 반복문을 실행하고, 복잡한 문제를 해결할 수 있는 진정한 "AI 에이전트"의 모습을 보여줍니다. 하지만 더 중요한 것은, 이 프로그램이 여러분의 컴퓨터에서 실행된다는 점입니다. 여러분의 환경, 데이터, 그리고 맥락을 활용합니다. 카르파티는 OpenAI가 상황을 잘못 판단했다고 생각합니다. 그들은 Codex와 에이전트를 클라우드 컨테이너에 집중시키고 ChatGPT에서 스케줄링하도록 했습니다. 이는 마치 "인공 일반 지능(AGI) 최종 목표"를 향해 나아가는 것처럼 보이지만, 아직 그 단계에 이르지는 못했습니다. 실제로는 AI의 역량이 매우 다양하며, 여전히 인간의 감독과 지원이 필요합니다. 현재로서는 개발자와 협력하여 지능형 에이전트를 로컬에 배치하는 것이 더 합리적인 접근 방식입니다. 클로드 코드(Claude Code)는 최소한의 명령줄 인터페이스를 통해 이를 구현합니다. AI는 더 이상 단순히 방문하는 웹사이트가 아니라, 컴퓨터 안에 "살아있는" 작은 스프라이트가 되었습니다. 이는 인간과 컴퓨터 상호작용의 완전히 새로운 패러다임입니다. 다섯 번째 주요 변화: 바이브 코딩이 인기를 얻기 시작했습니다. 2025년, AI의 능력은 한 단계 더 발전하여, 사용자가 요구 사항을 영어로만 설명하면 코드의 형식에 신경 쓰지 않고도 AI가 프로그램을 작성해 주는 시대가 도래합니다. 카르파티는 이러한 프로그래밍 방식을 "바이브 코딩"이라고 부르며 트위터에 올렸고, 이 용어는 순식간에 퍼져나갔습니다. 이것이 의미하는 바는 무엇일까요? 프로그래밍은 더 이상 전문 프로그래머만의 영역이 아니며, 일반인도 할 수 있다는 것입니다. 이는 기존의 기술 확산 모델과는 완전히 다릅니다. 과거에는 신기술이 대기업, 정부, 전문가들에 의해 먼저 습득된 후 점차 다른 분야로 확산되었습니다. 하지만 이제는 그 모델이 역전되어 일반인들이 전문가보다 훨씬 더 큰 혜택을 누리고 있습니다. Vibe Coding은 단순히 "프로그래머가 아닌 사람들에게 프로그래밍을 할 수 있도록 도와주는 것"만이 아닙니다. 프로그래밍 능력이 있는 사람들에게는 이전에는 "만들 가치가 없다"고 여겨졌던 많은 작은 프로그램들이 이제는 만들어볼 만한 가치가 생겼습니다. 카르파티 본인도 Vibe Coding을 활용하여 여러 프로젝트를 진행했습니다. Rust로 맞춤형 토크나이저를 만들고, 여러 유틸리티 앱을 개발했으며, 심지어 버그를 찾기 위한 일회성 프로그램까지 작성했습니다. 코드는 갑자기 저렴해지고, 일회용이 되며, 마치 낱장 종이에 끄적이듯 쉽게 작성될 수 있게 됩니다. 이는 소프트웨어의 형태와 프로그래머의 직무를 완전히 바꿔놓을 것입니다. 여섯 번째 주요 변화: 대규모 모델을 위한 "그래픽 인터페이스 시대"가 도래하고 있습니다. 구글의 제미니 나노 바나나는 올해 가장 과소평가된 제품 중 하나입니다. 대화 내용을 기반으로 실시간으로 이미지, 인포그래픽, 애니메이션을 생성하여 답글을 "쓰는" 대신 "그리는" 방식으로 표현할 수 있습니다. 카르파티는 이를 더 큰 역사적 맥락 속에 놓고 설명합니다. 대형 모델은 1970년대와 80년대의 컴퓨터처럼 차세대 주요 컴퓨팅 패러다임을 나타낸다는 것입니다. 따라서 우리는 비슷한 진화 경로를 보게 될 것입니다. 대형 모델과 "대화"하는 것은 마치 1980년대에 터미널에 명령어를 입력하는 것과 비슷합니다. 텍스트는 기계가 선호하는 형식이지만, 인간이 선호하는 형식은 아닙니다. 사실 인간은 텍스트 읽기를 좋아하지 않습니다. 느리고 피곤하기 때문입니다. 사람들은 그림, 비디오, 공간 배치 등을 보는 것을 더 좋아합니다. 이것이 바로 기존 컴퓨터가 그래픽 사용자 인터페이스를 개발한 이유입니다. 대규모 모델에도 자체적인 "GUI"가 필요합니다. 이미지, 슬라이드, 화이트보드, 애니메이션, 미니 앱 등 우리가 선호하는 방식으로 소통할 수 있어야 합니다. 현재 사용되는 이모지와 마크다운은 기본적인 형태에 불과하며, 단순히 텍스트를 "꾸미는" 역할을 할 뿐입니다. 진정한 LLM GUI는 어떤 모습일까요? 나노 바나나는 그 초기 모습을 보여주는 단서입니다. 가장 흥미로운 점은 이것이 단순히 이미지 생성에 관한 것이 아니라는 것입니다. 텍스트 생성, 이미지 생성, 그리고 세계 지식을 서로 엮어 모델 가중치에 모두 통합해야 합니다. 카르파티의 결론은 다음과 같습니다. 2025년 그랜드 모델은 그가 예상했던 것보다 똑똑하기도 하고 멍청하기도 합니다. 두 가지 모두 동시에 사실입니다. 하지만 한 가지는 확실합니다. 현재 우리의 역량으로도 잠재력의 10%도 채 활용하지 못하고 있다는 것입니다. 아직 시도해 볼 아이디어가 너무나 많고, 무궁무진한 가능성이 열려 있습니다. 그는 드와르케쉬의 팟캐스트에서 겉보기에 모순되는 말을 했습니다. 그는 발전이 빠른 속도로 계속될 것이라고 믿는다. 동시에, 아직 해야 할 일이 많이 남아 있다고 생각합니다. 이 두 가지는 서로 모순되지 않습니다. 2026년에도 안전벨트를 매고 계속해서 전속력으로 달려가세요.

宝玉(@dotey)의 스레드

작성자 정보

스레드 내용