歸藏(guizang.ai) (@op7418): Andrej Karpathy 分享了他 2025 年的总结关于训练范式的变化、benchmark 的失效、Cursor、Claude…

안드레이 카르파티는 2025년에 대한 자신의 생각을 공유했습니다. 훈련 패러다임의 변화, 벤치마크 무효화, Cursor, Claude Code, VibeCoding 및 LLMGUI에 관하여 1. RLVR RLVR은 사전 학습, 지도 미세 조정, RLHF에 이어지는 새로운 학습 단계입니다. 수학/코드와 같은 검증 가능한 환경에서 학습함으로써, LLM은 추론 전략을 자발적으로 학습하고, 문제를 분해하여 여러 단계에 걸쳐 해결합니다. 기존의 미세 조정과 달리, RLVR은 장기적인 최적화를 가능하게 하여 높은 성능 대비 비용 효율을 제공하며, 사전 학습에 사용되었던 컴퓨팅 파워를 활용합니다. 2025년까지의 성능 향상은 주로 장기간의 RL 실행을 통해 이루어질 것입니다. 2. 유령 vs. 동물 LLM의 최적화 목표는 인간 신경망의 최적화 목표와 극명하게 다르기 때문에, 천재적인 학자이면서도 초등학생에게 쉽게 속는 톱니 모양의 지능을 보이는 것과 같습니다. 강화 학습 기반 추론(RLVR)은 검증 가능한 영역에서 LLM의 역량을 크게 향상시켰지만, 전반적인 성능은 여전히 고르지 못합니다. 검증이 용이한 벤치마크는 최적화 대상으로 쉽게 활용될 수 있어, "테스트 세트 학습"이 새로운 기술이 되었습니다. 3. 커서 Cursor는 LLM 애플리케이션의 새로운 형태를 보여줍니다. 이는 특정 도메인을 위해 여러 LLM 호출을 조율하고, 컨텍스트 엔지니어링을 수행하며, 전용 GUI와 자율적인 슬라이더를 제공하는 것입니다. 논란은 이러한 애플리케이션 계층이 얼마나 "두꺼운지"에 있습니다. 그는 LLM 연구소가 일반적인 인재를 육성하는 반면, LLM 애플리케이션은 개인 데이터, 센서 및 피드백을 통해 이들을 도메인별 전문 팀으로 활성화한다고 주장합니다. 4. 클로드 코드 클로드 코드(Claude Code)는 도구 사용 및 추론 과정을 반복적으로 보여주는 LLM 에이전트의 첫 번째 성공적인 시연입니다. 특히, 클라우드가 아닌 로컬 컴퓨터에서 실행된다는 점이 중요합니다. OpenAI는 이전에 실수로 에이전트를 클라우드 컨테이너에 배포했지만, 기능이 제한적인 과도기에는 로컬 환경에서의 운영과 개발자 협업이 더 효율적입니다. CLI 형식으로 제공되는 클로드 코드는 AI를 웹사이트에서 컴퓨터 상의 "살아있는" 스프라이트로 변환하여 완전히 새로운 상호작용 패러다임을 제시합니다. 5. 바이브 코딩은 소프트웨어에 혁명을 일으키고 직무 설명을 바꿀 것입니다. Vibe Coding은 프로그래밍을 전문가만의 전유물이 아닌 누구나 접근할 수 있도록 만들어줍니다. 또한 전문가들이 평소에는 작성하지 않던 다양한 소프트웨어를 개발할 수 있도록 지원하며, 코드를 무료로, 임시로, 그리고 일회용으로 사용할 수 있도록 해줍니다. 6. 나노 바나나 / LLM GUI 나노 바나나는 LLM GUI의 프로토타입을 예고합니다. 컴퓨터가 명령줄에서 GUI로 진화했듯이, LLM 또한 단순 텍스트 채팅에서 시각적 출력으로 진화해야 합니다. 사람들은 텍스트 읽기를 좋아하지 않습니다. 느리고 고된 작업이기 때문입니다. 나노 바나나는 텍스트 생성, 이미지 생성, 그리고 세계 지식의 융합이라는 두 가지 기능을 결합한 사례를 보여줍니다.

歸藏(guizang.ai)(@op7418)의 스레드

작성자 정보

스레드 내용