RT @shao__meng: Andrej Karpathy의 2025년 LLM 연말 리뷰: 6가지 "패러다임 전환" 1. RLVR: 2025년까지 강화 학습은 검증 가능한 보상(RLVR)에서 LLM 훈련의 새로운 표준 단계로 전환될 것입니다. 수학/코드와 같은 객관적 영역에서 장기간에 걸쳐 보상을 최적화함으로써 모델은 자연스럽게 인간과 유사한 "추론"을 보여줄 것입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.