최종 점수만 보고 비디오 게임을 배우는 걸 상상해 보세요. 그게 바로 강화학습입니다. 이제 같은 방식으로 대규모 추론 모델을 학습하는 걸 상상해 보세요. 너무 낭비적이죠. 하지만 바로 그것이 "프런티어 랩"들이 수십억 달러를 쏟아붓는 이유입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 14. 오전 4:15
최종 점수만 보고 비디오 게임을 배우는 걸 상상해 보세요. 그게 바로 강화학습입니다. 이제 같은 방식으로 대규모 추론 모델을 학습하는 걸 상상해 보세요. 너무 낭비적이죠. 하지만 바로 그것이 "프런티어 랩"들이 수십억 달러를 쏟아붓는 이유입니다.