X (Twitter)

이 세상의 많은 사람들은 SFT(솔루션 기반 학습) 모델을 따르며, 근본적인 이유를 분석하지 않고 결과에만 의존하여 성공 또는 실패라는 인과적 판단을 내리고, 작업이 실패했다는 직접적인 결론을 내립니다. 많은 사람들이 RL(연구 기반 학습) 모델을 사용하여 A에서 B로, 그리고 B에서 C로 단계적으로 학습하지만, 너무 늦어서 아무것도 달성하지 못하는 경우가 많습니다. 이 두 모델을 결합하여 전략을 도출할 수 있는 사람은 이미 매우 뛰어난 기술을 가진 것으로 간주됩니다.

Yangyi(@Yangyixxxx)의 스레드

작성자 정보

스레드 내용