궁극적으로 우리는 영어로 학생들이 무엇을 잘못했는지 설명하고 이를 기울기로 변환하여 해당 교훈을 모델에 주입하는 방식으로 "LLM 학생들에게 가르치는" 방식으로 발전해야 합니다. 이진법, 스칼라법, 어떤 보상이든 효율적이지 않습니다. 만약 여러분의 비판(혹은 LLM 심사위원의 비판)을 보고, 대량 데이터 수렴에 따른 점수 차이에서 피드백을 추론하는 대신 전체 피드백을 실제로 내재화할 수 있다면, 훨씬 더 빠르게 학습할 수 있을 것입니다.
(물론 저항이 적은 경로인 경우 스칼라 및 이진 보상과 그 모든 재즈를 유지해야 하지만 실제 사용자의 경우 응답을 싫어하는 정확한 이유가 있습니다. 모델은 단순히 찬성 또는 반대를 받고 많은 샘플을 통해 학습하는 것이 아니라 응답을 싫어하는 이유를 이해해야 합니다.)