에이전트 피드백 루프와 하네스 + 평가에 관심이 있거나 "결국은 웨이트를 만져야 할 거야"에 대해 궁금한 사람이라면 이 책을 꼭 읽어야 합니다(실제로 전반적으로 훌륭합니다). 피드백과 학습이 인간에게 어떻게 작용하는지에 대한 몇 가지 좋은 비유와 함께 RL 보상 패러다임을 논의합니다(훨씬 더 밀도 높은 보상) 자연스러운 크레딧 할당! 더 밀도가 높은 피드백 신호를 통한 최적화는 아직 초기 단계이지만 매우 유망하고 직관적으로 이해가 됩니다(?).
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.