저는 여전히 반성적 학습이 학습 알고리즘의 미래라고 생각합니다. 이는 가치 함수를 제대로 동작하게 만드는 것에 대해 생각하는 것과 관련이 있지만 훨씬 더 풍부합니다.
기존의 지도 학습과 강화 학습의 문제점은 시스템이 설계하지 않은 실험에서 큐레이션하지 않은 그래디언트 업데이트를 받게 된다는 것입니다. "생각하는 시간을 줄이는 것"이 전부라면, 에이전트는 어떻게 학습할지에 대해 훨씬 더 열심히 생각해야 하지 않을까요?
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 2개 · 2025. 11. 26. 오전 2:55
저는 여전히 반성적 학습이 학습 알고리즘의 미래라고 생각합니다. 이는 가치 함수를 제대로 동작하게 만드는 것에 대해 생각하는 것과 관련이 있지만 훨씬 더 풍부합니다.
기존의 지도 학습과 강화 학습의 문제점은 시스템이 설계하지 않은 실험에서 큐레이션하지 않은 그래디언트 업데이트를 받게 된다는 것입니다. "생각하는 시간을 줄이는 것"이 전부라면, 에이전트는 어떻게 학습할지에 대해 훨씬 더 열심히 생각해야 하지 않을까요?