기존의 지도 학습과 강화 학습의 문제점은 시스템이 설계하지 않은 실험에서 큐레이션하지 않은 그래디언트 업데이트를 받게 된다는 것입니다. "생각하는 시간을 줄이는 것"이 전부라면, 에이전트는 어떻게 학습할지에 대해 훨씬 더 열심히 생각해야 하지 않을까요?
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 26. 오전 3:05
기존의 지도 학습과 강화 학습의 문제점은 시스템이 설계하지 않은 실험에서 큐레이션하지 않은 그래디언트 업데이트를 받게 된다는 것입니다. "생각하는 시간을 줄이는 것"이 전부라면, 에이전트는 어떻게 학습할지에 대해 훨씬 더 열심히 생각해야 하지 않을까요?