"검증 가능하다면 RL로 최적화할 수 있다"는 말은 RL이 최적화를 위한 약한 보편적 방법이라는 사실의 당연한 귀결일 뿐입니다. *현실 세계에서 (하지만 죽을 수도 있어요) *시뮬레이터 사용(하지만 누군가는 작성해야 함) * 검증자 포함(시뮬레이터보다 작성하기 쉬울 수 있음)
더 크고 (씁쓸한?) 교훈은 이것일지도 모릅니다. LLM/LRM은 인간의 선언적(사실적) 지식과 절차적 지식(검증 도구의 형태로)을 활용하는 데 능숙합니다. 둘 중 어느 것도 다루지 않으면 상황이 불확실해집니다.

