이것은 생각해 볼 만한 좋은 질문이며, 그 뒤에는 몇 가지 다른 흥미로운 연구 질문이 이어집니다. 1. 맥락 내 학습에는 한계가 있나요? 2. RL이 그 한계를 돌파할 수 있는 방법일까요? 3. 우리가 어떻게 안정적으로 추출해야 할지 모르는, 가중치에 이미 얼마나 많은 지식이 들어있습니까? 텍스트 기반 최적화는 확실히 어느 정도 효과가 있습니다. 예를 들어 다음의 흐름은 다음과 같습니다. 에이전트 하네스 —> 평가 —> 지뢰 흔적 —> 하네스 개선 샘플 효율성, 비용/계산, 텍스트 기반 및 RL 기반 최적화 비교에 대한 흥미로운 실험이 많이 있습니다. 또 다른 문제는 RL 이후에 얼마나 다시 하네스를 조정해야 할지인데, 그러면 다시 텍스트 기반 최적화로 돌아가게 될까요?
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
