사실 매우 중요한 세부 사항입니다. LLM-as-judge는 보상 모델로 재학습된 또 다른 바게토트론입니다. 즉, 5억 개의 매개변수에서 완벽하게 작동하는 RL 시스템을 갖추고 있다는 뜻입니다.
"실험적/독특한 시를 너무 선호해서 20% 이상이 너무 과하다는 생각이 듭니다" => 이 모델에 제 자신을 너무 많이 넣었을 수도 있습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.