저희는 LRM에서 중간 토큰의 역할에 대한 체계적인 연구인 "의미론 너머" 논문의 확장 버전을 arXiv에 업로드했는데, 여러분 중 일부에게는 흥미로울 수도 있습니다. 🧵 1/ 흥미로운 새로운 연구 중 하나는 기본 변압기를 올바른 트레이스와 잘못된 트레이스를 혼합하여 학습시켰을 때의 효과입니다. 학습 중 잘못된(바꿔진) 트레이스의 비율이 0에서 100으로 증가함에 따라 추론 시점의 모델 트레이스 타당성은 예상대로 단조롭게 감소하지만(오른쪽 아래 그래프), 해의 정확도는 U자 곡선을 보입니다(왼쪽 그래프)! 이는 학습 중 사용된 트레이스의 정확성보다는 "일관성"이 더 중요함을 시사합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
