향후 요약. 매우 흥미롭습니다. 디코딩 속도를 높이는 대신, 교사 강제 학습을 억제하는 방법으로 다중 토큰 예측이라는 원래 아이디어를 더욱 발전시켰습니다. 왠지 @francoisfleuret의 Free Transformer 아이디어가 떠오르네요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 10. 30. 오후 2:41
향후 요약. 매우 흥미롭습니다. 디코딩 속도를 높이는 대신, 교사 강제 학습을 억제하는 방법으로 다중 토큰 예측이라는 원래 아이디어를 더욱 발전시켰습니다. 왠지 @francoisfleuret의 Free Transformer 아이디어가 떠오르네요.