오, 맞아요! 토크나이저가 없는/바이트 지연 토큰 Olmo! 전체 보고서, 어블레이션, 뒤섞인 평가/문자 제약 조건에서의 성능 향상을 더욱 확증해 줍니다.
또한 이는 최근 학습 중간 단계에서 모델을 적응시키는 추세를 따르는 것으로, 아키텍처 혁신 비용을 크게 줄여줍니다(기본적으로 LM 물리학의 "제어된 실험"과 유사). 앞으로 훨씬 더 다양한 설계 방식을 볼 수 있을 것입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 2개 · 2025. 12. 15. 오후 5:34
오, 맞아요! 토크나이저가 없는/바이트 지연 토큰 Olmo! 전체 보고서, 어블레이션, 뒤섞인 평가/문자 제약 조건에서의 성능 향상을 더욱 확증해 줍니다.
또한 이는 최근 학습 중간 단계에서 모델을 적응시키는 추세를 따르는 것으로, 아키텍처 혁신 비용을 크게 줄여줍니다(기본적으로 LM 물리학의 "제어된 실험"과 유사). 앞으로 훨씬 더 다양한 설계 방식을 볼 수 있을 것입니다.