딥시크를 떠나 샤오미에 합류한 뤄푸리는 트위터 계정을 개설해 새로운 모델 개발을 주도하고 있음을 암시하고 있다. 샤오미가 어젯밤 출시한 MiMo-V2-Flash 모델의 기술 사양을 간략하게 소개합니다. 아키텍처: 하이브리드 가중 어텐션(Hybrid Weighted Attention, SWA)을 채택했습니다. 이 방식은 긴 컨텍스트 추론에서 다른 선형 어텐션 방식보다 우수한 성능을 보이며, 고정 키-값(KV) 캐시가 현재 인프라에 더 적합합니다. 최적의 윈도우 크기는 128이며, 512로 설정하면 오히려 성능이 저하됩니다. "싱크 값"은 반드시 유지해야 하며 생략할 수 없습니다. MTP(다중 토큰 예측): 효율적인 강화 학습에 필수적입니다. 첫 번째 레이어 이후에는 최소한의 조정만으로 높은 수용 길이를 달성할 수 있습니다. 3계층 MTP는 수용 길이 3 이상을 달성하고 인코딩 작업에서 약 2.5배의 속도 향상을 보여주며, 소규모 배치 온폴리시 강화 학습에서 긴 꼬리 분포로 인해 발생하는 GPU 유휴 시간 문제를 해결합니다. 시간 제약으로 인해 이 강화 학습 루프에는 포함되지 않았지만, 3계층 MTP는 오픈 소스이므로 커뮤니티 개발을 촉진하는 데 매우 적합합니다. MOPD 사후 훈련: Thinking Machine의 온-정책 증류(On-Policy Distillation) 기법을 활용하여 여러 강화 학습 모델을 융합함으로써 효율성을 크게 향상시켰습니다. 표준 SFT+RL 프로세스와 비교했을 때, 계산 비용은 1/50 이하로 감소하면서도 교사 모델의 성능은 동일하게 유지되었으며, "학생들이 스스로 강화하여 더 강력한 교사가 되는" 진화 경로를 보여주었습니다. 이 아키텍처는 실용적인 엔지니어링과 생산 라인 친화성을 강조합니다. 하이브리드 SWA와 고정 KV 캐시는 장기 컨텍스트 및 배포 효율성을 향상시키고, MTP는 학습/추론 병렬 처리의 이점을 제공하며, MOPD는 매우 낮은 컴퓨팅 성능으로 강화 학습 기능을 복제/통합합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
