Luo Fuli, que se juntou à Xiaomi depois de deixar a Deepseek, também registrou uma conta no Twitter, o que sugere que ela está liderando o desenvolvimento do novo modelo. Segue uma breve introdução aos detalhes técnicos do modelo MiMo-V2-Flash lançado pela Xiaomi ontem à noite. Arquitetura: Adota-se a abordagem híbrida SWA (Hybrid Weighted Attention). Ela supera outros esquemas de atenção linear na inferência de contextos longos, e o cache KV fixo é mais adequado para a infraestrutura atual. O tamanho ideal da janela é 128; 512, na verdade, reduzirá o desempenho; os "valores de destino" devem ser mantidos e não podem ser omitidos. MTP (Previsão Multi-Token): Crucial para um aprendizado por reforço eficiente. Altos comprimentos de aceitação podem ser alcançados com ajustes mínimos além da primeira camada. Um MTP de 3 camadas atinge um comprimento de aceitação >3 e um aumento de velocidade de aproximadamente 2,5x em tarefas de codificação, resolvendo problemas de tempo ocioso da GPU causados por amostras de cauda longa em aprendizado por reforço on-policy de pequenos lotes. Embora não esteja incluído neste ciclo de aprendizado por reforço devido a restrições de tempo, ele se encaixa muito bem; o MTP de 3 camadas é de código aberto, facilitando o desenvolvimento pela comunidade. Pós-treinamento do MOPD: Utilizando a Destilação On-Policy da Thinking Machine, múltiplos modelos de RL são fundidos, resultando em ganhos significativos de eficiência. Comparado ao processo padrão SFT+RL, o custo computacional é reduzido para menos de 1/50, mantendo o desempenho do modelo do professor e revelando um caminho evolutivo de "alunos se auto-reforçando para se tornarem professores mais fortes". Enfatiza a engenharia prática e a compatibilidade com a linha de produção. O cache híbrido SWA + KV fixo melhora o contexto longo e a eficiência de implantação; o MTP traz benefícios de paralelismo para treinamento e inferência; o MOPD replica/integra recursos de RL com consumo computacional extremamente baixo.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
