Ah sim, um token latente Olmo sem tokenizador/byte! Com relatórios completos, ablações, confirmando ainda mais os ganhos de desempenho em avaliações embaralhadas/restrições de letras.
Isso também segue a tendência recente de adaptações de modelos no meio do estágio de treinamento, o que reduz significativamente os custos de inovação da arquitetura (basicamente um "experimento controlado" à la Física de Modex.com/Dorialexander/…esperar uma variedade muito maior de projetos agora.
