哦,是的,一個無分詞器/位元組延遲的標記 Olmo!有完整的報告、消融,進一步證實了在打亂的評估/字母約束下的表現提升。這也符合近期在訓練中期進行模型自適應的趨勢,這種做法大大降低了架構創新成本(本質上類似於LM物理學中的「受控實驗」)。我們或許會看到更多樣的設計。