哦,是的,一个无分词器/字节延迟的标记 Olmo!带有完整的报告、消融,进一步证实了在打乱的评估/字母约束下的性能提升。这也符合近期在训练中期进行模型自适应的趋势,这种做法大大降低了架构创新成本(本质上类似于LM物理学中的“受控实验”)。我们或许会看到更多样的设计。