目前只是泛泛而谈,但我们的主要研究成果似乎在生产中得到了回报:专门针对合成环境的小型推理器不仅在输出上可以与顶级模型竞争,而且更令人惊讶的是,其推理草稿质量也相当出色。我想这也是为什么超稀疏的 MoE 效果如此之好的原因。推理本身就是一个搜索空间。