正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月15日 17:36
这也符合近期在训练中期进行模型自适应的趋势,这种做法大大降低了架构创新成本(本质上类似于LM物理学中的“受控实验”)。我们或许会看到更多样的设计。