关于“更好的预训练”可能意味着什么的一些假设 - 与其他训练阶段的整合:我猜他们最终已经到了可以将训练后性能(例如 SWE-Bench)作为训练前工程决策信号的阶段。 - 过滤:采用诸如影响函数之类的缩放方法来去除对评估性能无益的数据点 - 合成数据:利用改写语言对某些有用的文档进行增采样,使其更适合推理。 - 混合:确定混合系数的更具原则性和可扩展性的方法 - 新增数据:购买和扫描更多书籍,转录 YouTube 视频,购买新闻文章等私人代币收藏 - 智能打包:有多种方法可以将文档分组,这种方法尤其适用于篇幅较长的内容。 系统:更多数据,更多浮点运算
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。