正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月4日 19:41
我越来越觉得对于小型模型来说,蒸馏的意义不大。如果最终还是要采用全合成方法,那么针对特定任务和记忆进行选择性目标优化远优于模糊压缩。