有趣的是:DeepSeek V3(2024年12月)的多代币预测模型建立在EAGLE(2024年1月)的基础上,并引用了Meta的MTP(2024年4月)作为“灵感来源”。如今,MTP已成为中国模型的标准配置。 Meta 的 LLaMA 4(2025 年 4 月)不使用 MTP(或者说几乎不使用任何技术)。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年10月30日 23:43
有趣的是:DeepSeek V3(2024年12月)的多代币预测模型建立在EAGLE(2024年1月)的基础上,并引用了Meta的MTP(2024年4月)作为“灵感来源”。如今,MTP已成为中国模型的标准配置。 Meta 的 LLaMA 4(2025 年 4 月)不使用 MTP(或者说几乎不使用任何技术)。