X (Twitter)

第一个成功发布接近中国最先进开源技术（DeepSeek、Kimi K2 等）的非思考型模型的西方实验室。推理模型正在开发中。它的优点在于它是多模态的（DeepSeek 和 Kimi K2 不是）。感人的！需要注意的关键事项： --------------------------- 1. 410亿个活动参数和675亿个总参数 2. 从零开始，使用 3000 个 H200 进行训练（不是 DeepSeek 的微调）部署（单节点） --------------------------- FP8：该模型是 FP8 中经过指令后训练的版本，针对指令任务进行了微调，使其成为聊天、代理和基于指令的用例的理想选择。 1. 在 B200 或 H200 的单个节点上运行 FP8。 2. 在单个 H100 或 A100 节点上运行 NVFP4。 https://t.co/82WKbULeOS

来自 GDP at NeurIPS 2025（@bookwormengr）的推文线程

作者信息

线程正文