第一个成功发布接近中国最先进开源技术(DeepSeek、Kimi K2 等)的非思考型模型的西方实验室。 推理模型正在开发中。它的优点在于它是多模态的(DeepSeek 和 Kimi K2 不是)。 感人的! 需要注意的关键事项: --------------------------- 1. 410亿个活动参数和675亿个总参数 2. 从零开始,使用 3000 个 H200 进行训练(不是 DeepSeek 的微调) 部署(单节点) --------------------------- FP8:该模型是 FP8 中经过指令后训练的版本,针对指令任务进行了微调,使其成为聊天、代理和基于指令的用例的理想选择。 1. 在 B200 或 H200 的单个节点上运行 FP8。 2. 在单个 H100 或 A100 节点上运行 NVFP4。 https://t.co/82WKbULeOS
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。