X (Twitter)

第一個成功發布接近中國最先進開源技術（DeepSeek、Kimi K2 等）的非思考型模型的西方實驗室。推理模型正在開發中。它的優點在於它是多模態的（DeepSeek 和 Kimi K2 不是）。感人的！需要注意的關鍵事項： --------------------------- 1. 410億個活動參數和675億個總參數 2. 從零開始，使用 3000 個 H200 進行訓練（不是 DeepSeek 的微調）部署（單節點） --------------------------- FP8：該模型是 FP8 中經過指令後訓練的版本，針對指令任務進行了微調，使其成為聊天、代理和基於指令的用例的理想選擇。 1. 在 B200 或 H200 的單一節點上執行 FP8。 2. 在單一 H100 或 A100 節點上執行 NVFP4。 https://t.co/82WKbULeOS

來自 GDP at NeurIPS 2025（@bookwormengr）的推文串

作者資訊

推文串內容