第一個成功發布接近中國最先進開源技術(DeepSeek、Kimi K2 等)的非思考型模型的西方實驗室。 推理模型正在開發中。它的優點在於它是多模態的(DeepSeek 和 Kimi K2 不是)。 感人的! 需要注意的關鍵事項: --------------------------- 1. 410億個活動參數和675億個總參數 2. 從零開始,使用 3000 個 H200 進行訓練(不是 DeepSeek 的微調) 部署(單節點) --------------------------- FP8:該模型是 FP8 中經過指令後訓練的版本,針對指令任務進行了微調,使其成為聊天、代理和基於指令的用例的理想選擇。 1. 在 B200 或 H200 的單一節點上執行 FP8。 2. 在單一 H100 或 A100 節點上執行 NVFP4。 https://t.co/82WKbULeOS
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。