X (Twitter)

華為剛發布了新模型盤古Ultra-MoE-718B-V1.1！參數量718B，激活參數量39B。這個模型最大的特性是能用Atlas 800T A2進行推理，使用魔改的vllm. 由於Atlas 800T A2 顯存有64GB，所以至少32卡才能跑起來這個模型. 性能嘛,數學能力AIME25 是77.50%，類似Gemini 2.5Flash 78.3%. 其他的測試我本人不太置信, 尤其是LiveCodeBench. (這裡不是說模型得分不對, 而是LiveCodeBench這個榜單我覺得有問題, 它評論GPT-OSS-120B-OSS-120B,然而我自己實際寫代碼GPT-OSS-120B不把你本地目錄揚了都算耶穌顯靈了.更不論GPT-OSS-120B上下文只有4K連個哈利波特與魔法石第一章都塞不下,第一章有20K....沒錯, 鄧不利多剛跟麥格在女貞路都塞不下,第一章有 . 我就不給大家測了哈。我找不到部署這個模型的服務商，我本地也懶得拖一個1.5TB的模型測了... 我的設備估計每秒鐘0.02 token生成速度....

来自 karminski-牙医（@karminski3）的推文线程

作者信息

线程正文