X (Twitter)

Huawei が新モデル Pangu Ultra-MoE-718B-V1.1 をリリースしました。このモデルは718バイトのパラメータと39バイトのアクティブパラメータで構成されています。最も注目すべき特徴は、改良されたVLLMを搭載したAtlas 800T A2 GPUを用いて推論を実行できることです。Atlas 800T A2は64GBのVRAMを搭載しているため、このモデルを正常に実行するには少なくとも32基のGPUが必要です。パフォーマンスに関しては、AIME 25での数学パフォーマンスは77.50%で、Gemini 2.5 Flashの78.3%とほぼ同等です。他のテスト結果、特にLiveCodeBenchの結果には、完全に納得していません。（モデルのスコアが間違っていると言っているわけではありませんが、LiveCodeBenchのリーダーボードには問題があると思います。GPT-OSS-120Bが1位にランクされていますが、実際にコードを書いてみると、GPT-OSS-120Bがローカルディレクトリを破壊しないのは奇跡です。言うまでもなく、GPT-OSS-120Bのコンテキストはわずか4Kで、20Kあるハリー・ポッターと賢者の石の最初の章さえ収まりません…そうです、ダンブルドアはプリベット通りでマクゴナガルに会ったばかりで、ハリーはモデルが収まらない前に一言も発するチャンスがありませんでした。）皆さんのためにテストはしません。このモデルをデプロイできるサービスプロバイダーが見つからないし、1.5TBのモデルをローカルに持ち込んでテストするのも面倒なので…。私のデバイスのトークン生成速度は1秒あたり0.02と推定されています…。

karminski-牙医（@karminski3）のスレッド

作者情報

スレッド内容