X (Twitter)

これは*驚異的な*リリースです。Zyphraは最も洗練された研究室の一つでありながら、非常に過小評価されています。AMDに機械学習を教える仕事に就いた今、その評価が変わることを期待しています。CCGQAは基本的にMLA+で、0.76BのアクティブユーザーでQwen3-4Bを上回りました。論文は驚くほど密度が高いです。読んでみてください。

まあ、「打ち負かす」というのは強い言葉ですね。確かに効率は良く、ベースモデルも同等ですが、Qwenの成熟した訓練後の能力に匹敵するにはかなりの作業が必要で、それは後回しにされています。とはいえ、訓練後の知識は既に豊富です。

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）のスレッド

作者情報

スレッド内容