X (Twitter)

SOTA Chinese OpenSource (DeepSeek、Kimi K2 など) に近い初の非思考モデルをリリースすることに成功した最初の西洋の研究所。推論モデルが開発中です。素晴らしいのは、マルチモーダルであることです（DeepSeekとKimi K2はそうではありません）。印象的な！注目すべき重要な点: --------------------------- 1. 41Bのアクティブパラメータと675Bの合計パラメータ 2. 3000 個の H200 でゼロからトレーニング (DeepSeek の微調整ではありません) デプロイメント（単一ノード） --------------------------- FP8: このモデルは、FP8 の指導後トレーニング済みバージョンであり、指導タスク用に微調整されているため、チャット、エージェント、指導ベースのユースケースに最適です。 1. B200 または H200 の単一ノード上の FP8。 2. H100 または A100 の単一ノード上の NVFP4。 https://t.co/82WKbULeOS

GDP at NeurIPS 2025（@bookwormengr）のスレッド

作者情報

スレッド内容