SOTA Chinese OpenSource (DeepSeek、Kimi K2 など) に近い初の非思考モデルをリリースすることに成功した最初の西洋の研究所。 推論モデルが開発中です。素晴らしいのは、マルチモーダルであることです(DeepSeekとKimi K2はそうではありません)。 印象的な! 注目すべき重要な点: --------------------------- 1. 41Bのアクティブパラメータと675Bの合計パラメータ 2. 3000 個の H200 でゼロからトレーニング (DeepSeek の微調整ではありません) デプロイメント(単一ノード) --------------------------- FP8: このモデルは、FP8 の指導後トレーニング済みバージョンであり、指導タスク用に微調整されているため、チャット、エージェント、指導ベースのユースケースに最適です。 1. B200 または H200 の単一ノード上の FP8。 2. H100 または A100 の単一ノード上の NVFP4。 https://t.co/82WKbULeOS
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。