新しいビデオを公開しました – 小型モデル、高スループット!NVIDIA オープンソース Nemotron 3 Nano モデルの実世界テスト。 このビデオでは、技術レポートを簡単に紹介し、いくつかの実践的なテストを紹介します。 ビデオでは次の内容が見られます: - Nemotron 3 Nanoのコア構成:パラメータスケール、MoE + Mamba Transformerアーキテクチャ、1Mコンテキスト - 25Tの事前トレーニングデータ、2段階コース学習+ SFT + RLVR + RLHFトレーニングプロセス - 公式の量子化アプローチ: BF16 から FP8 まで、選択的な量子化を通じてスコアの保存を最大化する方法。 - Nano VS Qwen3 次の実世界タスク: コーディング + ライティング
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
