速報:事前学習用の完全合成ジェネラリストデータセット、SYNTHと、このデータセットのみで学習した2つの新しいSOTA推論モデルを公開しました。Baguettotronはわずか2,000億トークンしか学習していないにもかかわらず、現在、このサイズ範囲においてクラス最高です。
SYNTHは、従来の事前学習レシピから根本的に脱却した手法です。推論能力を訓練し、重要な知識とスキルの吸収に焦点を当てたらどうなるでしょうか?その核心は、Wikipediaの「重要な」記事5万件をアップサンプリングすることです。https://t.co/qrBybjF78m
SYNTH は、複数の合成プレイグラウンドのコレクションです。データは単純なプロンプトを通じて生成されるのではなく、シーディング、制約、および形式検証/チェックを使用して、より細かく調整されたモデルをワークフローに統合することによって生成されます。
SYNTHは推論能力の訓練を目的として設計されているため、訓練の非常に早い段階で実際の推論信号を取得できます。Baguettotronの場合、MMLUは100億トークン未満で非ランダム性を示し始め、すぐにSOTAに近い性能に達することがわかりました。
合成プレイグラウンドは、一連の制御された実験を可能にし、極限の深さの設計を推奨するに至りました。Baguettotronでは80層のアーキテクチャを選択し、論理的推論の記憶能力を全面的に向上させました。https://t.co/rdn902oTGN
Baguettotronと合わせて、これまでで最も小型の実用的な言語モデルをリリースします。56Mの変換アルゴリズムMonadは、SYNTHの英語部分を学習し、MMLUで非ランダムなパフォーマンスを実現しました。Monadの設計は、カスタムの小型トークナイザーを必要とするエンジニアリング上の課題です。https://t.co/hC8SLV1SLc
どちらのモデルも、思考の痕跡を含むQwenのような指示スタイルでネイティブに学習されています。私たちは、凝縮されたフレーズ、下書き記号、そしてシミュレートされたエントロピー(Entropixプロジェクトから着想を得た)を備えた、小規模モデル向けに最適化された全く新しい推論スタイルを設計しました。
このリリースを通じて、事前トレーニング研究 (NanoGPT、NanoChat)、説明可能性 (Monad を文字通り顕微鏡で見ることができます)、およびフロンティア モデルに関するツール オーケストレーションのための新しいエコシステムの両方をサポートすることを目指しています。
合成データは、特化した小規模モデルを構築するためのリソースであると同時に、LLMアプリケーションのデータ層における拡張・拡充の一般的なプロセスでもあると考えています。これは研究の枠を超え、今後、当社の製品開発の新たなフェーズにおいて重要な要素となるでしょう。
完全なレポートの前に、合成パイプラインに関する科学的結果や舞台裏を扱った詳細なブログ発表があります。https://t.co/rixJOesC08





