メタモデルが Alibaba の新しい蒸留モデルを使用する理由の詳細な分析。 衝撃的なニュースに遭遇しました。ブルームバーグは、Meta の新しいモデルである Avocado が、Alibaba の Qianwen、Google Gemma、OpenAI の GPT-OSS などのオープン重み付けモデルを使用して抽出されていると報じています。 さらに、このモデルはクローズドソースのビジネスモデルです。また、Llamaはおそらく終了しており、ザッカーバーグ氏はプロジェクトを放棄しました。Avocadoは来年1月にリリースされる予定です。 専門家の観点からいくつかの分析をしてみましょう。 なぜ教師モデルとして1つではなく3つのモデルを使用するのでしょうか?この決定は実は非常に実用的です。蒸留プロセスにおいて、複数の教師モデルを使用することで、どのモデルが最適な解を提供するかを判断し、生徒モデルを導くことができます。例えば、Qianwenのオープンウェイトモデルには多様なモデルがあり、中国語の語学力とプログラミング能力の両方が同じスケールで優れています。そのため、Qianwenはマルチモーダルまたはプログラミング+中国語の分野で使用され、残りの2つのモデルは他の分野で使用されます。 さらに、このレポートからは多くの情報が得られます。原文には「GoogleのGemma、OpenAIのgpt-oss、Qwenといった競合モデルから抽出」と記載されており、Avocadoが既に学習後の段階に入っていることを強く示唆しています。 蒸留はブラックボックス蒸留と中間層蒸留に分けられます。中間層蒸留では次元投影が必要となるため、生徒モデルのアーキテクチャは教師モデルのアーキテクチャを模倣する必要があります。これを行うと、実際には「モデルの複製」になります。原文では、3つのオープンウェイトモデルが使用され、それらのアーキテクチャが異なるため、中間層蒸留は実現できないと述べられています。 そのため、トレーニング後の段階では高度な戦略となる可能性が高く、アボカドのベースモデルはすでに完成しています。 Metaは、学習後のデータを生成する代わりに、オープンウェイトモデル蒸留を採用しています。つまり、「ドメイン固有の高品質」データ(特に論理的推論、コード、複雑な指示の遵守に関するデータ)が著しく不足しています。Metaは世界最大級のデータセット(数十億件のチャットログと投稿)を保有する企業の一つである可能性が高いことを考えると、まさにこれがMetaの弱点と言えるでしょう。 FacebookやInstagramのデータは、口語表現、略語、感情的な表現、短いテキストで溢れています。これらのデータは、モデルに「人間のように話す」ことを教えるのには非常に役立ちますが、「エンジニアのように考える」(推論/コーディング)ことを教えるのにはほとんど役に立たず、実質的には単なるノイズです。 今年10月に発表された論文「LLMは『脳死』になる可能性がある!」を覚えている方もいるかもしれません。この論文では、ソーシャルメディアデータで大規模モデルを学習させると「脳死」状態になる可能性があると主張されていました。TBD(プロダクト)チームの役割はFAIR(リサーチ)チームとは異なるため、彼らは商業的に自らの実力を証明する必要に迫られています。そのため、彼らにとって(競合他社のモデル蒸留を利用するなど)面子を保つことは重要ではなく、使いやすさと迅速な導入が何よりも重要であり、ザッカーバーグ氏に説明することさえも重要です。 要約すると、このレポートではこのセクションを軽視していますが、明らかにされている情報は次のとおりです。 1. Avocadoは学習後段階に入りました。ベースモデルのアーキテクチャは不明ですが、Qianwen、Gemma、GPT-OSSとは明らかに異なり、Meta独自のアーキテクチャとなっています。 2. メタには、高品質のドメイン固有のデータ(特に論理的推論、コード、複雑な指示の遵守に関するデータ)が著しく不足しています。 3. チームは大きなプレッシャーにさらされていたため、事後学習にこの手法を採用しました。彼らはこれらのモデルを学習用データの合成にさえ使用せず、代わりに「回答をコピー」して蒸留を行いました。 4. Metaは「千の質問の蒸留」シリーズを活用してロジックとコーディングスキルを向上させています。これは、Alibabaの「千の質問」シリーズの価値を逆「公式認定」しているのではないでしょうか?ハハハ #メタ #アリチェンウェン #クウェン #アボカド #ラマ
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
