Analyse approfondie des raisons pour lesquelles le méta-modèle utilise le nouveau modèle de distillation d'Alibaba. Je suis tombé sur une information choquante : Bloomberg rapporte que le nouveau modèle de Meta, Avocado, est élaboré à partir de modèles pondérés ouverts tels que Qianwen d’Alibaba, Gemma de Google et GPT-OSS d’OpenAI. De plus, ce modèle est un modèle commercial à code source fermé. Par ailleurs, Llama est très probablement abandonné ; Zuckerberg a laissé tomber le projet. La sortie d'Avocado est prévue pour janvier prochain. Permettez-moi de vous proposer une analyse d'un point de vue professionnel : Pourquoi utiliser trois modèles d'apprentissage plutôt qu'un seul ? Ce choix est en réalité très pratique. Lors du processus de distillation, l'utilisation de plusieurs modèles d'apprentissage permet de déterminer lequel fournit la meilleure réponse, guidant ainsi les modèles d'apprentissage. Par exemple, le modèle à pondération ouverte de Qianwen offre une grande variété de modèles, et les compétences en langue chinoise et en programmation y sont toutes deux élevées. C'est pourquoi Qianwen est utilisé dans les domaines multimodaux ou combinant programmation et chinois, tandis que les deux autres modèles sont utilisés dans d'autres domaines. De plus, ce rapport nous apporte de précieuses informations. Le texte original mentionne « l'analyse de modèles concurrents, notamment Gemma de Google, gpt-oss d'OpenAI et Qwen », ce qui laisse fortement supposer qu'Avocado est déjà entré dans la phase de post-entraînement. La distillation peut être divisée en distillation en boîte noire et en distillation à couches intermédiaires. Cette dernière nécessite une projection dimensionnelle, ce qui implique que l'architecture du modèle de l'étudiant doit imiter celle du modèle du professeur. Dans ce cas, il s'agit en réalité d'un « clonage du modèle ». Le texte original mentionnait l'utilisation de trois modèles à poids ouvert, dont les architectures sont différentes ; par conséquent, la distillation à couches intermédiaires est impossible. Il s'agira donc très probablement d'une stratégie de haut niveau lors de la phase de post-entraînement, et le modèle de base d'Avocado est déjà prêt. Au lieu de synthétiser ses propres données pour le post-entraînement, Meta utilise la distillation de modèles à poids ouverts, ce qui signifie qu'elle manque cruellement de données de haute qualité spécifiques au domaine (en particulier de données sur le raisonnement logique, le code et le respect des instructions complexes). Sachant que Meta possède probablement l'un des plus grands ensembles de données au monde (des milliards de journaux de discussion et de messages), c'est précisément là sa faiblesse. Les données sur Facebook et Instagram regorgent d'expressions familières, d'abréviations, de réactions émotionnelles et de textes courts. Ces données sont extrêmement utiles pour apprendre aux modèles à « parler comme des humains », mais elles sont quasiment inutiles pour leur apprendre à « penser comme des ingénieurs » (raisonnement/programmation) et ne constituent, en fin de compte, que du bruit. On se souvient peut-être de l'article paru en octobre dernier, intitulé « Les LLM peuvent devenir inutilisables ! », qui affirmait que l'entraînement de grands modèles avec des données issues des réseaux sociaux pouvait les rendre inefficaces. Étant donné que le rôle de l'équipe Produit diffère de celui de l'équipe Recherche, il est crucial pour elle de faire ses preuves sur le plan commercial. Par conséquent, sauver la face (en s'inspirant des modèles concurrents) importe peu ; la facilité d'utilisation et la rapidité de déploiement sont primordiales, et même fournir une explication à Zuckerberg est plus important. En résumé, ce rapport minimise l'importance de cette section, mais les informations qu'il révèle comprennent : 1. Avocado est entré en phase de post-entraînement. L'architecture du modèle de base est incertaine, mais elle est assurément différente de celles de Qianwen, Gemma et GPT-OSS ; il s'agit d'une architecture propre à Meta. 2. Meta manque cruellement de données de haute qualité spécifiques au domaine (en particulier de données sur le raisonnement logique, le code et le respect des instructions complexes). 3. L'équipe était soumise à une forte pression, à tel point qu'elle a eu recours à cette méthode après l'entraînement. Au lieu d'utiliser ces modèles pour synthétiser les données d'entraînement, elle a directement « copié les réponses » et procédé à une distillation. 4. Meta s'appuie sur la série « Distillation de mille questions » pour améliorer sa logique et ses compétences en programmation. N'est-ce pas une sorte de « certification officielle » inversée de la valeur de la série « Mille questions » d'Alibaba ? Hahaha #meta #AliQianwen #qwen #Avocat #llama
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
