Análise detalhada dos motivos pelos quais o metamodelo utiliza o novo modelo de destilação da Alibaba. Deparei-me com uma notícia chocante: a Bloomberg reporta que o novo modelo da Meta, o Avocado, está sendo refinado utilizando modelos ponderados abertos como o Qianwen da Alibaba, o Gemma do Google e o GPT-OSS da OpenAI. Além disso, esse modelo é um modelo de negócios de código fechado. Ademais, é muito provável que o projeto Llama esteja descontinuado; Zuckerberg o abandonou. O lançamento do Avocado está previsto para janeiro do próximo ano. Permita-me apresentar uma análise sob uma perspectiva profissional: Por que usar três modelos como modelos de ensino em vez de apenas um? Essa decisão é bastante prática. Durante o processo de destilação, vários modelos de ensino podem ser usados para verificar qual deles fornece a melhor resposta, orientando assim os modelos dos alunos. Por exemplo, o modelo de peso aberto em Qianwen possui uma ampla variedade de modelos, e tanto a proficiência em língua chinesa quanto a habilidade de programação são boas na mesma escala. Portanto, Qianwen é usado em domínios multimodais ou de programação + chinês, enquanto os dois modelos restantes são usados em outros domínios. Além disso, podemos extrair muitas informações valiosas deste relatório. O texto original menciona a "destilação de modelos concorrentes, incluindo Gemma do Google, gpt-oss da OpenAI e Qwen", o que sugere fortemente que o Avocado já entrou na fase de pós-treinamento. A destilação pode ser dividida em destilação de caixa preta e destilação de camada intermediária. A destilação de camada intermediária requer projeção dimensional, o que significa que a arquitetura do modelo aluno deve imitar o modelo professor. Se isso for feito, trata-se, na verdade, de uma "clonagem do modelo". O texto original mencionava que três modelos de peso aberto foram utilizados, e suas arquiteturas são diferentes, portanto, a destilação de camada intermediária não pode ser realizada. Portanto, é muito provável que seja uma estratégia de alto nível na fase pós-treinamento, e o modelo base do Avocado já esteja pronto. Em vez de sintetizar seus próprios dados para pós-treinamento, a Meta utiliza a destilação de modelos de peso aberto, o que significa que ela carece severamente de dados de "alta qualidade específicos do domínio" (especialmente dados sobre raciocínio lógico, código e adesão a instruções complexas). Considerando que a Meta provavelmente é uma das empresas com os maiores conjuntos de dados do mundo (bilhões de registros de bate-papo e postagens), essa é precisamente a sua fraqueza: Os dados do Facebook e do Instagram estão repletos de coloquialismos, abreviações, explosões emocionais e textos curtos. Esses dados são extremamente úteis para ensinar modelos a "falar como humanos", mas não contribuem em nada para ensiná-los a "pensar como engenheiros" (Raciocínio/Programação) e, essencialmente, são apenas ruído. Talvez as pessoas se lembrem do artigo de outubro deste ano, "LLMs podem sofrer 'apodrecimento cerebral'!", que argumentava que treinar grandes modelos com dados de mídias sociais pode torná-los "com morte cerebral". Considerando que o papel da equipe TBD (Produto) difere do da equipe FAIR (Pesquisa), eles precisam desesperadamente provar seu valor comercial. Portanto, para eles, salvar as aparências (usando a destilação de modelos da concorrência) é irrelevante; usabilidade e implantação rápida são fundamentais, e até mesmo dar uma explicação a Zuckerberg é mais importante. Em resumo, este relatório minimiza esta seção, mas as informações que revela incluem: 1. O modelo Avocado entrou na fase de pós-treinamento. A arquitetura do modelo base é incerta, mas certamente difere de Qianwen, Gemma e GPT-OSS; trata-se de uma arquitetura própria do Meta. 2. Meta apresenta uma grave carência de dados específicos de domínio de alta qualidade (especialmente dados sobre raciocínio lógico, código e adesão a instruções complexas). 3. A equipe estava sob muita pressão, tanta que recorreu a esse método para o pós-treinamento. Eles nem sequer usaram esses modelos para sintetizar dados para o treinamento; em vez disso, simplesmente "copiaram as respostas" e realizaram a destilação. 4. A Meta se baseia na série "Destilação de Mil Perguntas" para aprimorar suas habilidades de lógica e programação. Isso não seria uma espécie de "certificação oficial" reversa do valor da série "Mil Perguntas" do Alibaba? Hahaha #meta #AliQianwen #qwen #Avocado #llama
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
