Análisis en profundidad de por qué el metamodelo utiliza el nuevo modelo de destilación de Alibaba. Me encontré con una noticia impactante: Bloomberg informa que el nuevo modelo de Meta, Avocado, se está desarrollando utilizando modelos ponderados abiertos como Qianwen de Alibaba, Google Gemma y GPT-OSS de OpenAI. Además, este modelo de negocio es de código cerrado. Además, es muy probable que Llama esté muerto; Zuckerberg abandonó el proyecto. Se espera que Avocado se lance en enero del próximo año. Permítanme ofrecerles un análisis desde una perspectiva profesional: ¿Por qué usar tres modelos como modelos docentes en lugar de uno solo? Esta decisión es bastante práctica. Durante el proceso de destilación, se pueden usar varios modelos docentes para determinar cuál ofrece la mejor respuesta, guiando así a los modelos de los estudiantes. Por ejemplo, el modelo de ponderación abierta de Qianwen ofrece una amplia variedad de modelos, y tanto el dominio del chino como la capacidad de programación son buenos en la misma escala. Por lo tanto, Qianwen se utiliza en dominios multimodales o de programación con chino, mientras que los dos modelos restantes se utilizan en otros dominios. Además, podemos extraer mucha información de este informe. El texto original menciona la "depuración de modelos rivales, como Gemma de Google, gpt-oss de OpenAI y Qwen", lo que sugiere firmemente que Avocado ya ha entrado en la fase de post-entrenamiento. La destilación se puede dividir en destilación de caja negra y destilación de capa intermedia. La destilación de capa intermedia requiere proyección dimensional, lo que significa que la arquitectura del modelo del estudiante debe imitar la del profesor. Si esto se hace, se estaría "clonando el modelo". El texto original indicaba que se utilizaban tres modelos de peso abierto, cuyas arquitecturas son diferentes, por lo que no se puede lograr la destilación de capa intermedia. Por lo tanto, es muy probable que sea una estrategia de alto nivel en la etapa posterior al entrenamiento, y el modelo base de Avocado ya está listo. En lugar de sintetizar sus propios datos para el postentrenamiento, Meta utiliza la destilación de modelos de peso abierto, lo que significa que carece de datos de alta calidad específicos del dominio (especialmente datos sobre razonamiento lógico, código y adherencia a instrucciones complejas). Considerando que Meta es probablemente una de las empresas con los conjuntos de datos más grandes del mundo (miles de millones de registros de chat y publicaciones), esta es precisamente su debilidad: Los datos de Facebook e Instagram están llenos de coloquialismos, abreviaturas, arrebatos emocionales y textos breves. Estos datos son extremadamente útiles para enseñar a los modelos a "hablar como humanos", pero no ayudan en absoluto a enseñarles a "pensar como ingenieros" (razonamiento/codificación), y son, en esencia, solo ruido. Quizás incluso recuerden el artículo de octubre de este año, "¡Los LLM pueden desarrollar 'pérdida cerebral'!", que argumentaba que entrenar modelos grandes con datos de redes sociales puede dejarlos con "muerte cerebral". Considerando que el rol del equipo TBD (Producto) difiere del del equipo FAIR (Investigación), necesitan desesperadamente demostrar su valía comercial. Por lo tanto, para ellos, salvar las apariencias (utilizando la destilación del modelo de la competencia) no es importante; la usabilidad y la rápida implementación son primordiales, e incluso darle una explicación a Zuckerberg es más importante. En resumen, este informe resta importancia a esta sección, pero la información que revela incluye: 1. Avocado ha entrado en la fase de post-entrenamiento. La arquitectura del modelo base es incierta, pero es definitivamente diferente de la de Qianwen, Gemma y GPT-OSS; es la arquitectura propia de Meta. 2. Meta carece gravemente de datos específicos del dominio de alta calidad (especialmente datos sobre razonamiento lógico, código y adherencia a instrucciones complejas). 3. El equipo estaba bajo mucha presión, tanto que recurrieron a este método para el postentrenamiento. Ni siquiera utilizaron estos modelos para sintetizar los datos para el entrenamiento; en su lugar, copiaron directamente las respuestas y realizaron una destilación. 4. Meta se basa en la serie "Destilación de Mil Preguntas" para mejorar sus habilidades de lógica y codificación. ¿No es esto una "certificación oficial" inversa del valor de la serie "Mil Preguntas" de Alibaba? Jajaja #meta #AliQianwen #qwen #Avocado #llama
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
