X (Twitter)

Basándose en lo que mencionó Wang Guan, un investigador de OpenAI compartió anteriormente en Stanford cómo hacer que la IA escriba un artículo fácil de entender. ¿Qué hace exactamente el entrenamiento GPT? La mayoría de la gente diría "aprender las reglas del lenguaje" o "predecir la siguiente palabra". Todas estas afirmaciones son correctas, pero no son lo suficientemente profundas. Jack Rae de OpenAI propuso una perspectiva novedosa en Stanford: entrenar modelos de lenguaje grandes consiste esencialmente en realizar una compresión sin pérdidas. Eso es contra-intuitivo, ¿no? ¿Cómo se puede "comprimir" un modelo con 175 parámetros? Pero si entiendes esta perspectiva, muchas de tus confusiones de repente se aclararán. Hablemos primero de un poco de filosofía. Ya en el siglo IV a. C., Aristóteles afirmó: «Un argumento derivado con menos suposiciones es a menudo superior». Esta idea de que "la simplicidad es belleza" fue posteriormente resumida por Ockham en el siglo XIV en el famoso principio de la "navaja de Ockham": la explicación más simple es a menudo la correcta. Sin embargo, estas especulaciones filosóficas fueron transformadas en teoremas matemáticos demostrables por Ray Solomonoff en 1964: Si un conjunto de datos se genera mediante un determinado algoritmo, la mejor manera de predecir este conjunto de datos es encontrar el archivo comprimido ejecutable más pequeño del conjunto de datos. El teorema es bastante ingenioso: establece que cuanto mejor se compriman los datos, mejor se comprende su esencia. Recordemos el clásico experimento mental de la "Habitación China". Una persona sostenía un enorme libro de reglas, que contenía todas las posibles oraciones en inglés y sus correspondientes traducciones al chino. ¿Esta persona realmente "entiende" la traducción? Desde una perspectiva de compresión, la respuesta es clara: este manual es demasiado grande y representa la peor manera de entenderlo. Si aparece una nueva palabra o expresión, el sistema se bloquea inmediatamente porque sólo está buscando en una tabla y no ha comprendido realmente las reglas del lenguaje. Pero si puedes condensar este manual en un conjunto conciso de reglas gramaticales y vocabulario básico, esa es otra historia. Cuanto mayor sea la relación de compresión, más fundamental será el patrón extraído y mayor será su capacidad de generalización. Los modelos de lenguaje grandes son los mejores compresores Veamos primero un conjunto de números asombrosos. El modelo Llama de Meta, versión 65B, fue entrenado durante una época con 1,4 billones de tokens. El tamaño original de los datos era de 5,6 TB, pero si se utiliza este modelo para "comprimirlos", al final solo se necesitan unos 400 GB de espacio. Relación de compresión 14 veces. En comparación, el mejor algoritmo de compresión de texto tradicional hasta la fecha (el ganador del Premio Hutter) logra una relación de compresión de 8,7x. Los modelos de lenguaje de gran tamaño ya son los compresores de texto sin pérdida más avanzados. Quizás te preguntes: Un momento, ¿no tiene el modelo 65B 260 GB? ¿Cómo puedes decir que solo tiene 400 GB después de la compresión? Esta es la parte más emocionante. No es necesario transferir los pesos de los modelos; la clave es comprender el verdadero significado de "compresión". Supongamos que desea enviar todo el contenido de Wikipedia a un amigo, pero su ancho de banda es muy bajo. El método tradicional es utilizar compresión gzip, pero hay una forma más inteligente: Le enviaste dos cosas a tu amigo: 1. Un fragmento de código para entrenar un Transformer (solo 1 MB) 2. La secuencia de datos comprimidos utilizando este modelo (400 GB) Después de recibir el código, mi amigo lo usó para entrenar un modelo idéntico desde cero. Para cada token previsto, los datos comprimidos se "decodifican" para revelar el token real y luego el entrenamiento continúa para predecir el siguiente. Al repetir este proceso, se pueden restaurar por completo los 5,6 TB de datos originales. ¿Ves? Nunca es necesario transmitir el peso del modelo. Independientemente de si entrena un transformador de 10 capas o de 1000 capas, la complejidad del código de inicialización es casi la misma. Los datos que realmente ocupan espacio son los "datos comprimidos", y su tamaño depende de la precisión de las predicciones del modelo. Es por esto que los modelos más grandes se comprimen mejor. Redefinamos la "simplicidad". El aprendizaje automático tradicional nos dice que "los modelos más pequeños se generalizan mejor" porque son "más simples". Sin embargo, "simple" aquí se refiere a tener menos parámetros. La perspectiva de la compresión nos dice que la verdadera simplicidad no consiste en tener menos parámetros, sino en describir los datos de forma más concisa. Llama 33B y 65B tienen la misma "complejidad de código" (ambos tienen 1 MB de código de entrenamiento), pero 65B comprime los datos para que sean más pequeños. Básicamente, el 65B es un modelo "más simple" y también más inteligente. Esta es la razón por la que los modelos grandes no se sobreajustan y por la que las leyes de escala son efectivas. Mientras el modelo pueda comprimir mejor los datos, aprenderá más reglas fundamentales y tendrá una mayor capacidad de generalización. Las perspectivas comprimidas también nos brindan un regalo especial: es el único objetivo de entrenamiento que no es independiente del juego. La contaminación del conjunto de pruebas es un problema importante en las evaluaciones de modelos grandes. Sin embargo, este problema no existe cuando se mide por compresión. Supongamos que introduce todo el conjunto de prueba en el conjunto de entrenamiento, lo que permite que el modelo lo memorice perfectamente. De esta manera, la precisión de predicción del modelo es del 100% y la porción de datos comprimidos llega a ser 0. ¿Pero cuál es el costo? Debes incluir todo el conjunto de datos en la "longitud de la descripción del modelo". El efecto general de compresión en realidad empeoró. Ésta es la elegancia de la compresión: cualquier trampa quedará expuesta matemáticamente. Sólo comprendiendo verdaderamente los principios esenciales podremos lograr una mejor compresión. Desde esta perspectiva, el camino hacia la IAG se vuelve claro: Recopile toda la información perceptiva útil y luego comprímala tanto como sea posible. Vale la pena estudiar cualquier método que pueda mejorar la relación de compresión: • Mejor arquitectura (S4, atención dispersa) • Continuar escalando (modelo más grande, más datos) • Uso de herramientas (calculadora, motor de búsqueda) • Datos sintéticos • Fusión multimodal Mientras pueda reducir el "tamaño total después de la compresión", se estará avanzando hacia la IAG. Mirando hacia atrás en la historia, cada cambio de paradigma en IA ha sido esencialmente un salto comprimido: • Los n-gramas nos proporcionan un reconocimiento de voz básico. • Las RNN nos permiten generar párrafos coherentes y realizar traducción automática. • Los transformadores a gran escala nos permiten comprender documentos extensos y realizar razonamientos complejos. Cada vez comprimimos más la información del mundo y la entendemos más profundamente. Por supuesto, esta perspectiva también tiene limitaciones. Para datos de alta dimensión, como imágenes y vídeos, el modelado píxel por píxel puede ser correcto, pero poco práctico. La carga computacional sería explosiva. Quizás necesitemos realizar primero algún filtrado semántico. Lo más importante es que mucha información útil en el mundo no es observable. Por ejemplo, en el "árbol de búsqueda" de un maestro de Go, sólo se pueden ver los movimientos realizados, no las ramas que consideran. Es por esto que AlphaZero necesita jugar contra sí mismo; genera esos datos no observables. Por lo tanto, comprimir los datos observables es necesario, pero no suficiente. El aprendizaje por refuerzo y la exploración proactiva siguen siendo métodos esenciales. Pero en cualquier caso, la compresión nos da una nueva perspectiva para entender la inteligencia. Cuando decimos que en un modelo han “emergido” nuevas capacidades, ¿significa esencialmente que la relación de compresión ha cruzado un cierto punto crítico? Cuando decimos que un modelo “entiende” un concepto, ¿significa que ha encontrado una forma más concisa de codificar la información relevante? Cuando buscamos la IA general, ¿estamos buscando la longitud descriptiva mínima de información en el universo? No hay respuestas estándar para estas preguntas. Pero eso es precisamente lo que hace que este campo sea tan fascinante: utilizamos las matemáticas y la ingeniería para explorar la naturaleza de la inteligencia. La esencia de la inteligencia puede residir en la compresión. Lo que estamos haciendo ahora es dar pasos en este camino hacia la respuesta más simple y elegante.

Direcciyoutube.com/watch?v=dO4TPJ…https://t.co/0PHaKYslmc

Hilo de 向阳乔木 (@vista8)

Información del autor

Contenido del hilo