El sorprendente artículo mencionado por el gurú tecnológico de Google, Jeff Dean: Titanes Dejemos que la IA nos proporcione una explicación sencilla. Titans le otorga a la IA "memoria real", lo que le permite recordar cosas importantes como un humano, olvidar cosas sin importancia y aprender y memorizar a medida que las usa. Tres características impresionantes: 1. Se resolvió el problema de la "memoria del pez dorado" en IA. Transformador: Como un estudiante destacado, recuerda todo con claridad, pero no puede retener demasiado en su cerebro (sólo puede leer unos pocos miles de palabras). Las RNN tradicionales son como maniáticos de la compresión, que meten todo en una caja pequeña, lo que hace que no recuerden nada. La solución de los titanes - Memoria a corto plazo: utilizar mecanismos de atención para procesar con precisión el contenido visto en ese momento. - Memoria a largo plazo: Utilización de redes neuronales como "cerebro" para codificar información importante en parámetros. - Memoria persistente: Almacenar conocimiento sobre la tarea en sí. Al igual que el cerebro humano, los tres tipos de memoria tienen cada uno su propia función. 2. Capaz de juzgar lo que vale la pena recordar Innovación central: inspirarse en el sistema de memoria humana: los eventos inesperados se recuerdan más fácilmente, definido como una métrica de sorpresa. Lea la noticia: Al ver "Hoy hace buen tiempo" → No te sorprendas, no es necesario recordarlo. - Me sorprendió ver "Vida descubierta en Marte", así que rápidamente lo escribí. - Informes de seguimiento → Aunque ya no me sorprende tanto, todavía vale la pena recordarlo porque está relacionado con eventos importantes anteriores. Cómo funcionan los Titanes: - Sorpresa actual: ¿Qué tan diferente es esta información de lo que he visto antes? - Sorpresas históricas: ¿Ha ocurrido algún acontecimiento significativo recientemente? - Olvido adaptativo: ¿Durante cuánto tiempo debe conservarse este recuerdo? 3. Aprende mientras lo usas y te volverás más inteligente cuanto más lo uses. Los modelos tradicionales se fijan una vez entrenados; durante las pruebas, sólo pueden "recordar" en lugar de "aprender". El módulo de memoria de Titans todavía se actualizaba durante las pruebas, ajustando la memoria en tiempo real al ver contenido nuevo. ¿Qué tan dramáticos fueron los resultados experimentales? Comprensión de textos extremadamente largos, tarea de la aguja en el pajar Encuentre una pieza clave de información en un artículo de 16.000 palabras; tasa de precisión de Titans: 96%+. Mi oponente más fuerte, Mamba2: 5,4% (básicamente una suposición) La tarea de razonamiento extremadamente difícil de BABILong: deducir de un documento de un millón de palabras. Los Titanes, con menos de 1/70 del número de parámetros, derrotaron al Llama 3.1 con 70 mil millones de parámetros, e incluso superaron al GPT-4. También se desempeñan bien en tareas rutinarias. - Modelado del lenguaje: mejor que Transformer y todas las RNN lineales - Predicción de series temporales: Liderazgo en 7 conjuntos de datos - Análisis de secuencias genéticas: alcanzar el nivel óptimo de tecnología de punta (SOTA) ¿Por qué otros modelos no pueden hacerlo? El dilema de Transformer: ¿Quieres recordar un millón de palabras? La memoria explota, no puede calcular, solo puede ver ventanas de longitud fija. El problema con las RNN lineales es que comprimen la historia en un vector o matriz, lo cual es como resumir un libro en una sola frase. Se pierde demasiada información, no hay mecanismo de olvido y, con el tiempo, el cerebro se confunde. Ventajas de los titanes - Memoria profunda: el uso de redes neuronales multicapa como memoria es mucho más poderoso que una sola matriz. - Mecanismo de impulso: no mire sólo el presente, sino también las tendencias recientes. - La Puerta del Olvido: Olvida lo que debe ser olvidado, recuerda lo que debe ser recordado. - Entrenamiento paralelo: Aunque complejo, no es lento. Ingenio técnico Para transformar el "aprendizaje" en "memoria" es necesario utilizar un módulo de memoria que básicamente realiza un descenso de gradiente, pero esto se hace durante las pruebas, lo que lo hace equivalente a un "meta-aprendiz". Se han unificado muchos métodos existentes: ¿La Puerta Olvidada de Mamba? Un caso especial de titanes. ¿Las reglas incrementales de DeltaNet? Una versión simplificada de Titans. ¿Entrenamiento para la prueba TTT? Los Titanes ganaron impulso y olvidaron. ¿Por qué es importante este trabajo? Esto abrió nuevas vías de pensamiento, yendo más allá de simplemente "ampliar el modelo" u "optimizar la atención", y repensando la arquitectura desde la perspectiva del sistema de memoria. Abordar puntos críticos reales: análisis de documentos extensos, comprensión de videos extensos y escenarios de aprendizaje continuo. La última analogía Transformador = memoria de la cámara, puede recordar todo lo que ve, pero solo puede mirar una pequeña parte a la vez. Las RNN tradicionales son como tomar notas, resumiendo todo en unas pocas oraciones, pero perdiendo los detalles. Titanes = Cerebro humano Memoria a corto plazo: procesa la información actual. - Memoria a largo plazo: almacenar experiencias importantes Metamemoria: Saber aprender Olvídate de las cosas sin importancia ¿Qué lo hace fuerte? 1. Puede recordar más: Si se hubiera expandido a 2 millones de tokens, otros modelos habrían colapsado hace mucho tiempo. 2. Recordar con mayor precisión: saber qué es importante y qué debe olvidarse. 3. Se vuelve más inteligente cuanto más lo usas: todavía está aprendiendo durante las pruebas. 4. La teoría está garantizada: hay pruebas matemáticas y experimentos. 5. Los experimentos son muy impresionantes: todas las tareas están en o cerca del nivel del estado del arte (SOTA). ¡Eso es realmente asombroso!
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.