Jeff Dean dio una presentación en Stanford la semana pasada, resumiendo los puntos clave sobre el uso de la IA y la redacción del artículo. El video está en la sección de comentarios. ¿Cómo llegó a ser de repente la IA tan poderosa? Jeff Dean, jefe de inteligencia artificial de Google, compartió esta historia basada en su propia experiencia. Dijo: "La IA que vemos hoy es el producto de la acumulación de tecnologías durante los últimos quince años". No fue un solo avance. Fue una serie de avances. Cada avance representa un gran paso adelante para la IA. A continuación, permítanme explicarles cuáles son estos avances. Desde el primer "el modelo aprendió a ser un gato" hasta el actual "la IA gana la medalla de oro en la Olimpiada Internacional de Matemáticas". En 2012, la modelo aprendió a reconocer gatos por sí sola. 2012. Proyecto Google Brain. Jeff Dean y su equipo están realizando un experimento. Querían saber: ¿Puede la IA aprender a reconocer cosas por sí sola? No lo etiquetes, no le digas "esto es un gato" o "esto es un perro". Simplemente dale un montón de imágenes y deja que las mire solo. Utilizaron 10 millones de fotogramas de vídeos de YouTube, seleccionados al azar. No tenían etiquetas. Luego, entrenaron una red neuronal. La red era enorme, entre 50 y 100 veces más grande que la anterior. Tras el entrenamiento, examinaron las neuronas de la capa superior de la red. ¿A qué eran sensibles? El resultado sorprendió a todos. Hay una neurona particularmente sensible a los gatos. Si le muestras la imagen de un gato, se activa. Si le muestras la imagen de un perro, no se activa. El modelo aprendió por sí solo qué es un "gato". Nadie lo enseñó. Lo aprendió de 10 millones de imágenes. Este es un aprendizaje no supervisado. Jeff Dean dijo: "Eso es genial". Esto demuestra que la IA puede descubrir conceptos por sí sola. No necesita que los humanos le digan "qué es esto". Solo necesita analizar suficientes datos. Este es el punto de partida de la capacidad de aprendizaje de la IA. Hablamos de cómo la IA aprende a "ver". Ahora, hablaremos de cómo la IA aprende a "entender el lenguaje". Tecnología clave: Word2Vec. Anteriormente, las computadoras procesaban los idiomas tratando cada palabra como un símbolo aislado. «Gato» era «gato». «Perro» era «perro». No había relación entre ellos. Pero Word2Vec es diferente. Convierte cada palabra en un vector de alta dimensión. ¿Qué significa eso? Significa que cada palabra es una cadena de números. Por ejemplo, "Rey" podría ser (0.5, 0.8, 0.3, ...). "Reina" podría ser (0.5, 0.2, 0.3, ...). Pero lo sorprendente es que las direcciones de estos vectores son significativas. Si haces un cálculo: "Rey" - "Hombre" + "Mujer", obtendrás un nuevo vector. La palabra más cercana a este vector es "Reina". Esa es la magia de Word2Vec. No solo convierte palabras en números. Transforma relaciones semánticas en matemáticas. La relación entre «rey» y «reina» es como la relación entre «hombre» y «mujer». Esta relación está codificada en la dirección del vector. "Esto permite que las máquinas 'entiendan' el lenguaje por primera vez", dijo Jeff Dean. No lo entiende del todo. Pero puede calcular la semántica. Discutimos cómo la IA entiende el lenguaje. Ahora hablemos de un tema más práctico: la potencia computacional. Alrededor de 2015, Google quería lanzar un modelo mejorado de reconocimiento de voz. Funcionó muy bien y a los usuarios les gustó. Pero hay un problema. Jeff Dean hizo los cálculos: si Google utilizara este modelo, necesitaría duplicar el número de computadoras. Has oído bien. Duplica la cantidad. ¿Qué significa esto? Google ya contaba con cientos de miles de servidores en ese momento. Duplicar esa cifra implicaba comprar cientos de miles más. Eso es sencillamente poco realista. Por lo tanto, tuvieron que encontrar una manera. La respuesta es: hardware dedicado. Descubrieron que las redes neuronales tienen una característica única: son muy tolerantes a los cálculos de baja precisión. Además, su núcleo es la multiplicación de matrices densas. Estas dos características les permiten diseñar chips especializados. No utiliza una CPU ni una GPU de propósito general. En su lugar, utiliza un chip diseñado específicamente para redes neuronales. Esta es la TPU: Unidad de procesamiento tensorial. En 2015, se lanzó TPUv1. Era entre 15 y 30 veces más rápido que las CPU y GPU de la época, y entre 30 y 80 veces más eficiente energéticamente. Esto resolvió la crisis del poder computacional. Posteriormente continuaron iterando. El último sistema es 3600 veces más rápido que TPUv2. Jeff Dean dijo: "Sin hardware dedicado, no existiría la IA tal como la conocemos hoy". La potencia informática es la infraestructura de la IA. Transformer lo cambió todo Ya hablamos de hardware. Ahora hablaremos de arquitectura. En 2017, un colega de Google propuso una nueva arquitectura: el Transformer. Esto lo cambió todo. Antes de Transformer, los modelos para procesar el lenguaje eran todos modelos de bucle. ¿Cuál es el significado? Es decir, el modelo necesita procesar cada palabra una por una. Además, comprime toda la información en un solo vector. Esto es muy ineficiente. El transformador no hace eso. Su idea central es: No comprimir; conservar todos los estados intermedios. Luego, deje que el modelo “atienda” cualquier estado cuando sea necesario. Esto se llama autoatención. ¿Y cuál fue el resultado? Tiene una tasa de precisión más alta. La carga computacional se reduce entre 10 y 100 veces. Los parámetros del modelo se reducen 10 veces. Esto es una locura. Más rápido, más preciso, más pequeño. Además, Transformer puede gestionar más que sólo idiomas. También puede procesar imágenes. Este es el Transformador de Visión (ViT). Jeff Dean dijo: "El Transformer es la base de la IA moderna". ChatGPT utiliza Transformer. Géminis usa Transformador. Todos los modelos grandes que ves son Transformers. Tres técnicas para hacer que los modelos sean más inteligentes Hablamos de Transformer. Ahora, hablemos del entrenamiento. ¿Cómo podemos hacer que los modelos sean más inteligentes? Hay tres técnicas clave. El primero: modelo disperso. En una red neuronal normal, todo el modelo se activa para cada predicción. Eso es un desperdicio. Los modelos dispersos son diferentes. Solo activan entre el 1% y el 5% de los parámetros. El resto permanece inactivo. Esto redujo los costos de capacitación en 8 veces. Jeff Dean dijo: "Géminis es un modelo escaso". El segundo: la destilación. Esto implica transferir conocimiento de un modelo grande a uno más pequeño. ¿Cómo funciona esta transferencia? El modelo grande no se limita a decirle al modelo pequeño "correcto" o "incorrecto". Proporciona una distribución de probabilidad. Esta señal es muy rica. ¿El resultado? El modelo pequeño logró el mismo efecto que el modelo grande utilizando solo el 3% de los datos. El tercero: la cadena del pensamiento. Se le da un ejemplo al modelo para demostrar su funcionamiento. Por ejemplo, al resolver un problema de matemáticas, en lugar de proporcionar directamente la respuesta, se describe el proceso de razonamiento paso a paso. Esto mejora significativamente la precisión del modelo en tareas de razonamiento complejas. Estas tres técnicas hacen que el modelo sea más eficiente e inteligente. Ya hemos discutido los fundamentos tecnológicos de la IA. Ahora, hablemos de los resultados. En 2022, los investigadores de Google estaban entusiasmados con algo. Su modelo finalmente puede resolver problemas de matemáticas de secundaria. Precisión: 15%. "Juan tenía cinco conejos y luego dos más. ¿Cuántos tiene ahora?" La IA puede responder a este tipo de preguntas con un 15% de aciertos. Consideraron que esto era un gran avance. 2024. Dos años después. El mismo equipo lanzó el Gemini 2.5 Pro. Lo hicieron participar en la Olimpiada Internacional de Matemáticas. Seis preguntas. Respondió cinco correctamente. Este es un nivel de medalla de oro. De resolver el 15% de los problemas de matemáticas de secundaria a ganar una medalla de oro en la Olimpiada Internacional de Matemáticas. Dos años. Jeff Dean dijo: "Esa es la velocidad a la que está progresando la IA". No es lineal. No es una mejora gradual. Es exponencial. En 2022, la IA todavía estaba aprendiendo a sumar. En 2024, la IA ya estará resolviendo problemas de matemáticas de las Olimpiadas. ¿Y en 2026? No lo sabemos. Pero si continúa a este ritmo, podría superar nuestras expectativas. Esta es la IA que vemos hoy. No se fortaleció gradualmente, sino de repente. Desde “El modelo aprendió a ser un gato” en 2012 hasta “La IA gana la medalla de oro en la Olimpiada Internacional de Matemáticas” en 2024. Doce años. La IA ha pasado de no saber casi nada a saber casi todo. ¿Y entonces qué sigue? Jeff Dean dijo: La IA tendrá un enorme impacto en la atención médica, la educación y la investigación científica. Incluso alguien que no sabe escribir código puede tener una IA que cree un sitio web para él. Se trata de hacer que el conocimiento profesional sea accesible a más personas. Sin embargo, también debemos afrontar los riesgos potenciales. Por ejemplo, la difusión de información errónea. La IA puede generar contenido increíblemente realista. Si se usa incorrectamente, las consecuencias pueden ser graves. Jeff Dean afirmó: «No podemos ignorar los posibles impactos negativos. Nuestro objetivo es maximizar los beneficios de la IA y minimizar sus posibles inconvenientes». Esta es la historia de la IA. Desde la retropropagación hasta Transformer y Gemini, la tecnología, el hardware y los algoritmos se han combinado en los últimos quince años. La IA que vemos hoy es un producto de todo esto. Y esta historia continúa.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.