AK escribió un podcast analizando los avances de la IA en 2025 y describió al nanobanano como el modelo más revolucionario de 2025. Su importancia va más allá de ser un excelente modelo de dibujo; representa una forma de comunicación utilizando la imagen como medio. 🍌 es una versión visual de LLM. Próximamente estará disponible una versión en video de LLM. ¿De qué se trata? 🍅🥔🌶🍋? Traducción del texto original de AK: Google Gemini Nano Banana es uno de los modelos más sorprendentes y revolucionarios de 2025. En mi visión del mundo, los Modelos de Lenguaje Grandes (LLM) representan otro paradigma informático importante tras las computadoras personales de las décadas de 1970 y 1980. Por lo tanto, basándonos en una lógica fundamentalmente similar, seremos testigos de oleadas de innovación similares: Veremos el renacimiento de la informática personal, el equivalente a los microcontroladores (núcleos cognitivos), la evolución de Internet (redes de agentes), etc. Especialmente en términos de interfaz de usuario y experiencia (UI/UX), el modo de "conversación" actual con LLM es en realidad un poco como ingresar líneas de comando en una consola de computadora en la década de 1980. Si bien el texto es la forma más primitiva y preferida de representación de datos para las computadoras (y LLM), no es un formato preferido por los humanos, especialmente en el extremo de entrada. De hecho, a los humanos no les gusta leer textos largos y voluminosos: es un proceso lento y mentalmente agotador. Por el contrario, los humanos tenemos una inclinación natural a absorber información de forma visual y espacial, razón por la cual el campo de la informática tradicional inventó la interfaz gráfica de usuario (GUI). De manera similar, LLM debería comunicarse con nosotros de la forma que prefiramos, a través de imágenes, infografías, diapositivas, pizarras, animaciones/videos y aplicaciones web. Los primeros prototipos de esta tendencia fueron los emojis y Markdown, que "decoran" y dan formato al texto utilizando encabezados, negrita, listas y tablas para facilitar su lectura. ¿Pero quién puede realmente construir la GUI para la era LLM? Desde esta perspectiva, Nano Banana nos ofrece una visión de la forma inicial de este futuro. Más importante aún, la importancia de esta capacidad no reside en la simple generación de imágenes, sino en la "capacidad simbiótica" generada al entrelazar la generación de texto, la generación de imágenes y la profundidad del conocimiento del mundo en los pesos del modelo.
Artículkarpathy.bearblog.dev/year-in-review…ttps://labnana.com que https://t.co/XjLWDYEwoe el próximo año se convierta en la mejor plataforma para el modelo nano banana.