AK escreveu um podcast analisando os desenvolvimentos da IA em 2025, e descreveu a nano banana como o modelo mais revolucionário de 2025. Sua importância vai além de ser um excelente modelo para desenho; representa uma forma de comunicação que utiliza imagens como meio. 🍌 é uma versão visual do LLM. Uma versão em vídeo do LLM estará disponível futuramente. Qual será o seu conteúdo? 🍅🥔🌶🍋? Tradução do texto original de AK: O Google Gemini Nano Banana é um dos modelos mais incríveis e revolucionários de 2025. Na minha visão de mundo, os Modelos de Linguagem de Grande Porte (LLMs) representam outro paradigma importante da computação, seguindo os computadores pessoais das décadas de 1970 e 80. Portanto, com base em uma lógica fundamentalmente semelhante, presenciaremos ondas similares de inovação: Veremos o renascimento da computação pessoal, o equivalente aos microcontroladores (núcleos cognitivos), a evolução da Internet (redes de agentes) e assim por diante. Principalmente em termos de interface e experiência do usuário (UI/UX), o modo de "conversação" atual com o LLM é um pouco como digitar linhas de comando em um console de computador na década de 1980. Embora o texto seja a forma mais primitiva e preferida de representação de dados para computadores (e LLM), não é um formato preferido pelos humanos, especialmente na entrada de dados. Na verdade, os seres humanos não gostam de ler textos longos e volumosos — é uma tarefa lenta e mentalmente desgastante. Por outro lado, os seres humanos têm uma inclinação natural para absorver informações visual e espacialmente, razão pela qual o campo da computação tradicional inventou a interface gráfica do usuário (GUI). Da mesma forma, a LLM deve se comunicar conosco da maneira que preferirmos, por meio de imagens, infográficos, slides, quadros brancos, animações/vídeos e aplicativos da web. Os primeiros protótipos dessa tendência foram os emojis e o Markdown, que "decoram" e formatam o texto usando títulos, negrito, listas e tabelas para facilitar a leitura. Mas quem realmente pode construir a interface gráfica do usuário para a era do LLM? Dessa perspectiva, Nano Banana nos oferece um vislumbre da forma inicial desse futuro. Mais importante ainda, a relevância dessa capacidade reside não na simples geração de imagens, mas na "capacidade simbiótica" gerada pela integração da geração de texto, da geração de imagens e da profundidade do conhecimento do mundo nos pesos do modelo.
Artigo karpathy.bearblog.dev/year-in-review…ps://t.labnana.comue https://t.co/XjLWDYEwoe se torne, no próximo ano, a melhor plataforma para o modelo nano banana.