AK a écrit un podcast passant en revue les développements de l'IA en 2025, et il a décrit la nano-banane comme le modèle le plus révolutionnaire de 2025. Son importance dépasse le simple fait d'être un excellent modèle de dessin ; elle représente une forme de communication utilisant les images comme moyen d'expression. 🍌 est une version visuelle de LLM. Une version vidéo de LLM sera disponible ultérieurement. De quoi s'agira-t-il ? 🍅🥔🌶🍋? Traduction du texte original d'AK : La Google Gemini Nano Banana est l'un des modèles les plus étonnants et novateurs de 2025. Selon moi, les grands modèles de langage (LLM) représentent un autre paradigme informatique majeur après les ordinateurs personnels des années 1970 et 1980. Par conséquent, et selon une logique fondamentalement similaire, nous assisterons à des vagues d'innovation comparables : Nous assisterons à la renaissance de l'informatique personnelle, l'équivalent des microcontrôleurs (cœurs cognitifs), l'évolution d'Internet (réseaux d'agents), etc. En particulier en termes d'interface utilisateur et d'expérience utilisateur (UI/UX), le mode « conversation » actuel avec LLM ressemble un peu à la saisie de lignes de commande dans une console d'ordinateur dans les années 1980. Bien que le texte soit la forme de représentation des données la plus primitive et la plus prisée par les ordinateurs (et les LLM), ce n'est pas un format préféré des humains, en particulier du côté de la saisie. En réalité, les humains n'aiment pas lire des textes longs et volumineux — c'est à la fois lent et mentalement éprouvant. À l'inverse, les humains sont naturellement enclins à absorber l'information visuellement et spatialement, ce qui explique pourquoi le domaine informatique traditionnel a inventé l'interface utilisateur graphique (GUI). De même, LLM devrait communiquer avec nous de la manière que nous préférons, par le biais d'images, d'infographies, de diapositives, de tableaux blancs, d'animations/vidéos et d'applications Web. Les premiers prototypes de cette tendance étaient les émojis et Markdown, qui « décorent » et mettent en forme le texte à l'aide de titres, de gras, de listes et de tableaux pour en faciliter la lecture. Mais qui est véritablement capable de concevoir l'interface graphique pour l'ère du LLM ? De ce point de vue, Nano Banana nous offre un aperçu de la forme initiale de ce futur. Plus important encore, l'importance de cette capacité ne réside pas dans la simple génération d'images, mais dans la « capacité symbiotique » générée par l'entrelacement de la génération de texte, de la génération d'images et de la profondeur des connaissances du monde dans les pondérations du modèle.
Articlekarpathy.bearblog.dev/year-in-review…https:/labnana.comère que https://t.co/XjLWDYEwoe deviendra l'année prochaine la meilleure plateforme pour le modèle de la nano-banane.