X (Twitter)

AK 寫了一篇播客回顧2025 年的AI 發展，它評價nano banana 是2025 年最具革命性的模型。它的意義不只是一個卓越的繪圖模型，而是一種以圖像為媒介的溝通方式。 🍌是影像版的LLM。未來還會有的視訊版的LLM。它會是什麼？ 🍅🥔🌶🍋？ AK 原文的翻譯： Google Gemini Nano Banana 是2025 年最令人驚嘆、具有典範轉移意義的模型之一。在我的世界觀裡，大語言模型（LLM）是繼20 世紀70、80 年代個人電腦之後的另一個重大計算範式。因此，基於本質上相似的邏輯，我們將會見證類似的創新浪潮：我們將看到個人運算的重生、看到微控制器的等價物（認知核心）、看到網路的演化（智能體網路）等等。特別是在使用者介面與體驗（UI/UX）方面，目前與LLM 的「對話」模式，其實有點像80 年代向電腦控制台輸入命令列。文字雖然是電腦（以及LLM）最原始、最偏好的資料表現形式，但它並不是人類偏好的格式，尤其是在輸入端。事實上，人類並不喜歡閱讀長篇累牘的文字──這既緩慢又費神。相反，人類天生喜歡以視覺和空間的方式來攝取訊息，這也是為什麼傳統運算領域會發明圖形使用者介面（GUI）。同理，LLM 也應以我們偏好的方式與我們交流透過圖像、資訊圖表、幻燈片、白板、動畫/影片以及Web 應用程式等。這種趨勢的早期雛形當然就是表情符號（emoji）和Markdown，它們透過標題、加粗、列表和表格等方式對文字進行「裝飾」和排版，使其更易於閱讀。但究竟誰能真正建構出LLM 時代的GUI？在這個視角下，Nano Banana 為我們展示了這個未來形態的初步端倪。更重要的一點是，這種能力的顯著之處不在於單純的影像生成，而在於模型權重中將文字生成、影像生成和世界知識深度交織在一起所產生的「共生能力」。

英文原文網址：karpathy.bearblog.dev/year-in-review… 期待明年的 labnana.com 能成為 nano banana 車型的最佳載體。

来自 Orange AI（@oran_ge）的推文线程

作者信息

线程正文