AK 寫了一篇播客回顧2025 年的AI 發展,它評價nano banana 是2025 年最具革命性的模型。 它的意義不只是一個卓越的繪圖模型,而是一種以圖像為媒介的溝通方式。 🍌是影像版的LLM。 未來還會有的視訊版的LLM。它會是什麼? 🍅🥔🌶🍋? AK 原文的翻譯: Google Gemini Nano Banana 是2025 年最令人驚嘆、具有典範轉移意義的模型之一。 在我的世界觀裡,大語言模型(LLM)是繼20 世紀70、80 年代個人電腦之後的另一個重大計算範式。因此,基於本質上相似的邏輯,我們將會見證類似的創新浪潮: 我們將看到個人運算的重生、看到微控制器的等價物(認知核心)、看到網路的演化(智能體網路)等等。 特別是在使用者介面與體驗(UI/UX)方面,目前與LLM 的「對話」模式,其實有點像80 年代向電腦控制台輸入命令列。 文字雖然是電腦(以及LLM)最原始、最偏好的資料表現形式,但它並不是人類偏好的格式,尤其是在輸入端。 事實上,人類並不喜歡閱讀長篇累牘的文字──這既緩慢又費神。 相反,人類天生喜歡以視覺和空間的方式來攝取訊息,這也是為什麼傳統運算領域會發明圖形使用者介面(GUI)。 同理,LLM 也應以我們偏好的方式與我們交流透過圖像、資訊圖表、幻燈片、白板、動畫/影片以及Web 應用程式等。 這種趨勢的早期雛形當然就是表情符號(emoji)和Markdown,它們透過標題、加粗、列表和表格等方式對文字進行「裝飾」和排版,使其更易於閱讀。 但究竟誰能真正建構出LLM 時代的GUI? 在這個視角下,Nano Banana 為我們展示了這個未來形態的初步端倪。 更重要的一點是,這種能力的顯著之處不在於單純的影像生成,而在於模型權重中將文字生成、影像生成和世界知識深度交織在一起所產生的「共生能力」。
英文原文網址:karpathy.bearblog.dev/year-in-review… 期待明年的 labnana.com 能成為 nano banana 車型的最佳載體。