AK 氏は 2025 年の AI 開発をレビューするポッドキャストを執筆し、ナノバナナを 2025 年の最も革新的なモデルと表現しました。 その意義は、優れた描画モデルであることにとどまらず、画像を媒体として用いたコミュニケーションの一形態を表しています。 🍌 は LLM のビジュアルバージョンです。 LLMのビデオ版が将来利用可能になる予定です。どのような内容になるのでしょうか? 🍅🥔🌶🍋? AKの原文の翻訳: Google Gemini Nano Banana は、2025 年の最も驚くべき、パラダイムシフトをもたらすモデルの 1 つです。 私の世界観では、大規模言語モデル(LLM)は、1970年代と80年代のパーソナルコンピュータに続く、もう一つの主要なコンピューティングパラダイムを表しています。したがって、根本的に同様の論理に基づいて、私たちは同様のイノベーションの波を目撃することになるでしょう。 パーソナルコンピューティングの復活、マイクロコントローラ(認知コア)の同等物、インターネット(エージェントネットワーク)の進化などが見られるでしょう。 特にユーザー インターフェイスとエクスペリエンス (UI/UX) の点では、LLM の現在の「会話」モードは、実際には 1980 年代にコンピュータ コンソールにコマンド ラインを入力するのと少し似ています。 テキストは、コンピューター (および LLM) にとって最も原始的かつ好ましいデータ表現形式ですが、特に入力側では、人間が好む形式ではありません。 実際、人間は長くて分厚い文章を読むことを好みません。それは時間がかかるし、精神的にも負担がかかるからです。 逆に、人間は本質的に視覚的かつ空間的に情報を吸収する傾向があるため、従来のコンピューティング分野ではグラフィカル ユーザー インターフェイス (GUI) が発明されました。 同様に、LLM は、画像、インフォグラフィック、スライド、ホワイトボード、アニメーション/ビデオ、Web アプリケーションなど、私たちが好む方法で私たちとコミュニケーションをとる必要があります。 このトレンドの初期のプロトタイプは絵文字と Markdown で、見出し、太字、リスト、表を使用してテキストを「装飾」してフォーマットし、読みやすくするものでした。 しかし、LLM 時代の GUI を本当に構築できるのは誰でしょうか? この観点から見ると、ナノバナナは私たちにこの未来の初期の形を垣間見せてくれます。 さらに重要なのは、この機能の重要性は単なる画像生成ではなく、テキスト生成、画像生成、そしてモデルの重みにおける世界知識の深さを織り交ぜることで生み出される「共生能力」にあるということです。
オリジナルの英karpathy.bearblog.dev/year-in-review…OwWtM labnana.com 来年はナノバナナモデルにとって最高のプラットフォームになることを願っています。