X (Twitter)

AKの2025年の概要は多くの人が翻訳したり要約したりしていると思います。私自身の学習のために再度書き直し、フォーマットしましたが、元のテキストを読むことをお勧めします。 --- アンドレイ・カルパシーは、2025 年の LLM の回顧録を書き、その中で「状況を変える」と思われる 6 つの事柄を挙げました。 1. 強化学習は新たな用途を見つけました。以前は、大規模モデルのトレーニングには次の 3 つのステップが必要でした。 ① 事前学習（2020年のGPT-2/3セット） ② モニタリングと微調整（2022年のInstructGPT） ④ ヒューマンフィードバック強化学習（RLHF、2022年）。この方式は数年間安定しています。 2025 年には、4 番目のステップである RLVR (検証可能な報酬強化学習) が追加されました。モデルに数学の問題を解いたり、コードを書いたりといった標準的な答えのある質問を課すと、モデルは独自の推論戦略を見つけ出します。彼らは問題を小さなステップに分割し、何度も試行錯誤して、自分に合った方法を見つけます。これらの戦略は、どの推論パスがモデルにとって最適であるかわからないため、従来のトレーニング方法を使用して教えることは困難であり、報酬の最適化を通じてモデル自身にそれを発見させることしかできません。重要な変更点は、コンピューティングリソースの割り当てです。これまでの教師あり微調整と RLHF はどちらも計算コストがほとんどかからない「薄い層」でした。ただし、報酬関数は客観的であり、悪用されることがないため、RLVR は長期間にわたってトレーニングできます。その結果、当初事前トレーニング用に予定されていた計算能力が RLVR によって消費されてしまいました。そのため、2025年にはモデルサイズはあまり変化しませんでしたが、強化学習時間が大幅に延長されました。さらに、テスト中の計算量を制御する新しいコントロールノブが追加されました。より長い推論プロセスを生成させ、「思考時間」を増やすことで、モデルの機能を向上させることができます。 OpenAI の o1 (2024 年末) は最初の RLVR モデルです。しかし、o3（2025年初頭）こそが本当の転換点であり、違いを直接感じることができるでしょう。 2. 私たちは動物を飼育しているのではなく、幽霊を召喚しているのです。カルパシー氏は2025年に、大規模モデル知能の「形」をより直感的に理解し始めたと述べた。彼は非常に興味深い例え話をしました。「我々は進化する動物ではなく、幽霊を召喚しているのだ」大規模モデルでは、ニューラルネットワークアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、特に最適化の圧力など、すべてが異なります。人間の知能はジャングルでの生存のために最適化されています。ただし、大規模モデルのインテリジェンスは、人間のテキストを模倣し、数学の問題で報酬を獲得し、LLM 分野で人間の承認を得るために最適化されています。そのため、その能力は鋸歯のように特に不均一です。検証可能な領域 (数学やコードなど) では、RLVR を使用してトレーニングできるため、モデルの機能が「爆発的に」向上する可能性があります。しかし、混乱した小学生である可能性もあり、脱獄攻撃によっていつでもデータが盗まれる可能性があります。カルパシー氏は、人間の知能もギザギザしているが、形が違うだけだと語る。彼は評価基準に対する信頼を失った。根本的な問題は、ベンチマークテストはほぼ常に検証可能な環境で行われるため、すぐに RLVR と合成データ生成のターゲットになってしまうことです。ラボチームは、ベンチマークが占める埋め込みスペースの近くにトレーニング環境を構築し、ベンチマークをカバーするためにギザギザのエッジを成長させます。テストセットでのトレーニングは、新しい芸術形式になりました。(皮肉でしょうか?) 彼はまた、非常に鋭い質問を投げかけました。「すべてのベンチマークテストで高得点を獲得しても、AGI を達成できなかったらどうなるでしょうか?」 3. カーソルにより、誰でもアプリケーション層を見ることができます。 Cursor は今年非常に人気になりましたが、Karpathy 氏は、さらに重要なのは Cursor が人々に新しいレベルの「LLM アプリケーション」を示したことだと考えています。人々は「Xのカーソル」と言い始めました。カーソルのようなアプリケーションは、大規模なモデルを一度調整するだけではありません。 ① コンテキストエンジニアリングを実行します。② バックグラウンドで複数の大規模モデル呼び出しを、ますます複雑になるDAG（有向非巡回グラフ）に連鎖させ、パフォーマンスとコストのバランスを取ります。③ ユーザーにアプリケーション固有のインターフェースを提供します。④ 自由度を制御できる「自己調整スライダー」を提供します。 2025 年には、このアプリケーション層がどの程度「厚くなる」かについて多くの議論がありました。大規模モデルラボがすべてのアプリケーションを飲み込んでしまうのでしょうか？それとも、LLMアプリケーションは独自の領域を確保して生き残ることができるのでしょうか？カルパシー氏の意見は次のとおりです。大規模なモデルラボは「優秀な大学生」を育成することができます。しかし、LLM アプリケーションは、個人データ、センサー、アクチュエータ、フィードバックループを提供することで、これらの大学生を組織化し、特定の分野の専門チームに変えていきます。 4. Claude Code はコンピューターに AI を導入します。クロード・コードは、2025 年に最初の説得力のある「インテリジェントエージェント」です。複雑な問題を解決するために、ツールと推論を循環的に使用します。しかし、さらに重要なのは、プライベートな環境、データ、コンテキストを使用して、コンピューター上で実行されることです。カルパシー氏は、OpenAI が間違った方向に進んでいると考えている。彼らは、ローカルホストではなく、ChatGPT からオーケストレーションされたクラウドコンテナー上の Codex とエージェントに注力しました。クラウドベースのインテリジェントな集団は「AGI の究極の形」のように聞こえますが、私たちは現在、機能が不均等に開発され、進歩が遅い中間の世界に住んでいます。この段階では、インテリジェントエージェントをコンピューター上で開発者と直接連携させる方が合理的です。 Claude Code はこれをシンプルでエレガントなコマンドラインツールに変え、AI の動作方法を変えました。これは、単に訪問する Web サイト (Google など) ではなく、コンピューター上に「住む」小さな妖精またはゴーストです。これは AI と対話するための新しいパラダイムです。 5. Vibe Coding により、誰でもプログラミングを利用できるようになります。 2025年には、AIは能力の限界を超えるでしょう。コードの見た目を気にすることなく、英語で記述することであらゆる種類の複雑なプログラムを作成できます。カルパシー氏はツイートで「バイブコーディング」について何気なく言及したが、これほど広まるとは予想していなかった。 Vibe Coding により、プログラミングはもはや専門家だけのものではなくなり、誰でもできるようになります。しかし、さらに重要なのは、専門家が通常は書かないようなソフトウェアをより多く書けるようになることです。カルパシー氏は自身の例を挙げた。 nanochat プロジェクトでは、効率的な BPE トークナイザーを Rust で作成しましたが、そのレベルでは Rust をまったく理解しておらず、完全に Vibe Coding に依存していました。彼はまた、バグを見つけるためだけに、多数の簡単なデモプロジェクト (menugen、llm-council、reader3、HN time capsule) や、1 回限りのプログラムもいくつか作成しました。コードは突然、無料、短命、柔軟、使い捨てになりました。 Vibe Coding はソフトウェアの外観と作業の定義を変えます。カルパシー氏はまた、以前の記事「人々に力を与える: LLM がテクノロジーの普及をどのように阻害しているか」についても言及しました。これまでのテクノロジーとは異なり、大規模モデルから一般の人々が得る利益は、専門家、企業、政府が得る利益をはるかに上回ります。 6. Nano Banana は大規模モデル用の GUI です。 Google の Gemini Nano Banana は、2025 年で最も驚くべきモデルの 1 つです。カルパシー氏は、1970 年代や 80 年代のコンピュータと同様に、大規模モデルが次の主要なコンピューティングパラダイムになると考えています。したがって、同様の理由で同様のイノベーションが見られるのです。個々の計算に相当するもの、マイクロコントローラに相当するもの (認知コア)、インターネットに相当するもの (インテリジェントエージェントネットワーク) が存在します。インタラクティブインターフェースで大型モデルと「チャット」するのは、1980 年代のコンソールでコマンドを入力するのと似ています。テキストは、コンピューターや大規模なモデルが好む生の形式ですが、人間が好む形式ではありません。人々は実際には読書が好きではありません。読むのが遅すぎるし、疲れるからです。人々は視覚的かつ空間的な情報を好むため、従来のコンピューターでは GUI が発明されました。大きなモデルも、画像、インフォグラフィック、スライド、ホワイトボード、アニメーション、ビデオ、Web アプリケーションなど、私たちが好む形式で表現される必要があります。初期のバージョンでは、絵文字と Markdown を使用してテキストを「装飾」し、見出し、太字、斜体、リスト、表などで情報をわかりやすくしていました。しかし、実際にこのような大規模なモデルの GUI を構築するのは誰でしょうか? ナノバナナは初期のヒントです。重要なのは、画像を生成するだけではなく、テキスト生成、画像生成、世界知識をモデルの重みに統合し、共同機能を形成することです。最後にカルパシー氏は、2025年の大型モデルは予想よりもはるかに賢く、またはるかに愚かだったと語った。しかし、それらは非常に有用であり、業界はまだその潜在能力の 10% も活用していません。試すべきアイデアは数多くあり、この分野は概念的にはまだ非常にオープンです。彼が今年、ドワルケシュポッドキャストで非常に興味深いことを言っていました。彼は、一見矛盾しているように見える 2 つのことを同時に信じているということです。つまり、急速かつ継続的な進歩が見られるだろうが、同時に、やるべきことはまだたくさんある、ということです。しっかりつかまって。

向阳乔木（@vista8）のスレッド

作者情報

スレッド内容