LLMは死んだのか?強化学習のゴッドファーザーは、大規模言語モデルは行き詰まりだと考えている。 このとんでもない発言をした人物は、強化学習の創始者の一人であるリチャード・サットンです。 彼の視点は単純明快です。LLM は人工知能の基礎ではなく、単に AI 分野におけるトレンドに過ぎないのです。 AIの真の基盤は強化学習であるべきです。 彼の見解は過激だが、彼が挙げる理由は検討する価値がある。 最初の致命的な問題: 目標のない「知性」。 サットンは疑問を投げかけた。「目標がないものを知性と呼べるだろうか?」 彼はジョン・マッカーシーの定義を引用し、知性の本質は「目標を達成する能力の計算的部分」であると述べた。 この標準によると、LLM にはどのような問題がありますか? LLM のいわゆる「ターゲット」は、単に次の単語を予測することです。 テキストを入力すると、次に現れる可能性が最も高い単語を教えてくれます。 しかし、これは目標とみなされるのでしょうか? サットンは率直にこう言った。「トークンは勝手にやって来る。トークンを予測することはできても、影響を与えることは全くできない」 これは外の世界における目標に関するものではなく、単なる言葉遊びです。 目標がなければ、「正しい」という定義はありません。 正しいこととは何でしょうか? 強化学習では、答えは明らかです。報酬をもたらすものなのです。 しかし、法学修士(LLM)はどうでしょうか? 善悪の基準すら曖昧です。 2 番目の大きな欠陥: 現実的な世界モデルの欠如。 LLM の得意分野は何でしょうか? 人間を模倣することです。 人間の話し方、書き方、さらには考え方までも真似ることができます。 しかしサットン氏はこう言う。「言語を真似ることは世界を理解することと同じではない。」 LLM は人が何を言うかを予測できますが、何が起こるかを予測することはできません。 この区別は重要です。 真の世界モデルは、自分の行動の結果を予測することを可能にするはずです。 たとえば、カップをテーブルから押し出すと、カップは地面に落ちて割れてしまいます。 これは物理的な世界についての理解です。 しかし、LLMはどうでしょうか?LLMが知っているのは「カップは割れるだろうとよく言われる」ということだけです。これは2つの異なることです。 さらに重要なのは、LLM は事故から学ばないということです。 A が起こると予測したのに、代わりに B が起こったとします。 世界を真に理解するシステムは、「ああ、私は間違っていた。モデルを調整する必要がある」と言うでしょう。しかし、LLMはそうは言いません。 このモデルは現実世界を予測するものではなく、トレーニング データで人々が何を言うかを予測するだけなので、「偶然」という概念はありません。 Sutton 氏の要約は洞察に富んでいます。LLM は経験からではなく、トレーニング データから学習します。 経験とは何でしょうか?それは何かをやってみて、実際に何が起こるかを見ることです。 こうした直接的な交流こそが、真の学びの源なのです。 3つ目のパラドックス:スケーラビリティの罠 サットンは「苦い教訓」という有名な記事を書きました。 中心的な考え方: 人間の知識に依存する方法は、最終的には純粋に計算と学習に依存する方法に負けるということを歴史は繰り返し示してきました。 多くの人は、LLM がこの教訓の最新の例だと信じています。 膨大な量のデータと計算能力でトレーニングされたモデルは、従来のルール システムを超えているのではないでしょうか。 しかし、サットン氏はこう言った。「待ってみてください。LLM は最終的にこのレッスンの反対になるでしょう。」 なぜでしょうか?それは、LLM は本質的に依然として人間の知識に依存しているからです。 人間の文章、会話、行動から学習します。 これらは人類の知識の成果です。 サットン氏は、真にスケーラブルなアプローチは... だと考えています。 システム自体が、何が機能し、何が機能しないかを試して観察します。 誰かに正しいか間違っているかを教えてもらう必要はありません。世界との関わりを通して自ら学びます。 これが強化学習の核心です。エージェントは目標を持ち、行動を起こし、結果を観察し、戦略を調整します。 このサイクルは絶えず進化しながら、無期限に継続します。 では、LLMはどうでしょうか?研修が終了した瞬間に学習は止まってしまいます。 世界とどのようにやりとりすればよいか分からないため、現実世界で学習を続けることができません。 LLMは言語模倣の達人のようなものです。 人間の台本や会話をすべて完璧に記憶することができ、何を尋ねてももっともらしい答えを返すことができます。 しかし、何が欠けているのでしょうか? 行動する能力が欠けているのです。 何が欲しいのか分からない(目標がない)。 これらのことを言うと現実世界でどのような結果になるかはわかりません (世界モデルを持っていません)。 それは単に非常に複雑な単語連鎖マシンです。 真の知性とはどのようなものでしょうか? それは、独自の目標を持ち、世界と相互作用し、それぞれの相互作用から学び、目標をよりよく達成するために戦略を絶えず調整できる存在である必要があります。 これがサットン氏が「基本的な AI」と考えるものです。 サットン氏の見解は完全に正しいわけではないかもしれないが、彼が提起した疑問は検討する価値がある。 LLM は多くのアプリケーション シナリオで依然として価値があるため、「消滅」することはおそらくないでしょう。 しかし、私たちの目標が真の汎用人工知能 (AGI) を実現することであるならば、 サットンの警告は真剣に検討する価値がある。 話せるからといって、考えることができるわけではありません。真似ができるからといって、学べるわけではありません。 真の知性には、目標、行動、そして世界との実際の交流が必要となるかもしれません。 私たちはこの道を歩み始めたばかりです。 --- 上記は AI によって生成され、手動で編集およびフォーマットされています。 コメントセクションのビデオをご覧ください。
AI 論文の解釈を頻繁に読む人であれば、「A Bitter Lesson」という記事をよく耳にすyoutube.com/watch?v=21EYKq…舌だった。 https://t.co/QfaCNFRCVO