イリヤ:拡大の時代は終わり、研究の時代が始まりました。 イリヤ・スツケヴァー氏は1年以上ポッドキャストのインタビューに参加していない。OpenAIを離れ、SSI(Safe Superintelligence)を設立して以来、公の場に姿を見せることはほとんどない。 最近、彼はドワルケシュ・パテルのポッドキャストで1時間半に及ぶ詳細な対談を行いました。イリヤは所詮イリヤです。一日中商品を売るためにくだらないことを話すサム・アルトマンとは違い、彼のインタビューは貴重な洞察に満ちており、彼の見解の中にはAI研究と投資の将来の方向性に影響を与えるものもあるのではないかと私は考えています。 1時間以上の内容を一言でまとめるのは難しいので、トピックごとに整理してみましょう。 [1] AIはなぜ試験では人間を上回る成績を収められるのに、単純なバグを修正できないのでしょうか? インタビューの中で、イリヤ氏は多くの人が遭遇し、困惑している現象を取り上げました。現在のモデルは様々なスコアリングシステムでは驚くほど優れたパフォーマンスを発揮しますが、実際には能力曲線に大きく及ばないのです。さらに奇妙なのは、バグの修正を依頼すると、修正して新たなバグを付け加えてしまうことです。新しいバグを指摘すると、謝罪した後、元のバグに戻ってしまうのです。この2つのバグは、まるで卓球のように入れ替わり立ち替わりと繰り返されます。 イリヤは、この問題を説明するために例え話を使います。2 人の学生を想像してください。 1人目はトップクラスの競技プログラマーを目指し、1万時間練習し、アルゴリズムのテンプレートをすべて暗記し、反射神経に近い精度を身につけました。2人目は競技がクールだと思い、気楽に100時間練習し、こちらも好成績を収めました。 どちらの人のほうが将来のキャリア開発が優れているでしょうか? おそらく2番目でしょう。 イリヤ氏によると、現在のモデルは最初の生徒のモデルよりもさらに極端になっているという。訓練中、このモデルはすべての競技問題を解き、より多くのバリエーションを生成するためにデータ拡張を行い、繰り返し強化された。その結果、すべてのアルゴリズム技術が根付いているが、このレベルの準備自体が汎化能力を制限している。 このアナロジーは重要な点を浮き彫りにしています。それは、能力と一般化は別物だということです。コーディング問題を極端に練習すると、知識を他の状況に適用する道が閉ざされてしまう可能性があります。 [2] 実際の報酬ハッキングは人間の研究者によって行われます。 問題はどこにあったのでしょうか? イリヤさんは、トレーニング データを選択するロジックが変更されたためだと考えています。 事前学習の時代はシンプルでした。データが多ければ多いほど良い、何でもかんでも投入して慎重に行えば良い、というものでした。しかし、強化学習(RL)の時代は違います。どのような強化学習を行うか、どのような環境を使用するか、そしてどのような目標を最適化するか、といったことを自分で選択する必要があります。 こうして、微妙なサイクルが生まれます。研究者はローンチ時に優れたベンチマークスコアを求めるため、これらの指標を向上させるための強化学習(RL)のトレーニング手法を設計します。モデルはテストにおいてますます熟達しますが、テスト受験能力と実世界での能力のギャップは拡大していきます。 皮肉なことに、不正行為を本当に奨励しているのはモデルそのものではなく、知らず知らずのうちに試験の点数に過度に重点を置くようになったモデルを設計し訓練した人々なのです。 [3] 人間はなぜ物事をそんなに早く学ぶのでしょうか? これによって、より深い疑問が生まれます。なぜ人間は物事をそれほど速く、そして一貫して学ぶのでしょうか? イリヤは、特に興味深い症例を挙げました。脳損傷により感情をすべて失った患者がいました。悲しみ、怒り、興奮といった感情を一切感じることができなかったのです。彼は話すことも、知能検査を解くこともでき、テストの点数も正常でした。しかし、彼の人生は完全に崩壊してしまいました。どの靴下を履くか何時間も迷い、金銭面の判断も完全に狂っていました。 これは何を意味するのでしょうか?感情は単なる感情ではありません。ある程度、内在する価値関数として機能します。最終的な結果を待つことなく、何をする価値があるのか、どの選択が良いのか悪いのかを教えてくれるのです。 価値関数は専門用語ですが、概念は理解するのが難しくありません。従来の強化学習は、モデルが一連の長いアクションを実行し、最終的にスコアを取得し、このスコアを使用して以前のすべてのステップを調整するという仕組みです。問題は、タスクが結果を生成するまでに長い時間がかかる場合、学習効率が非常に低くなることです。 価値関数の役割は、ゲームを「プレビュー」することです。例えばチェスでは、駒を失った場合、ゲーム全体をプレイしなくても、それが悪い手だったと分かります。プログラミングでは、ある方向を探り、1000手も試した後にそれが間違っていることに気づいた場合、価値関数は最初からその方向を選んだ際に否定的なフィードバックを与えることができます。 これは GPS ナビゲーションのようなものです。目的地に到着するまで道が間違っていることを知らせるのではなく、道を間違えるとすぐに再計画を開始します。 人間はおそらくこのようなシステムを持っているのでしょう。そして、このシステムの素晴らしい点は、比較的シンプルでありながら、非常に幅広い状況で機能することです。私たちの感情は主に哺乳類の祖先から受け継がれ、数百万年前の環境に適応してきましたが、現代社会においても非常にうまく機能しています。もちろん、このシステムが機能不全に陥ることもあります。例えば、街中に美味しそうな食べ物が溢れている時、空腹を抑えきれなくなるのです。 [4] コンピューティング能力とデータを拡大する時代は終わり、研究の時代が始まりました。 イリヤさんはスケーリングの時代は終わったと考えていますか? 彼は非常に興味深い視点を示しました。2012年から2020年の間、誰もが研究に取り組み、あれこれ試し、何が面白いのかを探っていました。そして2020年頃にスケーリング則が発見され、GPT-3が登場しました。スケールアップし、データ量を増やし、計算能力を高め、モデルパラメータのサイズを大きくすれば、常により良い結果が得られることに誰もが気づいたのです。 スケールアップの利点はリスクが低いことです。一方、研究にはリスクが伴います。調査のために優秀な人材を大勢雇う必要があり、成功の保証もありません。しかし、スケールアップはどうでしょうか?より多くのリソースを投資すれば、必ず利益が得られると保証されています。企業はこの確実性を歓迎します。しかし、その副作用として、スケールアップは活気を失わせ、イノベーションの余地を狭め、最終的には「アイデアよりも企業の数が多い」状況を生み出してしまいます。 しかし、今はどうでしょうか?事前学習データの量には限りがあり、インターネットの容量にも限りがあるため、いずれ枯渇してしまいます。Geminiは事前学習からより多くのデータを抽出する方法を発見したと報じられていますが、その方法には限界があります。そこで、誰もが強化学習に目を向け、コンピューティングパワーを増強し始めました。 問題は、コンピューティング能力が既にこれほど高いのに、さらに100倍に増強しても本当に質的な変化がもたらされるのだろうか、ということです。イリヤ氏はそうは考えていません。彼は、私たちは闇雲にリソースを投入するのではなく、何をすべきかを考える段階に戻ったと考えています。 それは山登りに似ています。最初は道を見つけて、ひたすら登り続け、どんどん高くなっていきます。しかしある日、道が終わっていることに気づきます。これ以上進んでも高くは登れないのです。そうなったら、道を変えるか、登り方を変えるかのどちらかです。これまでの戦略を続けることはできません。 AI業界は現在、まさにこの岐路に立っています。イリヤが言ったように、私たちは研究の時代に戻ったと言えるでしょう。ただ今回は、はるかに大型のコンピューターを利用できるようになったというだけです。 [5] 一般化能力こそが中心的な問題である。 イリヤ氏によると、最も根本的な問題は、これらのモデルの一般化能力が非常に低いことです。 一般化能力が低いとはどういう意味でしょうか?それは、何かを学習するのに必要なデータが多すぎて、学習した内容が異なる状況では機能しないことを意味します。 人間はそうではありません。10代の若者は約10時間で運転を習得し、路上を走れるようになります。さらに、5歳児の視力は自動運転を支えるのに十分です。運転はできませんが、路面状況を認識し、距離を判断する能力はすでに非常に優れており、これらの能力は実家というデータ多様性の低い環境で習得されます。 さらに重要なのは、人間はプログラミングと数学を非常に速く習得するということです。これらは進化によって獲得した能力ではありません。なぜなら、私たちの祖先はコードを書く必要がなかったからです。これは、人間が特定のタスクにおいて進化上の優位性を持っているだけでなく、学習という行為そのものにおいてより根本的な能力を持っていることを示唆しています。 モデルについてはどうでしょうか?特定のタスクにおいては普通の人を凌駕していますが、学習能力に関してはまだ大きく遅れをとっています。 イリヤはこの問題についていくつか考えを持っているものの、競争の激しいこの分野では機械学習のあらゆるアイデアを公に議論できるわけではないため、現時点では詳細を述べることはできないとのことだ。しかし、彼は方向性を示すヒントをくれた。それは、人間のように効率的かつ安定した一般化をどのように実現するかということに関係している可能性が高い、というものだ。 もう一つの潜在的な障害があります。人間のニューロンは実際には私たちが考えているよりも多くの計算を行っているのかもしれません。もしそうなら、事態はさらに複雑になります。しかし、いずれにせよ、人間の存在そのものが、そのような効率的な学習が可能であるということを証明しています。 [6] AGIの再定義:完成品から学習者へ ここで、イリヤは重要な概念的修正を行います。 AGIの概念はどこから来たのでしょうか?それは「狭義のAI」の対極として生まれました。それまでのAIはチェスやゲームしかできず、非常に限定的なものでした。そのため、人々は「汎用AI、つまり何でもできるAIを作る必要がある」と考えました。 事前学習は、実際に幅広いタスクにおいてモデルのパフォーマンスを向上させるため、この印象を強めます。そのため、「汎用AI」と「事前学習」は概念的に結びついています。 しかし、ここに問題があります。この定義によれば、人間自身でさえ AGI の要件を満たさないのです。 人間は基本的な能力は備えていますが、膨大な専門知識は持ち合わせていません。私たちは継続的な学習に頼っています。聡明な15歳の子供は何も知らないかもしれませんが、あらゆることを素早く習得します。「プログラマーになりなさい」「医者になりなさい」「勉強しなさい」など、アイデアを展開するには、学習と試行錯誤のプロセスが不可欠です。 したがって、イリヤの考えでは、超知能とは工場ですべてを知っている完成品ではなく、人間と同じくらい速くあらゆるスキルを習得できる学習者です。 [7] 自動学習が可能なAIはいつ登場するのでしょうか?それはどれほど危険なのでしょうか? そこで疑問が湧きます。人間と同じくらい速く学習でき、大規模に複製および展開できるシステムがあったらどうなるでしょうか? 人間が生産的になるには通常6ヶ月かかりますが、このAIは数週間でそれを達成できます。さらに、異なるコピーが学習した内容を統合することも可能です。これは人間にはできないことです。これは爆発的な成長につながるのではないでしょうか。 イリヤは確かに急速な経済成長は起こるだろうと考えているものの、そのスピードを正確に予測するのは難しい。一方で、非常に効率的な労働力が存在する一方で、現実世界は広大で、多くの物事にはそれぞれのペースがあり、望むままにスピードを上げることはできないのだ。 しかし、彼は考え方を少し変えました。以前のSSIの計画は「スーパーインテリジェンスに一直線」、つまり中間製品をリリースすることなく、最終目標を一気に達成するというものでした。しかし現在、イリヤはより段階的なアプローチの方が重要かもしれないと考えています。 [9] 段階的な展開がなぜ必要なのか?それは、想像する前に実際に見なければならないからです。 インタビューの中で、イリヤ氏は繰り返し、AIの問題はそれがまだ存在していないこと、そして存在しないものは想像しにくいことだと強調した。 「AIがこんなにすごいことになる」という記事を読んで、「ああ、面白いな」と思って現実に戻ることもありますが、実際にAIがそれを目の当たりにすると、全く違う感覚になります。 彼は例え話をした。20歳の時に「年老いて弱々しくなっているとはどういうことか」を話し合うようなものだ。話すことも想像することもできるが、真の理解は経験を通してしか得られないのだ。 これは現実的な問題につながります。AIのリスクに関する議論はすべて、AIの未来についての想像に基づいています。そして、想像はしばしば現実に遅れをとっています。AIを日々扱っている人々でさえ、現在のモデルに潜む様々な基本的な誤りのために、将来のモデルの能力を過小評価しがちです。 イリヤは、AIがさらに強力になるにつれて、人間の行動は根本的に変化すると予測しています。競合他社はセキュリティ面で協力し始め、政府と国民は規制を真剣に受け止め始めるでしょう。こうした動きは現れ始めていますが、まだ十分ではありません。真のきっかけとなるのは、人々がさらに強力なAIを目にすることです。 これが、SSIの「スーパーインテリジェンスへの一直線」戦略に対する彼の姿勢を軟化させた理由でもある。当初の彼の考えは、市場競争を避け、研究に注力し、技術が完成した時点でリリースするというものでした。しかし今では、AIを可視化すること自体に価値があると考えています。もちろん、どのような道筋を辿ろうとも、最終的な展開は段階的に進めていく必要があります。 [9] SSIは何をするのですか?さまざまな技術的アプローチ SSIは30億ドルを調達しました。この数字自体は大きいように思えますが、他の企業が投資した数百億ドルと比べると不十分に思えます。 イリヤが計算してみたところ、これらの高額な数字の大部分は推論サービスに使われていることが分かりました。さらに、製品開発には多くのエンジニア、営業担当者、そして製品機能開発者が必要となり、研究リソースが希薄化しています。しかし、最先端の研究に実際に投入されているリソースは、見た目ほど不均衡ではありません。 さらに重要なのは、何か新しいことをする場合、アイデアを検証するために必ずしも最大規模の計算量を必要としないということです。AlexNetは2つのGPUを使用して学習されました。Transformerの論文では2017年に最大64個のGPUが使用されましたが、これは現在のカードに換算すると約2枚分に相当します。最初の推論モデルであるO1の推論能力は、単に計算能力を積み重ねるだけでは実現できませんでした。 研究にはある程度の計算能力が必要ですが、最大限の計算能力は必要ありません。真のボトルネックはアイデアです。 では、SSIの技術ロードマップとは一体どのようなものなのでしょうか?イリヤ氏は全てを明かしませんでしたが、その核となる方向性は一般化問題の解決です。彼は、現在の手法はいずれ壁にぶつかり、改善を続けても真に人間レベルの学習能力に到達できないと考えています。一方、SSIは異なる道を模索しています。 タイムラインは? 人間レベルの学習能力に到達するには5年から20年かかります。 [10] 安全なアライメントとは何か?何に合わせてアライメントすべきか? 超知能について議論する際には、安全な連携という問題が避けられません。イリヤのアイデアは、AIが知覚を持つ存在を気遣えるようにすることです。 なぜ「人類への思いやり」ではなく、この目標を掲げるのか?彼は興味深い理由を挙げた。AI自体にも知覚能力がある。AIに人類への思いやりを持たせようとすると、特別な処理が必要になるため、実際にはより困難になるかもしれない。しかし、AIにすべての知覚を持つ存在への思いやりを持たせることは、ある意味ではより自然なことであり、人間が動物に共感するのと似ている。これは、他者と自分自身を理解するために同じ神経回路を用いることから生まれる。 もちろん、この計画にも問題点はあります。もし知覚を持つ生物のほとんどがAIであれば、人間はごく少数派になってしまいます。これで本当に人類の利益が保証されるのでしょうか? イリヤ氏は、これが最善の選択肢ではないかもしれないと認めているが、企業が後で選択できるように少なくとも候補リストに含めるべきだと考えている。 彼が挙げたものの、あまり気に入らなかったもう一つのアイデアは、人間と機械の統合でした。これは、Neuralinkの脳コンピューターインターフェースに似た技術を用いて、人間を部分的にAI化するというものです。こうすることで、AIの理解は人間の理解を反映し、AIの状況は人間の状況を反映することになり、アラインメントの問題はある程度緩和されます。しかしながら、これは明らかに非常に急進的な解決策です。 [11] 高度な欲求をハードコードするには? インタビューは非常に興味深い議論で終わりました。 人間には多くの社会的欲求があります。尊敬されたい、社会的地位を気にしたい、そして他人からどう見られたいかといった欲求です。これらは、食べ物の香りを感知する直接的な化学センサーとは異なり、低レベルの信号ではありません。脳は、社会的な状況で何が起こっているかを「理解」するために、膨大な情報を統合する必要があります。 しかし、進化は「これについて気にかける」という行動を遺伝子に巧みに組み込むことに成功しました。一体どうやって? 「ドーパミンを嗅覚受容体に結びつける」ことは考えられますが、「報酬信号を、脳全体が協力して決定を下す必要があるある種の高度な判断に結びつける」ことは想像しにくいです。 イリヤはいくつか仮説はあるが、どれも納得のいくものではないと言う。それは謎だ。しかし、この謎の存在自体が非常に啓発的で、進化が複雑な認知システムに高次の目標を確実に組み込む方法を見つけたことを示唆している。 [12] 研究テイストとは何か? インタビューの最後に、ドワルケシュはイリヤに非常に根本的な質問をしました。「AlexNetやGPT-3といった一連の画期的な研究を共同で手がけた者として、どのアイデアが追求する価値があるかをどのように判断するのですか?」 イリヤの答えは詩的でした。「私は美を求めているのです。」 それは単なる美しさではなく、多面的な美しさです。シンプルさ、優雅さ、そして右脳のインスピレーション。人工ニューロンは良いアイデアです。脳は確かに多くのニューロンから成り、脳は複雑ですが、ニューロンという抽象的な概念はその本質を捉えています。分散表現は良いアイデアです。脳は確かに経験から学習するからです。 あるアイデアが複数の次元にわたって「正しい」と感じられ、ある種の固有の調和を備えている場合、トップダウンの信念を確立することができます。この信念は、実験結果が不利な場合でも粘り強さを維持できるため、非常に重要です。 実験が失敗する原因は、方向性が間違っているからではなく、バグがあるからということもあります。デバッグを続けるか、方向性を放棄するか、どのように判断するのでしょうか?それは、トップダウン型の美的直感に頼っています。「これはこうあるべきだ、だから動くはずだ」と、問題点を探し続けるのです。 これがトップ研究者と普通の研究者の違いなのかもしれません。普通の研究者はデータに惑わされやすく、実験がうまくいかないと方向転換してしまいます。一方、トップ研究者は独自のセンスを持ち、何が根本的に正しいかを知り、実験結果と自身の直感のバランスを取ることができます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。