動画をより分かりやすくご覧いただくために、動画に登場するAI関連用語を一覧にまとめました。 強化学習(RL) 子供に自転車の乗り方を教えていると想像してください。 彼に「標準的なサイクリングマニュアル」を与えるのではなく、自分で試させてあげましょう。転んだら痛い(罰)、安定して乗れたら嬉しい(ご褒美)。 何回か試せば自然に覚えられるでしょう。 これが強化学習の核心です。つまり、経験から学習し、目標主導型になるのです。 サットン氏(チューリング賞を受賞した人物)は、これが AI の真の基礎であると信じています。 エージェントはアクションを実行し、結果を経験し、より多くの報酬を得るために戦略を調整します。 それはゲームをプレイするのと似ています。死んでから最初からやり直し、徐々に戦略を見つけ出します。 大規模言語モデル(LLM) Gemini、ChatGPT、Claude は異なるロジックに従います。 彼らの仕事は簡単です。次の単語を推測するだけです。 大量のテキストを入力すると、「人間は通常このように話す」ということを学習します。 しかしサットンは、これは行き詰まりだと感じました。なぜでしょうか? それは、本当の目標を持たずに単に模倣しているだけであり、実際の経験から学んでいないからです。 たくさんのレシピを暗記している人が、実際には料理の仕方を知らないかもしれないのと同じです。 世界モデル 実際にボールを投げなくても、ボールがどこに落ちるかを心の中で予測することができます。 これは世界モデルであり、物理法則に対する理解です。 サットン氏は、LLM にはこれがないと述べた。 彼らは「人間が何を言うか」を予測することしかできず、「現実世界で何が起こるか」を予測することはできない。 ゴール 目標を持つことで、何かがインテリジェントなものになります。 目標のないシステムは、言ったことをただ繰り返すオウムのようなものです。 RL では、目標は報酬信号に変換され、システムに「これを行うのは正しいことです」と伝えます。 リスにとっての目標は木の実を見つけることです。 AlphaGo にとっての目標はゲームに勝つことです。 LLM の目標は何ですか? サットンは、「次の単語を予測する」ことは実質的な目標ではないと感じた。 経験 vs. トレーニングデータ 経験とは、実際に何かを行ってその結果を目にすることです。 やかんに触ったら火傷しちゃった。次は触らないようにしよう。 トレーニング データとは、他の人があなたに伝える「やかんは熱くなります」というものです。 あなたはそれを覚えていたが、実際にそれを体験したわけではない。 サットン氏は、真の学習は経験から得られるべきだと強調した。 時間差分学習(TD学習) サットンの傑作。 解決すべき問題は、長期目標から逆算して短期的な行動を導き出すにはどうすればよいかということです。 チェスをするときは、最後まで自分の動きが良いか悪いかはわかりません。 TD ラーニングにより、システムは「この動きが状況を改善するか悪化させるか」を予測し、即座に戦略を調整できるようになります。 それは、ナビゲーションのルートを進みながら修正するようなものです。間違った方向に進んでいたことに気づくために目的地に到着するまで待つ必要はありません。 価値関数 それぞれの状態を評価してください。「現在の状況を考慮すると、目標を達成できる可能性はどれくらいですか?」 スコアが増加したということは、前のステップが正しかったことを意味します。引き続き強化してください。 スコアが下がったということは、ミスをしたということです。次回は繰り返さないでください。 州の代表 「私は今どこにいるのか?」という認識 部屋に入ると、それがキッチンなのか寝室なのかがすぐにわかります。 AI は意思決定を行うために、センサーデータを「状態」に変換する必要もあります。 移行モデル 「これをやったらどうなるか?」と問う因果モデル ドアを押すとドアが開き、スイッチを押すとライトが点灯することはご存じでしょう。 これは世界の物理法則についてのあなたの理解です。 サットン氏は、これが「モデル」と呼びたい唯一のものだと語った。 苦い教訓 サットン氏が2019年に書いた記事の核となる主張は、「人間の知識をAIに押し付けるのではなく、AI自身が学習できるようにすべきだ」というものだ。 人間の専門家の知識に頼る「賢い方法」が最も効果的であることは、歴史が繰り返し証明しています。 結局、彼らは皆、「膨大な計算能力を使って学習する」という力ずくの手法に負けてしまったのです。 LLM はこれを確認しているようです (大量のデータでトレーニングされています)。 しかしサットン氏は、それらは「経験から学ぶ」という要素が欠けているため、最終的には反例になるだろうと考えている。 モラベックのパラドックス 人間にとって簡単なことも、AIにとっては難しいのです。 人間にとって難しいことを、AI にとっては簡単だ。 高度な数学の問題を AI に解かせましょう。簡単です。 でも、赤ちゃんのように歩いたり、物を掴んだりすることを教えるのはどうでしょうか?今のロボットの進歩を見てください。 AI継承 サットンの大胆な予測:デジタルインテリジェンスは、最終的には人間に取って代わり、主導権を握るだろう。 これはSF映画のようなロボットの反乱ではなく、進化の必然的な結果です。 単細胞生物が多細胞生物に進化したのと同じです。 今や、「自然に進化した知能」から「設計された知能」が取って代わる時が来ています。 彼はこれを「デザインの時代」と呼んだ。 遺伝子複製に頼るのではなく、インテリジェントエージェントを直接設計し、その動作を完全に理解します。 TD-ガモン 1990 年代、ジェリー・タサロ氏は TD ラーニングを使用して、バックギャモンをプレイして世界チャンピオンに勝利した AI をトレーニングしました。 強化学習が実証されたのは今回が初めてです。 アルファ碁 / アルファゼロ AlphaGo がイ・セドルを破ったという話はきっと聞いたことがあるでしょう。 しかし、さらに印象的なのは AlphaZero です。これは、人間のゲーム記録を必要とせずに完全に自己プレイを通じて学習し、最終的には人間がこれまで見たことのない動きをします。 サットン氏は、AlphaZero が位置的な優位性を得るために駒を犠牲にし、人間の達人ですら驚嘆するような「目先の利益に貪欲にならない」スタイルを採用していることを具体的に指摘した。 ミューゼロ DeepMindによるもう一つの作品。 興味深いことに、これは「汎用エージェント」ではなく、トレーニング フレームワークです。つまり、特定のゲームごとに特定のエージェントをトレーニングする必要があります。 これは AI の現在の限界も反映しています。つまり、真の汎用知能をまだ実現できないのです。 いくつかの重要人物 強化学習の父でありチューリング賞受賞者でもあるリチャード・サットンは、TD 学習とポリシー勾配学習を発明しました。 ジョン・マッカーシーは知能を「目標を達成する能力の計算的部分」と定義しています。 アラン・チューリングはかつて「経験から学習できる機械が欲しい」と言った。 ジョセフ・ヘンリッチは文化の進化を研究し、人間が模倣を通じて複雑なスキルを継承していく仕組みを説明しています。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。