ジェフ・ディーンは先週スタンフォード大学でプレゼンテーションを行い、AIを用いて要点をまとめ、記事を執筆しました。動画はコメント欄にあります。 AIはなぜ突然これほど強力になったのでしょうか? Google の AI 責任者であるジェフ・ディーン氏は、自身の経験に基づいてこの話を語りました。 同氏は「今日私たちが目にするAIは、過去15年間の技術の蓄積の産物だ」と語った。 それは単なる一つの画期的な進歩ではありませんでした。それは一連の画期的な進歩でした。 あらゆるブレークスルーは AI にとって大きな飛躍を意味します。 次に、これらのブレークスルーが何であるかを説明します。 初期の「モデルが猫になる方法を学習した」から今日の「AIが国際数学オリンピックで金メダルを獲得した」まで。 2012年に、このモデルは自力で猫を認識できるようになりました。 2012年。Google Brainプロジェクト。 ジェフ・ディーンと彼のチームは実験を行っています。 彼らが知りたかったのは、「AI は自ら物事を認識することを学習できるのか?」という点です。 ラベルを貼ったり、「これは猫」「これは犬」と教えたりしないでください。ただたくさんの写真を見せて、自分で見させてあげてください。 ランダムに選ばれた1000万本のYouTube動画フレームを使用しました。ラベルは付いていません。 次に、ニューラルネットワークを訓練しました。そのネットワークは巨大で、以前の50~100倍の大きさでした。 訓練後、研究チームはネットワークの最上層にあるニューロンを調べました。ニューロンは何に敏感だったのでしょうか? その結果は皆に衝撃を与えた。 「猫」に特に敏感なニューロンがあります。猫の写真を見せると、このニューロンは活性化します。犬の写真を見せても、このニューロンは活性化しません。 モデルは「猫」が何であるかを自ら学習しました。 誰も教えませんでした。1000万枚の写真から学習しました。 これは教師なし学習です。 ジェフ・ディーンは「それはすごいね」と言った。 これは、AIが自ら概念を発見できることを証明しています。人間が「これは何なのか」を指示する必要はありません。十分なデータを見るだけでいいのです。 これがAIの学習能力の出発点です。 AIが「見る」ことをどのように学習するかについて話しました。 さて、AIがどのようにして「言語を理解する」ことを学習するのかについてお話します。 主要テクノロジー: Word2Vec。 以前、コンピュータは各単語を独立した記号として扱い、言語を処理していました。「猫」は「cat」、「犬」は「dog」であり、それらの間には何の関係もありませんでした。 しかし、Word2Vecは違います。各単語を高次元ベクトルに変換します。 これはどういう意味でしょうか?それぞれの単語が数字の列であることを意味します。例えば、「キング」は(0.5, 0.8, 0.3, ...)、「クイーン」は(0.5, 0.2, 0.3, ...)となります。 しかし驚くべきことに、これらのベクトルの方向には意味があるのです。 「王」-「男」+「女」という計算をすると、新しいベクトルが得られます。 このベクトルに最も近い単語は「Queen」です。 それが Word2Vec の魔法です。 言葉を数字に変換するだけではありません。意味関係を数学的な関係に変換します。「王」と「女王」の関係は、「男」と「女」の関係に似ています。 この関係はベクトルの方向にエンコードされます。 「これにより、機械は初めて言語を『理解』できるようになる」とジェフ・ディーン氏は語った。 完全に理解しているわけではありません。しかし、意味を計算することはできます。 AIがどのように言語を理解するかについて議論しました。 さて、より実用的な問題であるコンピューティング能力について話しましょう。 2015年頃、Googleは改良された音声認識モデルのリリースを計画していました。そのモデルは非常にうまく機能し、ユーザーに好評でした。 しかし、問題があります。 ジェフ・ディーン氏は計算した。Googleがこのモデルを採用するなら、コンピューターの数を2倍にする必要があるだろう。 正解です。倍にしてください。 これは何を意味するのでしょうか?当時、Googleはすでに数十万台のサーバーを保有していました。その数を倍増させるには、さらに数十万台を購入する必要がありました。 それはまったく非現実的です。 したがって、彼らは方法を見つけなければなりませんでした。 答えは、専用ハードウェアです。 彼らは、ニューラル ネットワークには、低精度の計算に対して非常に耐性があるという独特の特性があることを発見しました。 さらに、その中核は密行列乗算です。 これら 2 つの特性により、特殊なチップを設計することができます。 汎用CPUやGPUは使用せず、ニューラルネットワーク専用に設計されたチップを使用します。 これは TPU (Tensor Processing Unit) です。 2015年にTPUv1がリリースされました。 当時の CPU や GPU に比べて 15 ~ 30 倍高速で、エネルギー効率は 30 ~ 80 倍優れていました。 これにより、コンピューティング能力の危機は解決されました。 その後、彼らは繰り返し作業を続けました。 最新システムはTPUv2より3600倍高速です。 ジェフ・ディーン氏は、「専用のハードウェアがなければ、今日私たちが知っているような AI は存在しなかっただろう」と語った。 コンピューティング能力は AI のインフラストラクチャです。 トランスフォーマーはすべてを変えた ハードウェアについてはここまでお話ししました。次はアーキテクチャについてお話しします。 2017 年、Google の同僚が新しいアーキテクチャ「Transformer」を提案しました。 これによってすべてが変わりました。 Transformer 以前は、言語を処理するモデルはすべてループ モデルでした。 どういう意味ですか? つまり、モデルは各単語を 1 つずつ処理する必要があります。 さらに、すべての情報を単一のベクトルに圧縮します。 これは非常に非効率的です。 Transformer ではそんなことはしません。 その中心となる考え方は次のとおりです。 圧縮せず、すべての中間状態を保持します。 次に、必要に応じてモデルが任意の状態に「対応」できるようにします。 これは Self-Attention と呼ばれます。 そして結果はどうだったでしょうか? 精度が高くなります。 計算負荷は10~100分の1に削減され、モデルパラメータは10分の1に削減されます。 これはすごい。より速く、より正確に、より小さく。 さらに、Transformer は言語以外のものも処理できます。 画像の処理も可能です。これがVision Transformer(ViT)です。 ジェフ・ディーン氏は「トランスフォーマーは現代の AI の基盤です」と述べました。 ChatGPT は Transformer を使用します。 ジェミニはトランスフォーマーを使用します。 目にする大きな模型はすべてトランスフォーマーです。 モデルをよりスマートにする3つのテクニック トランスフォーマーについて話しました。 さて、トレーニングについてお話しましょう。 モデルをよりスマートにするにはどうすればよいでしょうか。重要なテクニックが 3 つあります。 1 つ目は、スパース モデルです。 通常のニューラルネットワークでは、予測ごとにモデル全体がアクティブ化されます。これはあまりにも無駄です。 スパースモデルは異なります。パラメータの1~5%のみをアクティブ化し、残りは「スリープ状態」になります。 これにより、トレーニング コストが 8 分の 1 に削減されました。 ジェフ・ディーン氏は「ジェミニはスパースモデルだ」と語った。 2番目:蒸留。 これは、大規模なモデルから小規模なモデルへの知識の移転を伴います。この移転はどのように行われるのでしょうか? 大きなモデルは、小さなモデルに対して単に「正しい」か「間違っている」かを伝えるだけではありません。 確率分布を提供します。この信号は非常に豊富です。 結果はどうなったでしょうか? 小さなモデルは、わずか 3% のデータを使用して、大きなモデルと同じ効果を達成しました。 3つ目は、思考の連鎖です。 モデルに例を示して「動作プロセスを示す」のです。例えば、数学の問題を解くとき、答えを直接示すのではなく、推論のプロセスを段階的に書き出します。 これにより、複雑な推論タスクにおけるモデルの精度が大幅に向上します。 これら 3 つの手法により、モデルはより効率的かつスマートになります。 AIの技術的基礎についてはすでに説明しました。 さて、結果についてお話しましょう。 2022年、Googleの研究者たちはあることに興奮していました。 彼らのモデルはついに中学校の数学の問題を解けるようになりました。精度:15%。 「ジョンはウサギを5匹飼っていましたが、その後さらに2匹増えました。現在、ウサギは何匹いますか?」 AIはこの種の質問に約15%の確率で正しく答えることができます。 彼らはこれが画期的な進歩だと感じました。 2024年。2年後。 同じチームがGemini 2.5 Proをリリースしました。国際数学オリンピックにも出場しました。 6つの質問。5つ正解しました。 これは金メダルレベルです。 中学校の数学の問題の15%しか解けなかった状態から、国際数学オリンピックで金メダルを獲得するまで。たった2年。 ジェフ・ディーン氏は「これが AI の進歩のスピードだ」と語った。 それは直線的ではありません。徐々に改善されるものではありません。 それは指数関数的です。 2022年、AIはまだ足し算を学習中でした。 2024年までに、AIはすでにオリンピックの数学の問題を解くようになるでしょう。 2026年はどうですか?分かりません。 しかし、この速度で続けば、私たちの予想を超えることになるかもしれません。 これが今日のAIです。徐々に強くなったのではなく、突然強くなったのです。 2012 年の「モデルが猫になる方法を学習」から 2024 年の「AI が国際数学オリンピックで金メダルを獲得」まで。 12年です。 AI は、ほとんど何も知らない状態から、ほぼすべてを知っている状態へと進化しました。 それで次は何でしょうか? ジェフ・ディーン氏はこう語った。「AIは医療、教育、科学研究に大きな影響を与えるだろう。」 コードを書けない人でも、AIにウェブサイトを作成してもらうことができます。 これは、専門知識をより多くの人々に利用できるようにすることです。 しかし、潜在的なリスクにも向き合わなければなりません。 たとえば、誤情報の拡散などです。 AIは驚くほどリアルなコンテンツを生成できます。しかし、誤用されると深刻な結果を招く可能性があります。 ジェフ・ディーン氏は、「潜在的な悪影響を無視することはできません。私たちの目標は、AIのメリットを最大化し、潜在的な欠点を最小限に抑えることです」と述べました。 これはAIの物語です。 バックプロパゲーションからTransformer、Geminiに至るまで、テクノロジー、ハードウェア、アルゴリズムはすべて過去15年間で統合されてきました。 今日私たちが目にする AI は、これらすべてが生み出した産物です。 そしてこの物語は続く。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。