Google DeepMind は、AI に人間のように世界を見ることを教えるという最新の研究を Nature に発表しました。 AIを「画像を認識することしかできない」機械から「画像を理解し始める」インテリジェントエージェントへと変革します。 視覚AIは広く利用されていますが、その「視覚理解」の方法は人間のそれとは体系的に異なります。AIは「車と飛行機はどちらも金属製の大きな乗り物である」といった概念を人間と同じように理解することはできません。 研究者らは「違いを見つける」タスクを使用して人間と AI の視覚理解方法を比較し、AI は色や質感などの表面的な特徴に気を取られやすいのに対し、人間は意味レベルに重点を置いていることを発見しました。 そこで研究者たちは、AI に人間のように考えることを教えるために 3 段階のプロセスを採用し、AI の視覚表現を人間の認知構造に近づくように調整しました。 SigLIP-SO400M に基づく最初のステップは、バックボーン ネットワークをフリーズし、THINGS データセット上で小さなアダプターをトレーニングして「教師モデル」を取得することです。 2 番目のステップは、教師モデルを使用して大規模な合成データセットである AligNet を生成し、人間の視覚判断をシミュレートすることです。 3 番目のステップは、AligNet を使用して「学生モデル」をトレーニングし、その内部表現を人間の意味階層とより一貫したものにすることです。 調整されたモデルは、人間の視覚的判断をシミュレートし、人間のようなためらいや不確実性を示し、新しいタスクに直面したときに、より一貫して正確に機能します。 #VLM
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
