以下の内容は唐潔のWeiweibo.com/2126427211/QjI…/AOdkBXNIey 皆さんのお役に立てればと思い、最近の洞察をいくつかシェアしたいと思います。 事前学習により、大規模モデルは世界に関する常識的な知識を獲得し、基本的な推論能力を身につけることができます。より多くのデータ、より大きなパラメータ、そしてより飽和した計算は、ペデスタルモデルをスケールさせる最も効率的な方法です。 アライメントの有効化と推論機能の強化、特により包括的なロングテール機能の有効化は、モデルのパフォーマンスを確保するためのもう一つの鍵です。一般的なベンチマークはモデルの全体的なパフォーマンスを評価しますが、多くのモデルで過学習につながる可能性があります。現実世界のシナリオにおいて、モデルはロングテールの現実世界のシーンをより迅速かつ正確にアライメントし、リアリティを高めるにはどうすればよいでしょうか?トレーニングの途中と後に、より多くのシナリオで迅速なアライメントと強力な推論機能を実現します。 エージェント機能は、モデル機能拡張におけるマイルストーンであり、AIモデルを現実世界(仮想/物理)に導入するための鍵となります。エージェント機能がなければ、大規模モデルは(理論学習)段階にとどまり、人が博士号を取得するまで学習を続けるのと同じように、知識を蓄積するだけで生産性向上には繋がらないでしょう。以前は、エージェントはモデルアプリケーションを通じて実装されていましたが、現在では、モデルがエージェントデータをトレーニングプロセスに直接統合できるようになり、汎用性が向上しています。しかし、異なるエージェント環境間での一般化と転送が容易ではないという課題が残っています。したがって、最も簡単な解決策は、異なるエージェント環境からのデータを継続的に増やし、それらの環境に合わせた強化学習を実装することです。 モデルメモリの実現は不可欠であり、あらゆるモデルを現実世界の環境に適用するには必須の機能です。人間の記憶は、短期(前頭前皮質)、中期(海馬)、長期(分散大脳皮質)、そして歴史的(ウィキペディアや歴史書)の4つの段階に分けられます。大規模モデルがどのようにして異なる段階にわたる記憶を実現するかが重要です。コンテキスト、時間枠、そしてモデルパラメータは、人間の記憶の異なる段階に対応している可能性がありますが、それをどのように実現するかが鍵となります。1つのアプローチは、メモリ圧縮、つまりコンテキストを単純に保存することです。大規模モデルが十分に長いコンテキストをサポートできれば、短期、中期、長期の記憶を実現することは事実上可能になります。しかし、モデルの知識を反復処理し、モデルパラメータを変更することは依然として大きな課題です。 - オンライン学習と自己評価。記憶メカニズムの理解が進むにつれ、オンライン学習が重要な焦点となります。現在の大規模モデルは定期的に再学習が行われていますが、これにはいくつかの問題があります。モデルは真の反復処理が不可能であり、自己学習と自己反復は次の段階では必然的に可能となります。また、再学習は無駄が多く、多くのインタラクティブデータが失われることになります。したがって、オンライン学習をどのように実現するかが重要であり、自己評価はオンライン学習の重要な側面です。モデルが自己学習を行うには、まずそれが正しいか間違っているかを知る必要があります。もしモデルが(たとえ確率的であっても)知ることができれば、最適化の目的を理解し、自己改善することができます。したがって、モデルの自己評価メカニズムの構築は課題です。これは、次のスケーリングパラダイムとなる可能性もあります。継続学習/リアルタイム学習/オンライン学習? 最後に、大規模モデル開発がエンドツーエンド化していくにつれ、モデル開発と応用の融合は不可避となっています。AIモデル応用の主眼は、新しいアプリの開発ではなく、AIが人間の仕事を代替することです。したがって、様々な仕事を代替するAIの開発が、その応用の鍵となります。チャットは検索を部分的に代替し、ある意味では感情的なインタラクションを組み込んでいます。来年は、AIが様々な仕事を代替する飛躍的な年となるでしょう。 - 最後に、マルチモーダリティと身体性について議論しましょう。マルチモーダリティは間違いなく有望な未来ですが、現状の問題は、AGIの知能の上限に大きく貢献しておらず、汎用AGIの知能の上限は正確には不明であるということです。おそらく最も効果的なアプローチは、テキスト、マルチモーダリティ、マルチモーダル生成をそれぞれ個別に開発することです。もちろん、これら3つを適度に組み合わせて研究することで、全く異なる能力を発見できる可能性がありますが、そのためには勇気と相当な資金援助が必要です。 同様に、エージェントを理解していれば、身体性知能の問題点がどこにあるかが分かるでしょう。一般化は非常に困難ですが(必ずしもそうとは限りませんが)、少量のサンプルで汎用的な身体能力を活性化することは事実上不可能です。では、どうすれば良いのでしょうか?データの収集、あるいはデータの統合は、容易でも安価でもありません。逆に、データの規模が大きくなると、汎用的な能力が自然に現れ、参入障壁が生まれます。もちろん、これは知能に限った課題です。身体性知能においては、ロボット自体も問題であり、不安定性と頻繁な故障が身体性知能の発展を制限しています。2026年までにこれらの分野で大きな進歩が期待されています。 ドメインマスターモデルとその応用についても議論しましょう。私はドメインマスターモデルは誤った命題だと常々思ってきました。AIが既に存在している中で、ドメイン特化型のAIなど存在するのでしょうか?しかし、AIがまだ完全に実現されていない以上、ドメインモデルは今後も長く存在し続けるでしょう(AIの急速な発展を考えると、どれくらい存在するかは予測できません)。ドメインモデルの存在は、本質的にアプリケーション企業がAI企業に負けたくないという強い意志を反映しています。彼らはドメインノウハウという堀を築き、AIの侵入を防ぎ、AIをツールとして制御しようとしています。しかし、AIは本質的に津波のようなもので、行く手を阻むものすべてを飲み込んでしまいます。一部のドメイン企業は必然的に堀を突破し、AIの世界に引き込まれていくでしょう。つまり、ドメインデータ、プロセス、エージェントデータが徐々にマスターモデルに入っていくということです。 大規模モデルの応用もまた、原点に立ち返る必要があります。AIは新しいアプリケーションを生み出す必要はありません。AIの本質は、人間の特定の必須タスク(特定のジョブ)をシミュレート、代替、または支援することです。これはおそらく2つのタイプに分けられます。1つは既存のソフトウェアをAI対応化し、元々人間の介入を必要としていた部分を修正することです。もう1つは、人間の特定のジョブに合わせたAIソフトウェアを作成し、人間の労働を代替することです。したがって、大規模モデルの応用は人々を助け、新たな価値を生み出す必要があります。AIソフトウェアを作成しても、誰も使用せず、価値を生み出せないのであれば、そのAIソフトウェアには何の活力もありません。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。