張小軍氏と李翔氏の3時間にわたる対談の完全版を視聴し終えたところですが、非常に有益な情報でした。この対談は実際には6ヶ月前(2025年4月)に行われたもので、AI業界のタイムラインから判断すると、内容の多くはそれ以降変化しています。 張暁君は素晴らしい例えを使ってこう言った。 今回は、李翔氏を「CEOモデル」として捉え、質問を投げかけました。李氏がMoEモデルを体現していると仮定し、最初の3ラウンドでは、彼の3人の「専門家」、すなわち技術専門家、戦略専門家、そして組織専門家を招きました。会話が後半に進むにつれて、私たちは人、エネルギー、親密な関係、記憶プロセス、そして人間の知性について議論を始めました。 李翔氏の「答え」は非常に率直で、いくぶん「直感に反する」ものでした。羅永浩氏との会話では自身の成長と起業家精神に焦点が当てられ、車とはあまり関係がありませんでした。その代わりに、彼はAIについてより深く語り、モデルの学習方法まで議論しました。 --- トピック 1: 「情報ツール」と「生産ツール」: なぜ AI によって私たちはいまだに本当の意味で仕事から解放されないのでしょうか? これは、李翔が冒頭で述べた鋭い観察である。 「同僚や友人は皆、人工知能の素晴らしさを語っていますが、全員の労働時間は減っておらず、仕事の成果も大幅に向上していません。」 なぜ? 彼は「エントロピーの増加」と「エントロピーの減少」の比較を提案した。 AI は「エントロピー増大」に特に優れており、膨大な量の情報やテラバイト単位のデータを処理し、複雑さを極限まで高めることができます。 では人間はどうでしょうか?人間の脳は本来、エントロピーを減らすように設計されています。私たちは、最も単純なルールと最小限のエネルギーで問題を解決するための方法論を発明し、ツールを作成します。 現在の矛盾は、私たちのほとんどが依然として AI を「情報ツール」(チャットボットなど)または「支援ツール」(インテリジェント音声など)として扱っていることです。 情報ツール:質問すれば答えてくれる。ただ「次のトークン」、つまり参照点を提供するだけだ。「エントロピーの削減」に役立つどころか、大量の「無効な情報」、さらには欺瞞的な情報までも増やしてしまう。 - アクセシビリティツール:ナビゲーションを調整したり、Meituan(フードデリバリープラットフォーム)をチェックしたりするのに役立ちます。既存のエクスペリエンスを向上させますが、それでもなくてはならないものです。 Li Xiang 氏は、AI の真のブレークスルーは「生産ツール」への進化にあると考えています。 「生産手段」とは何でしょうか?彼は非常にシンプルな定義を与えました。「知識と行動の統一」です。 ロボットはただ「知る」(know)のではなく、「行動する」(do)ことができなければなりません。真に私の代わりとなり、専門的な仕事を完了し、私の1日の最も重要な8時間を解決できなければなりません。 彼は、同僚たちが自社のサービスに料金を支払い始めたCursorやDeep Researchといった例を挙げた。なぜだろうか?それは、これらのツールが「物事を成し遂げる」ようになったからだ。彼らはただ「話す」だけでなく、実際に「仕事をする」ようになったのだ。 これが、エージェントを評価する究極の基準です。エージェントの唯一の目的は「生産ツール」として機能することです。チャットしかできず、アクションを実行できないエージェントの価値は極めて限られています。 --- トピック2: DeepSeekから何を学べるか?直感に反する「ベストプラクティス」 この会話の中で、Li Xiang氏はDeepSeekとその創業者であるLiang Wenfeng氏への敬意を隠さずに語りました。DeepSeekのオープンソース性は、IdealのVLA(Visual Language Action Model)の言語コンポーネントの開発を9か月加速させました。Idealは後に、DeepSeekへの感謝の気持ちから、自社のオペレーティングシステムをオープンソース化しました。 では、DeepSeek は具体的に何を正しく行ったのでしょうか? Li Xiang 氏の要約は次のとおりです。「これは、人間の最善の慣行を非常にシンプルな方法で利用しています。」 彼は 2 つの「ベスト プラクティス」を説明しました。 最初のアプローチは、能力開発(研究開発)のベストプラクティスです。 - ステップ1:調査を実施する ステップ2:開発 - ステップ3:能力の表現 - ステップ4:ビジネス価値への変換 - 私たちがよく犯す間違いは、最初のステップである「リサーチを行う」ことを忘れて、2 番目のステップである「R&D を行う」に直接進んでしまうことです。 2 番目のアプローチは、ビジネスにおけるベスト プラクティスです (推論): - ステップ1:インデックス分析 ステップ2:目標を定義する - ステップ3:創発戦略 ステップ4: フィードバック/レビュー - よくある間違い: 問題に直面したとき、3 番目のステップ「戦略」だけを変えたがり、1 番目のステップ「分析」、2 番目のステップ「目標設定」、4 番目のステップ「レビュー」をやり直すことを忘れてしまいます。 これらの手順を厳密に守ることは、実は「人間の本性に反する」ことです。人間の本性は常に近道をして、やりたいことをやりたがります。優れた組織とは、この人間の本性に抗う組織です。 彼は、梁曼鋒氏がこの種の「自己規律」と「ベストプラクティスの順守」を体現していると信じている。 --- トピック 3: VLA の謎を解く: ドライバーを「構築」するにはどうすればよいでしょうか? これは「テクニカルエキスパート」モジュール全体の中で最もハードコアな部分です。他のメンバーがまだエンドツーエンドのソリューションについて話している中、Li Xiangはすでに次世代のVLA(Vision-Language-Action)アーキテクチャを詳細に解説しています。 彼は運転支援システムの進化を3つの段階に分けましたが、これは非常に適切な例えです。 最初の段階はルールベースのアルゴリズム段階です。これは「昆虫の知能」のようなものです。例えば、アリは高精度の地図(フェロモン)に厳密に依存しており、ルールは厳密に定義されているため、一般化は不可能です。 第二段階はエンドツーエンド段階、つまり「哺乳類の知能」のようなものです。例えば、サーカスの動物は自転車に乗る真似はできますが、物理的な世界を理解することはできません。 第三段階はVLA段階、「人間の知性」の追求です。VLA段階では、見る(ビジョン)だけでなく、理解する(言語、推論や思考の連鎖を含む)、そして実行する(アクション)能力も求められます。 では、この「人間の運転手」はどのようにして「作られた」のでしょうか?Li Xiang氏はシンプルな「3段階の訓練法」を提示しました。 ステップ1:事前トレーニング(VLベース) - 「知識を学ぶために学校に行く」のと同様 目標は、モデルが世界を理解できるようにすることです。 トレーニングにはどのようなデータを使用すればよいですか? 通常のコーパスの使用に加えて、Ideal に固有の 3 種類のデータも使用する必要があります。 1. 3D Vision データ (物理世界)。 2. 高解像度の 2D Vision データ (たとえば、ナビゲーション マップを理解する場合、鮮明度はオープン ソースより 10 倍高くなります)。 3. VL 結合コーパス(「このナビゲーションを見た」+「人間がこの判断を下した」という結合データなど、最も重要なもの)。 それからどうする? 私たちは、クラウド上の 320 億のパラメータを持つこの「ドクター」モデルを、車両側で 32 億のパラメータを持つ「エキスパート」MoE モデルに精製し、車両上で実行できることを保証しました。 ステップ2:トレーニング後(行動を組み込む) - 「自動車学校で運転を学ぶ」のように 模倣と学習を通じて「知識」を「行動」に変えることが目標です。 どうやってトレーニングするのでしょうか? VLA モデルは、人間のドライバーの行動から学習することで、何を見て理解したかを学習し、どのような行動を取るかを決定します。 ステップ3:強化トレーニング(RL) - 「実際に道路を運転している」かのように 目標は、人間と同等かそれ以上の運転技術を実現することです。 どうやってトレーニングするのでしょうか? 1. RLHF (ヒューマンフィードバック): 人間の介入と運転習慣に合わせて調整し、「道路の危険」ではなく「経験豊富なドライバー」のように運転できるようにします。 2. 純粋な RL (ワールド モデル): シミュレーター (ワールド モデル) で自由に走行し、「快適さ」、「交通ルール」、「衝突」を報酬と罰の基準として使用して、自動的に「学習」させ、平均的な人間よりも優れた運転を実現します。 これら 3 つのステップを経て、「VLA ドライバー モデル」が作成されます。 李翔氏は、VLAの最も初期の適用シナリオは交通分野になると考えています。さらに、将来的には「汎用エージェント」は存在せず、無数の「専門エージェント」(運転手、医師、弁護士など)が、統一された「エージェントOS(インテリジェントエージェントオペレーティングシステム)」上で稼働するようになるだろうと予測しています。 --- トピック4:理想的な結末:「AGIターミナル企業」 これは「戦略エキスパート」モジュールについての考察です。 Ideal Company は組織能力を誰から学んでいるのでしょうか? Li Xiang が提案したルートは次のとおりです。 1. 収益が数十億ドル規模の段階:トヨタ、GM(プロセス)、Google(OKR)から学ぶ。 2. 売上高1000億段階:ファーウェイから学ぶ(IPD、組織プロセス)。 3. 1兆ドル(1,000億米ドル)の段階に到達するには、Appleから学ぶ必要があります。 私たちはAppleから何を学ぶべきでしょうか? コンピューター企業から音楽プレーヤー企業、携帯電話企業、サービス エコシステム企業へと拡大する同社の能力から学びましょう。 これを踏まえて、李翔は「理想」という問いに対する究極の答えを提示した。「理想とは誰なのか?」という問いに対し、彼はもはや単に車を挙げるのではなく、極めて明確な定義を示した。 「2030年までに、世界をリードするAI端末企業になりたいと考えています。」 彼は次のような例え話をした。 - PC 時代: 端末企業 (Apple) とプラットフォーム企業 (Microsoft) がありました。 - モバイルインターネット時代:端末企業(Apple)とプラットフォーム企業(Google)がある。 - AGI時代には、プラットフォーム企業(OpenAIなど)と端末企業が必然的に存在します。 理想的には、私たちは AGI 時代の Apple になるべきです。 彼は、自動車が同時に 4 つの要素を備えているため、最初の真の「AGI 端末」であると考えています。 1. 360°の物理的知覚。 2. 認知的意思決定 3. 行動能力 4. 反省とフィードバック。 しかし、彼らの野望は自動車だけに留まらない。5000億台を超える規模に到達すれば、AppleのiPhoneのように、家庭用機器やウェアラブルデバイスなど、(上記の4つの要素を満たす)他のAGI端末への展開も模索する必要がある。 事業規模が大きすぎるという批判に対し、李翔氏は「1000億元を超える収益があるのなら、こうしたことをするのは合理的だ。あまりにも儲かるのだから、なぜやらないのか」と明言した。 --- トピック5:「変化」から「成長」へ:エネルギー、知恵、そして親密な関係 これは会話全体の中で私が個人的に一番好きな部分です。それは「人」についてです。 李翔氏は、彼の最も重要な経営哲学を次のように語った。「人は変わるのが難しいが、成長する意欲はある。」 そのため、マネジメントにおいては「人間の本性に沿って語るが、行動はそれに逆らう」というスタンスを貫きました。人間性に沿った言葉(共に「成長」しよう)を発しながらも、行動はそれに逆らう(「ベストプラクティス」を厳格に実践する)というスタンスです。 彼はまた、「エネルギー」という核となる概念も共有しました。 彼は、組織の核となるのは、3~7人からなる「エネルギー体」(コアパートナーチーム)を構築することだと考えています。このチームは、「より強い頭脳」(共に意思決定を行う)と「より強い心」(互いに支え合う)を形成する必要があります。 このエネルギーはどうやって構築できるのでしょうか? 彼の答えは父親としての経験から生まれたものでした。 「親しい関係においては、自分のニーズを大胆に表現する必要があります。彼らが私を必要とする以上に、私が彼ら(家族、同僚)を必要としているのです。」 彼は、「あなたが必要です」と表現するとエネルギーが流れ始めることを発見しました。これは、誰もが必要とされることを切望しているからです。 これにより、彼は AI 時代について究極の考察に至りました。AI は「知性」を担い、人間は「知恵」を担うのです。 - 知能(能力):AIは無限に向上させることができます。 - 知恵(人間関係):Li Xiang は知恵を「すべてのものとの人間関係」、つまり自分自身との関係、他者との関係、自然との関係と定義しています。 AIの究極の価値とは何でしょうか?それは、エネルギーを消費し「知恵」を生み出さない低価値労働(例えば、勧誘の電話をかけることなど)から人間を解放し、真に「エントロピーを低減」しエネルギーを生み出すこと、つまり「関係性」を管理し「知恵」を高めることに時間を割けるようにすることです。 これは「AIと人間の関係」という根本的な問いに対する答えなのかもしれません。 インタビューのテキストリンク:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
