シェルジル・オゼールの名声は、生成メディア革命(AI画像、動画など)の先駆けとも言える論文「Generative Adversarial Networks(生成的敵対的ネットワーク)」によって始まりました。この論文は、ニューラルネットワークに「想像」の仕方を実質的に教えたと言えるでしょう。 シェルジル・オゼールはインド工科大学デリー校からモントリオール大学を訪問し、主著者のイアン・グッドフェロー、チューリング賞受賞者のヨシュア・ベンジオとともに研究を行った。(https://t.co/LhtYzhBYGL) それ以来、彼は振り返ることはなかった。幸運と才能。 彼のスタートアップ「ジェネラル・エージェント」はジェフ・ベゾスのプロジェクト・プロメテウスに買収され、彼は2025年6月から共同設立者となっている。 ベゾスがなぜ彼らの技術に興味を持っているのかを知るのは興味深いだろう。 理由はこうです。GUI入力でAIにコンピューターを操作させると、AIモデルへの入力が非常に長くなります。これはコストが高く、動作も遅くなります。彼のスタートアップ企業「General Agents」は、画面上の内容を素早く理解し、入力操作(マウスクリックなど)を決定できる、異なるアプローチを採用しています。 おそらく軽量なVision Language Action(VLA)モデルを使って実現しているのでしょう。推論用とカーソルを正確に配置する場所を特定する、2つのモデルを持っている可能性も高いでしょう。デモはこちらでご覧いただけます。実に速いです。https://t.co/e6On4WAIEQ このようなモデルは、Webブラウジングだけでなく、SCADAソフトウェアやエンジニアリング設計ソフトウェアの操作など、コンピューターでの使用にも広く活用できます。 コンピューターの使用自体は目新しいものでも珍しいものでもありませんが、そのスピードは驚異的です。QwenのVLAモデルも同様に処理できますが、速度はQwenほど速くはありません。 Sherjil Ozairは、DeepMindとTesla Autopilotプロジェクトで豊富な経験を有しています。彼の論文は10万回以上引用されています。Prometheusプロジェクトの共同設立者として既にふさわしい人物です。彼は多くの優秀な人材を引きつけ、彼らの選考にも貢献できるでしょう。 @deedydas に勝とうとしています。「Tweet like Deedy」というMCPサーバーを公開します。Claude Code に頼んで、大学や専門学校を検索して宣伝する機能も追加してもらおうと思っています!😂 失礼な言い方じゃないよ、ただふざけてるだけだよ、ディーディ。君の活動の大ファンだよ。 真面目な話、一日中コンピューターに向かって仕事をしている人たちは、いつかMCPに取って代わられるんじゃないかと心配しています。もし信じられないなら、Claudeのコードをリバースエンジニアリングして、Slash Command、スキル、そしてSubAgentsがどのように動作するのか理解してみてください。すべては.mdファイルとテキスト記述でできています。必要なのはBashだけです。 感謝祭おめでとうございます!
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
