谢尔吉尔·奥扎尔的成名作是论文《生成对抗网络》,这篇论文可以说是开启了生成媒体革命(人工智能图像、视频等)。该论文实际上教会了神经网络如何“想象”。 Sherjil Ozair 来自印度理工学院德里分校,当时正在蒙特利尔大学访问,并有机会与主要作者 Ian Goodfellow 和图灵奖获得者 Yoshua Bengio 共事。(https://t.co/LhtYzhBYGL)。 他从此一帆风顺。运气+天赋。 他的创业公司“General Agents”被杰夫·贝佐斯的Project Prometheus收购,自2025年6月以来,他一直是Project Prometheus的联合创始人。 很想知道贝佐斯为什么会对他们的技术感兴趣。 原因如下:当人工智能通过图形用户界面(GUI)输入来操作电脑时,会导致人工智能模型接收到的输入信息非常冗长。这不仅成本高昂,而且速度很慢。他的创业公司“通用代理”(General Agents)采用了一种不同的方法,使人工智能能够快速理解屏幕上的内容,并决定如何执行输入(例如鼠标点击)。 他们可能使用了轻量级的视觉语言动作(VLA)模型。他们很可能使用了两个模型,一个用于推理,另一个用于确定光标的精确位置。您可以在这里观看演示——速度非常快。https://t.co/e6On4WAIEQ 这类模型的应用远不止于网页浏览,例如还可以用于操作SCADA软件和工程设计软件。 虽然计算机的使用并非新鲜事物,但它们的速度却令人惊叹。Qwen 的 VLA 型号也能做到这一点,尽管速度不如计算机快。 谢尔吉尔·奥扎尔在DeepMind和特斯拉自动驾驶项目中拥有丰富的经验,他的论文引用量超过10万次,完全有资格成为Prometheus项目的联合创始人。他能够吸引众多顶尖人才,并协助进行人才筛选。 我要挑战一下 @deedydas。我会发布一个名为“像 Deedy 一样发推”的 MCP 服务器。还会请 Claude Code 添加查找大学和学校的功能,并帮它们宣传一下!😂 别介意,迪迪,我只是开个玩笑。我非常欣赏你的倡导工作。 说真的——我担心所有整天对着电脑工作的人总有一天会被MCP(多级认证专家)取代。如果你不信,可以逆向工程Claude的代码,弄明白斜杠命令、技能和子代理的工作原理。所有东西都是一个.md文件和一段文本描述。你只需要Bash脚本就够了。 感恩节快乐!
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
