謝爾吉爾·奧札爾的成名作是論文《生成對抗網路》,這篇論文可以說是開啟了生成媒體革命(人工智慧圖像、影片等)。該論文實際上教會了神經網路如何「想像」。 Sherjil Ozair 來自印度理工學院德里分校,當時正在蒙特利爾大學訪問,並有機會與主要作者 Ian Goodfellow 和圖靈獎得主 Yoshua Bengio 合作。 (https://t.co/LhtYzhBYGL)。 他從此一帆風順。運氣+天賦。 他的新創公司「General Agents」被傑夫貝佐斯的Project Prometheus收購,自2025年6月以來,他一直是Project Prometheus的聯合創始人。 很想知道貝佐斯為什麼會對他們的技術感興趣。 原因如下:當人工智慧透過圖形使用者介面(GUI)輸入來操作電腦時,會導致人工智慧模型接收到的輸入資訊非常冗長。這不僅成本高昂,而且速度很慢。他的新創公司「通用代理」(General Agents)採用了一種不同的方法,使人工智慧能夠快速理解螢幕上的內容,並決定如何執行輸入(例如滑鼠點擊)。 他們可能使用了輕量級的視覺語言動作(VLA)模型。他們很可能使用了兩個模型,一個用於推理,另一個用於確定遊標的精確位置。您可以在這裡觀看演示——速度非常快。 https://t.co/e6On4WAIEQ 這類模式的應用遠不止於網頁瀏覽,例如還可以用於操作SCADA軟體和工程設計軟體。 雖然電腦的使用並非新鮮事物,但它們的速度卻令人驚嘆。 Qwen 的 VLA 型號也能做到這一點,儘管速度不如電腦快。 謝爾吉爾·奧扎爾在DeepMind和特斯拉自動駕駛項目中擁有豐富的經驗,他的論文引用量超過10萬次,完全有資格成為Prometheus項目的聯合創始人。他能夠吸引眾多頂尖人才,並協助進行人才篩選。 我要挑戰一下 @deedydas。我會發布一個名為“像 Deedy 一樣發推”的 MCP 伺服器。也會請 Claude Code 增加尋找大學和學校的功能,並幫它們宣傳一下! 😂 別介意,迪迪,我只是開個玩笑。我非常欣賞你的倡議工作。 說真的——我擔心所有整天對著電腦工作的人總有一天會被MCP(多級認證專家)取代。如果你不相信,可以逆向工程Claude的程式碼,弄清楚斜杠指令、技能和子代理的工作原理。所有東西都是一個.md檔案和一段文字描述。你只需要Bash腳本就夠了。 感恩節快樂!
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
