https://t.co/aBhEeNzIge 來自X 帳號TestingCatalog 的爆料:Google 在Gemini 企業版(Gemini Enterprise)裡新增多智能體「自動做研究」模式 Google 正在Gemini for Enterprise 打造一個多智能體系統。你給它一個主題,再配上一套評估標準,它就能自己生成一大堆點子,然後拉起一整支智能體團隊,像打錦標賽一樣一輪輪評審這些點子。 這個系統一次可以連續工作約40 分鐘。對於一個面向一般企業用戶的產品來說,這已經是非常長的一次連續推理過程了。 在這40 分鐘結束時,使用者會收到一大串點子清單,依照你一開始設定的標準從優到劣排好名。整個規模也不小:系統一次能產出大約100 個點子。對每一個點子,你都能拿到: - 一個概覽 - 一個更詳細的說明 - 一份點評總結 - 一份完整長評 - 以及一份專門的「錦標賽表現報告」(tournament performance report) 這個「表現報告」還是一個單獨的輸出,可以單獨打開慢慢看。所有生成出來的點子都是可選擇的,你可以點進任一個,繼續深入展開。 在目前的內測版本裡,Google 看起來內建了三個智能體,其中兩個就是搭在這個多智能體「錦標賽」系統之上的。 第一個叫「Idea Generation」(創意生成) 在這個模式裡,你只要給一個主題,這個智能體就會啟動整套多智能體工作流程,用「錦標賽式評估」(tournament-style evaluation)來產生和排序各種相關點子。 (所謂錦標賽式,就是不斷讓方案互相“對決”,勝出的留下,弱的被淘汰) 第二個叫「Co-scientist」(聯合科學家) 這個則更偏向科學研究和研究場景。你可以指定一個研究主題,再提供一些額外數據,然後一整個智能體團隊會先生成研究方向和方案,再用同樣的錦標賽機制去評估這些想法,只是這次會更強調科學研究和科學探索的需求。 這裡最有趣的一點,是它背後明顯投入了非常誇張的算力。允許智能體在一個任務上連續工作大約40 分鐘,這在現在的大多數智能體工具裡都算是「豪華配置」了。 在整個40 分鐘裡,系統會不斷迭代這個問題,不斷產生、篩選、評分、重組。目前,這一切都還只出現在Gemini for Enterprise 裡,屬於內部開發階段,對一般使用者是隱藏的,還沒有以正式功能對外開放。 跟現有的智能體實作相比,這套看起來是個明顯的前進一大步。就算是那些已經帶瀏覽器模式的高階智能體,通常也會受限於上下文視窗和時間預算(time budget)。 而這次,Google 的做法,是直接把一大塊算力「擺在檯面上」給企業客戶用,做成一個正兒八經的前端產品介面。這也和所謂的「Level 3 AI」的概念非常契合:這一層級的AI 智能體,被描述為可以在同一個問題上持續工作一段較長時間。 (這裡的Level 3 並不是統一標準,更像是業界對「能長時間連續工作的智能體」的一種非正式分級說法)從這個角度看,讓智能體在單一任務上跑滿40 分鐘,是一個非常典型、甚至偏激進的例子。 在實際使用中,這套系統輸出的核心是「被充分篩選和精煉過的點子集合」。但它們遠不只是隨手拋出的一堆建議,而是可以視為一組結構化的研究方向:在你給定的數據和問題背景下,這些方向有可能真正指向高價值的洞見。所以,Google 正在推動這種極其強力的智能體能力,專門服務組織、公司和研究團隊,這件事本身就非常耐人尋味。 等這項功能真正對外發佈時,很可能會是一次不小的躍遷,尤其是如果這些智能體最終由Gemini 3 Pro 來驅動的話。現在,Gemini 3 Pro 還沒有進入Gemini Enterprise,所以目前還不清楚這些實驗性智能體背後具體用的是哪一個模型。 這裡依然有很多東西需要測試和驗證。當你把一個提示詞(prompt)提交給這套系統時,它首先會給出一份「計劃做什麼」的概要:會在哪些維度上評估、打算從哪些方向出發生成和篩選點子。只有在你確認這份概要之後,系統才會真正啟動那次「大任務」。這相當於在燒一大筆算力之前,先跟你對齊「我到底打算怎麼理解你的問題」。 除了多智能體錦標賽工作流程之外,Gemini Enterprise 裡還有另一個智能體,叫做「chat with your docs」(和文件聊天),它配了一套獨立的UI。這個智能體允許使用者上傳大小最高30MB 的PDF,然後面對這些文件進行專門對話。 這個功能同樣屬於Gemini Enterprise 的一部分,目前還沒有對外發布,而且在生產環境中暫時不可用。它的設計想法是:最多30MB 的PDF 內容可以被分析並寫入模型的上下文裡,這樣使用者就能從現有文件中抽取更有價值的信息,而不是只靠人自己翻頁看。 在Gemini Enterprise 裡,還有不少其他功能正在開發中,但真正最搶眼的,還是這兩條線: 1. 多智能體錦標賽式工作流程 2. 面向文件的專用智能體 特別是那個基於錦標賽的多智能體架構,看起來就是一種突破性的產品路線——其他大語言模型(LLM)服務商,目前似乎還沒有在這個層級上,給用戶類似的東西。多智能體錦標賽在面向終端用戶的工具裡依然非常少見。也許可以拿Grok Heavy 來做某種對比,但很可能也不能算是跟Google 這套完全同一個方向的東西。 等這些智能體成熟之後,如果能看到一套正式的評估結果和基準測試,那會非常有價值。光從現在的描述來看,那個Co-scientist 智能體已經足夠讓許多大型組織和研究團隊心動——尤其是那些正在探索新科學方向的團隊。 至於這些智能體具體什麼時候會正式上線,或是會不會開放給非企業用戶,目前還都是未知數。 來源:
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。