位元組跳動發布“豆包手機助手”技術預覽版 可對螢幕內容進行多模態識別 並能進行互動操作,支援跨應用程式操作手機 支援語音喚醒、手機側邊AI鍵喚醒、耳機喚醒 而且具有記憶能力 支援即時視訊通話,AI能看懂攝影機拍攝的內容(如繪本),並進行即時的雙語解說與互動。 個人化記憶功能(Memory): 豆包具備端側記憶能力,能從歷史對話和螢幕資訊中提取關鍵訊息,在需要時主動輔助使用者。 生活瑣事回憶: 當你忘記訊息時,可以問它「我的車停哪裡了?」(基於曾拍攝的照片)、「取件碼是多少?」(基於簡訊通知)、「我的高鐵座位號碼?」(基於購票記錄)。 喜好記憶: 記住使用者的偏好(如「喜歡凡高」),在未來的任務規劃中自動套用這項偏好。 隱私權保護: 強調資料在本地處理和存儲,使用者可隨時開啟或關閉記憶功能。 跨應用程式操作手機(App Agent / Phone Operation) 這是其最核心的差異化功能。 AI可以接管手機控制權,模擬人的操作(點擊、輸入、滑動),自動執行繁瑣任務。 全網比價: 一句話指令(「幫我全網比價」),AI自動打開淘寶、京東、拼多多等多個App,檢索同款商品,比較價格,並停留在最低價的支付頁。 生活服務自動化: 如自動開啟特斯拉前行李箱、預定餐廳、查詢播客更新並加入清單。 辦公室自動化: 自動在飛書/釘釘提交請假申請、差旅審批,並聯動購票軟體預定高鐵票。 多模態生成與編輯(Multimodal Generation) 將AIGC能力直接嵌入系統原生應用中。 智慧修圖: 在系統相簿中,直接透過語音指令(「把路人P掉」),呼叫雲端模型對照片進行高品質的消除和重繪。 操作手機Pro模式(Pro Mode) 針對複雜、長鏈條任務的高階模式,結合了GUI Agent(模擬點擊)和API工具調用,具備更強的推理能力。 複雜任務規劃: 處理模糊且多步驟的指令。 案例: 「下個月去巴黎,把收藏的餐廳標在地圖上,幫我訂一張有我喜歡展覽的博物館門票」。 執行: AI會自動拆解任務-> 搜尋記憶(知道使用者喜歡凡高)-> 篩選博物館(奧賽博物館)-> 地圖打點-> 跨平台訂票-> 產生總結備忘錄。
不過這個版本的是直接跟手機廠商合作 進行了系統集成 否則無法獲得這麼多權限,這也是蘋果要做的事情