ByteDance、「Doubao Mobile Assistant」のテクニカルプレビュー版をリリース 画面コンテンツのマルチモーダル認識を実行できます。 また、インタラクティブな操作も可能で、携帯電話のアプリケーション間の操作もサポートします。 音声ウェイクアップ、携帯電話側面の AI ボタンによるウェイクアップ、ヘッドフォンによるウェイクアップをサポートします。 さらに記憶力も備えています。 リアルタイムのビデオ通話に対応しており、カメラで撮影したコンテンツ(絵本など)をAIが理解し、リアルタイムでバイリンガルの説明やインタラクションを提供することができます。 パーソナライズされたメモリ機能: Doubao にはデバイス上のメモリ機能があり、会話履歴や画面情報から重要な情報を抽出し、必要に応じてユーザーを積極的に支援することができます。 日常生活の思い出: メッセージを忘れたときは、「私の車はどこに駐車されていますか?」(以前に撮影した写真に基づく)、「ピックアップコードは何ですか?」(SMS 通知に基づく)、「私の高速鉄道の座席番号は何ですか?」(チケット購入記録に基づく) と尋ねることができます。 好みのメモリ: ユーザーの好み (「ゴッホが好き」など) を記憶し、将来のタスク計画にこの好みを自動的に適用します。 プライバシー保護: ローカルデータの処理と保存に重点が置かれており、ユーザーはいつでもメモリ機能をオンまたはオフにすることができます。 アプリケーション間の電話操作(アプリエージェント/電話操作) これがこの製品の核となる差別化機能です。AIがスマートフォンの制御を引き継ぎ、人間の動作(クリック、入力、スワイプ)をシミュレートし、面倒なタスクを自動で実行します。 ネットワーク全体の価格比較: 1 つのコマンド (「ネットワーク全体の価格を比較」) で、AI が Taobao、JD.com、Pinduoduo などの複数のアプリを自動的に開き、同じ製品を検索して価格を比較し、最低価格の支払いページに留まります。 ライフスタイル サービスの自動化: テスラのフロント トランクの自動オープン、レストランの予約、ポッドキャストの更新の確認とリストへの追加など。 オフィス自動化: Lark/DingTalk で休暇申請や出張承認を自動的に送信し、チケットソフトウェアと連携して高速鉄道のチケットを予約します。 マルチモーダル世代 AIGC 機能は、システムのネイティブ アプリケーションに直接組み込まれています。 インテリジェントな写真編集: システム アルバムでは、音声コマンド (「通行人を削除」) を直接使用してクラウド モデルを呼び出し、写真の高品質な削除と再描画を実行できます。 プロモードでの携帯電話の操作 複雑で長いチェーンのタスクを対象とする高度なモードでは、GUI エージェント (クリックのシミュレーション) と API ツール呼び出しを組み合わせて、強化された推論機能を提供します。 複雑なタスク計画: あいまいな複数ステップの指示を処理します。 例: 「来月パリに行きます。地図に好きなレストランをマークして、好きな展覧会が開催されている美術館のチケットを予約してください。」 実行: AI が自動的にタスクを分解します -> 思い出を検索 (ユーザーがゴッホを好きだと認識) -> 美術館をフィルター処理 (オルセー美術館) -> 地図上にポイントをマーク -> プラットフォーム間でチケットを予約 -> 概要メモを生成します。
ただし、このバージョンでは携帯電話メーカーとの直接の協力が必要になります。 システム統合が行われた そうでなければ、Apple が行う必要がある、これほど多くの権限を取得することは不可能になります。