X (Twitter)

Gemini Deep Research の新バージョンは、複数の研究タスクベンチマークで優れたパフォーマンスを達成しました。人類最後の試験（HLE 統合知識および推論）で最高水準の 46.4% のスコアを達成しました。 DeepSearchQA (マルチステップ Web リサーチ) では 66.1% という非常に優れたスコアを獲得しました。また、BrowseComp（閲覧および比較タスク）でも59.2%という非常に優れたスコアを獲得しました。これらはすべて最先端の成果です。

Google は、大規模言語モデルが「ワンショットのテキスト生成ツール」から「継続的にタスクを実行できるインテリジェントシステム」へと進化していると考えていまxiaohu.ai/c/xiaohu-ai/go…この目的のために設計されたインフラストラクチャです。https://t.co/JKbP7fgQnh

Google は、大規模言語モデルが「ワンショットのテキスト生成ツール」から「継続的にタスクを実行できるインテリジェントシステム」へと進化していると考えています。

Interactions API はこの目的のために設計されたインフラ

小互（@imxiaohu）のスレッド

作者情報

スレッド内容