Gemini Deep Research の新バージョンは、複数の研究タスクベンチマークで優れたパフォーマンスを達成しました。 人類最後の試験(HLE 統合知識および推論)で最高水準の 46.4% のスコアを達成しました。 DeepSearchQA (マルチステップ Web リサーチ) では 66.1% という非常に優れたスコアを獲得しました。 また、BrowseComp(閲覧および比較タスク)でも59.2%という非常に優れたスコアを獲得しました。 これらはすべて最先端の成果です。
Google は、大規模言語モデルが「ワンショットのテキスト生成ツール」から「継続的にタスクを実行できるインテリジェント システム」へと進化していると考えていまxiaohu.ai/c/xiaohu-ai/go…この目的のために設計されたインフラストラクチャです。https://t.co/JKbP7fgQnh

