Gemini 3 泄露——在数学、屏幕理解和 SimpleQA 方面都有了惊人的改进……在 swebench 测试中居然输给了 Sonnet,但在 terminalbench 测试中却胜出。 上下文长度比 2.5 专业版还要短🫣 https://t.co/qQah8GPDIV
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月18日 11:06
Gemini 3 泄露——在数学、屏幕理解和 SimpleQA 方面都有了惊人的改进……在 swebench 测试中居然输给了 Sonnet,但在 terminalbench 测试中却胜出。 上下文长度比 2.5 专业版还要短🫣 https://t.co/qQah8GPDIV