我对双子座3号的笔记 简短版本: 首先:大家都看过基准测试结果了,所以我觉得不需要我来评判。不过,根据我的测试,这已经非常接近真实水平了,我想谈谈它。在我测试过的最难的问题上,这个模型远远优于 GPT-5 Pro、Gemini 2.5 Deep Think 以及其他所有模型。 这是新的SOTA: → 调试复杂的编译器错误 → 重构文件时不会出现逻辑错误 → 解决复杂的λ演算问题 → ASCII 艺术(现在看起来还不错!) → 第三世代 OU 竞技对局(不多说了😭) 它仍然是一种LLM(层级模型),具有类似的故障模式,在某些情况下甚至比Sonnet/GPT-5更糟糕。 它似乎在以下方面表现很差: → 推断意图 → 不要做得太过火 → 一次性氛围编码 → 创意写作 → 健康问题 另外,我怀疑这个检查点并不是谷歌目前最好的检查点。 接下来,我们将看到一份完整的、手动输入的 Gemini 3 概述。 --- # 长版本 1. Vibe 测试:λ演算编程 我喜欢这种感觉测试,因为它防作弊:一旦某个模型解决了我的最难的问题,我就创建一个更难的问题,稍微提高一下目标。 当前业绩记录: → n元组映射:已由Grok 3解决(2025年2月) → n元组折叠:由GPT-5解决(2025年8月) → n元组rotl问题:已由Gemini 3解决(今天!) 实现 rotl 令人印象深刻,因为: → 没有其他模型能接近解决这个问题。 → Gemini 的解决方案比我的方案简单两倍。 → Gemini 3 解题速度比我快 5 倍。 事实上,它的解法非常简洁,一行就能写完: λn.λt.λk.(tλx.(nλg.λh.(h(gλq.λr.λs.(q(rs))))λu.λf.(fx)λu.uk)) 很漂亮,不是吗?这个小函数是λ编码元组的通用旋转器。相比之下,其他所有模型都会生成一个大5倍的项……但这行不通。根本没有其他模型能生成类似的东西。这个答案让我震惊不已。 我会发布一个包含提示信息的 Gist,以及一个可运行的解决方案。 2. 实际调试 几周前,我被一个棘手的 HVM4 bug 难住了。我在这里发帖抱怨说没有 AI 能解决它。结果,AI 真的解决了。有人通过 LMSys 在我的旧检查点上运行了我的提示,它精准地找到了问题所在:某个特定优化中的栈下溢。解决方案很简单:把 `WNF_SPOS < 0` 替换成 `WNF_SPOS < spos`。 这是人工智能第一次在我自己解决实际问题之前就解决了这个问题,这让我能够继续处理下一个问题,从而取得了巨大的进步。 我用 Gemini 3 测试了很多旧的调试提示,它解决了其中一半的问题。以前我花了几个小时才解决的 bug,现在电脑一分钟就能搞定! 现在,很遗憾:我把堆栈下溢问题提交给了今天发布的 Gemini 3 型号,但它没能找到问题所在。所以,要么这个型号不是谷歌最智能的版本,要么我那天运气真的很好。 ): 3. 实际编码/重构 该模型非常适合无错误地写入大型文件。 例如,我让一些人工智能程序对 HVM4.hs 文件进行了一些核心修改,然后检查了其中最棘手的函数。不出所料,所有模型都在一些关键细节上失败,导致了严重的 bug——除了 Gemini 3,它完美地完成了任务。 这让我尤其感到鼓舞,因为之前的模型在处理诸如线性等特定限制时会遇到困难,导致它们无法用于高价值制造的核心功能。而 Gemini 3 在这方面似乎表现得非常出色。 (代码见下图。) 4. 问题与怪癖 我让 Gemini 3 对一个 Web 应用进行一次性建模,结果很差。GPT-5.1(高难度)生成了一个完整的文件,包含了所有我要求的功能,而且没有任何 bug。Gemini 3 生成的文件只有 GPT-5.1 的三分之一大小,缺少很多功能,而且 bug 也很多。我根本无法让 Gemini 3 生成像 GPT-5.1 那样高质量的一次性建模文件。 我还发了关于脑膜炎前兆的提示信息,结果它完全排除了脑膜炎的可能性(💀)。我不确定它对健康问题的预测是否可靠。 我让它写个故事,结果写得很糟糕。没有任何借口。 它经常会过度操作,写入完整的文件,而不是仅仅修补漏洞。 在 Gemini CLI 上,它似乎比 GPT-5(高级)还要慢,尽管直接调用时速度要快得多? 最后,有趣的是,当上下文需要时,它却很难生成错误的代码。例如,如果你的类型有一个通用的“Show”实例,而你要求它创建一个自定义实例,它通常会遇到困难,因为从技术上讲,这会是一个错误。它无法理解你之后会删除旧实例! 5. 结论 打字到此为止,再见。
n元组rotl问题: https://t.co/Bgist.github.com/VictorTaelin/1…: https://t.co/TZwlZ264VI 正确答案是: -gist.github.com/VictorTaelin/a…S > spos` 这个问题通过 lithiumflow 解决了,但 Gemini 3 却没有解决 :( 任何公共模式都能解决这个问题吗?
显然,这只是第一天的体验,所以请谨慎看待,尤其是我测试较少的部分。有人说它在创意写作和健康方面也很有帮助。也许是这样?不过,推断意图的问题确实存在!
