X (Twitter)

我对双子座3号的笔记简短版本：首先：大家都看过基准测试结果了，所以我觉得不需要我来评判。不过，根据我的测试，这已经非常接近真实水平了，我想谈谈它。在我测试过的最难的问题上，这个模型远远优于 GPT-5 Pro、Gemini 2.5 Deep Think 以及其他所有模型。这是新的SOTA： → 调试复杂的编译器错误 → 重构文件时不会出现逻辑错误 → 解决复杂的λ演算问题 → ASCII 艺术（现在看起来还不错！） → 第三世代 OU 竞技对局（不多说了😭）它仍然是一种LLM（层级模型），具有类似的故障模式，在某些情况下甚至比Sonnet/GPT-5更糟糕。它似乎在以下方面表现很差： → 推断意图 → 不要做得太过火 → 一次性氛围编码 → 创意写作 → 健康问题另外，我怀疑这个检查点并不是谷歌目前最好的检查点。接下来，我们将看到一份完整的、手动输入的 Gemini 3 概述。 --- # 长版本 1. Vibe 测试：λ演算编程我喜欢这种感觉测试，因为它防作弊：一旦某个模型解决了我的最难的问题，我就创建一个更难的问题，稍微提高一下目标。当前业绩记录： → n元组映射：已由Grok 3解决（2025年2月） → n元组折叠：由GPT-5解决（2025年8月） → n元组rotl问题：已由Gemini 3解决（今天！）实现 rotl 令人印象深刻，因为： → 没有其他模型能接近解决这个问题。 → Gemini 的解决方案比我的方案简单两倍。 → Gemini 3 解题速度比我快 5 倍。事实上，它的解法非常简洁，一行就能写完： λn.λt.λk.(tλx.(nλg.λh.(h(gλq.λr.λs.(q(rs))))λu.λf.(fx)λu.uk)) 很漂亮，不是吗？这个小函数是λ编码元组的通用旋转器。相比之下，其他所有模型都会生成一个大5倍的项……但这行不通。根本没有其他模型能生成类似的东西。这个答案让我震惊不已。我会发布一个包含提示信息的 Gist，以及一个可运行的解决方案。 2. 实际调试几周前，我被一个棘手的 HVM4 bug 难住了。我在这里发帖抱怨说没有 AI 能解决它。结果，AI 真的解决了。有人通过 LMSys 在我的旧检查点上运行了我的提示，它精准地找到了问题所在：某个特定优化中的栈下溢。解决方案很简单：把 `WNF_SPOS < 0` 替换成 `WNF_SPOS < spos`。这是人工智能第一次在我自己解决实际问题之前就解决了这个问题，这让我能够继续处理下一个问题，从而取得了巨大的进步。我用 Gemini 3 测试了很多旧的调试提示，它解决了其中一半的问题。以前我花了几个小时才解决的 bug，现在电脑一分钟就能搞定！现在，很遗憾：我把堆栈下溢问题提交给了今天发布的 Gemini 3 型号，但它没能找到问题所在。所以，要么这个型号不是谷歌最智能的版本，要么我那天运气真的很好。 ): 3. 实际编码/重构该模型非常适合无错误地写入大型文件。例如，我让一些人工智能程序对 HVM4.hs 文件进行了一些核心修改，然后检查了其中最棘手的函数。不出所料，所有模型都在一些关键细节上失败，导致了严重的 bug——除了 Gemini 3，它完美地完成了任务。这让我尤其感到鼓舞，因为之前的模型在处理诸如线性等特定限制时会遇到困难，导致它们无法用于高价值制造的核心功能。而 Gemini 3 在这方面似乎表现得非常出色。（代码见下图。） 4. 问题与怪癖我让 Gemini 3 对一个 Web 应用进行一次性建模，结果很差。GPT-5.1（高难度）生成了一个完整的文件，包含了所有我要求的功能，而且没有任何 bug。Gemini 3 生成的文件只有 GPT-5.1 的三分之一大小，缺少很多功能，而且 bug 也很多。我根本无法让 Gemini 3 生成像 GPT-5.1 那样高质量的一次性建模文件。我还发了关于脑膜炎前兆的提示信息，结果它完全排除了脑膜炎的可能性（💀）。我不确定它对健康问题的预测是否可靠。我让它写个故事，结果写得很糟糕。没有任何借口。它经常会过度操作，写入完整的文件，而不是仅仅修补漏洞。在 Gemini CLI 上，它似乎比 GPT-5（高级）还要慢，尽管直接调用时速度要快得多？最后，有趣的是，当上下文需要时，它却很难生成错误的代码。例如，如果你的类型有一个通用的“Show”实例，而你要求它创建一个自定义实例，它通常会遇到困难，因为从技术上讲，这会是一个错误。它无法理解你之后会删除旧实例！ 5. 结论打字到此为止，再见。

n元组rotl问题： https://t.co/Bgist.github.com/VictorTaelin/1…： https://t.co/TZwlZ264VI 正确答案是： -gist.github.com/VictorTaelin/a…S > spos` 这个问题通过 lithiumflow 解决了，但 Gemini 3 却没有解决 :( 任何公共模式都能解决这个问题吗？

显然，这只是第一天的体验，所以请谨慎看待，尤其是我测试较少的部分。有人说它在创意写作和健康方面也很有帮助。也许是这样？不过，推断意图的问题确实存在！

来自 Taelin（@VictorTaelin）的推文线程

作者信息

线程正文