X (Twitter)

我對雙子座3號的筆記簡短版本：首先：大家都看過基準測試結果了，所以我覺得不需要我來評判。不過，根據我的測試，這已經非常接近真實水平了，我想談談它。在我測試過的最困難的問題上，這個模型遠遠優於 GPT-5 Pro、Gemini 2.5 Deep Think 以及其他所有模型。這是新的SOTA： → 偵錯複雜的編譯器錯誤 → 重構檔案時不會出現邏輯錯誤 → 解決複雜的λ演算問題 → ASCII 藝術（現在看起來還不錯！） → 第三世代 OU 競技對局（不多說了😭）它仍然是一種LLM（層級模型），具有類似的故障模式，在某些情況下甚至比Sonnet/GPT-5更糟。它似乎在以下方面表現很差： → 推斷意圖 → 不要做得太過火 → 一次性氛圍編碼 → 創意寫作 → 健康問題另外，我懷疑這個檢查點並不是谷歌目前最好的檢查點。接下來，我們將看到一份完整的、手動輸入的 Gemini 3 概述。 --- # 長版本 1. Vibe 測試：λ演算編程我喜歡這種感覺測試，因為它防作弊：一旦某個模型解決了我的最困難的問題，我就會創建一個更難的問題，稍微提高一下目標。目前業績記錄： → n元組映射：已由Grok 3解決（2025年2月） → n元組摺疊：由GPT-5解決（2025年8月） → n元組rotl問題：已由Gemini 3解決（今天！）實現 rotl 令人印象深刻，因為： → 沒有其他模型能接近解決這個問題。 → Gemini 的解法比我的方案簡單兩倍。 → Gemini 3 解題速度比我快 5 倍。事實上，它的解法非常簡潔，一行就能寫完： λn.λt.λk.(tλx.(nλg.λh.(h(gλq.λr.λs.(q(rs))))λu.λf.(fx)λu.uk)) 很漂亮，不是嗎？這個小函數是λ編碼元組的通用旋轉器。相較之下，其他所有模型都會產生一個大5倍的項…但這行不通。根本沒有其他模型可以產生類似的東西。這個答案讓我震驚不已。我會發布一個包含提示訊息的 Gist，以及一個可運行的解決方案。 2. 實際調試幾週前，我被一個棘手的 HVM4 bug 難住了。我在這裡發文抱怨說沒有 AI 能解決它。結果，AI 真的解決了。有人透過 LMSys 在我的舊檢查點上運行了我的提示，它精準地找到了問題所在：某個特定優化中的棧下溢。解決方案很簡單：把 `WNF_SPOS < 0` 換成 `WNF_SPOS < spos`。這是人工智慧第一次在我自己解決實際問題之前就解決了這個問題，這讓我能夠繼續處理下一個問題，從而取得了巨大的進展。我用 Gemini 3 測試了很多舊的調試提示，它解決了其中一半的問題。以前我花了幾個小時才解決的 bug，現在電腦一分鐘就能搞定！現在，很遺憾：我把堆疊下溢問題提交給了今天發布的 Gemini 3 型號，但它沒能找到問題所在。所以，要么這個型號不是谷歌最聰明的版本，要么我那天運氣真的很好。 ): 3. 實際編碼/重構該模型非常適合無錯誤地寫入大型文件。例如，我讓一些人工智慧程式對 HVM4.hs 檔案進行了一些核心修改，然後檢查了其中最棘手的函數。不出所料，所有模型都在一些關鍵細節上失敗，導致了嚴重的 bug——除了 Gemini 3，它完美地完成了任務。這讓我特別感到鼓舞，因為先前的模型在處理諸如線性等特定限制時會遇到困難，導致它們無法用於高價值製造的核心功能。而 Gemini 3 在這方面似乎表現得非常出色。（代碼見下圖。） 4. 問題與怪癖我讓 Gemini 3 對一個 Web 應用進行一次性建模，結果很差。 GPT-5.1（高難度）產生了一個完整的文件，包含了所有我要求的功能，而且沒有任何 bug。 Gemini 3 產生的檔案只有 GPT-5.1 的三分之一大小，缺少很多功能，而且 bug 也很多。我根本無法讓 Gemini 3 產生像 GPT-5.1 那樣高品質的一次性建模檔案。我還發了關於腦膜炎前兆的提示訊息，結果它完全排除了腦膜炎的可能性（💀）。我不確定它對健康問題的預測是否可靠。我讓它寫個故事，結果寫得很糟。沒有任何藉口。它經常會過度操作，寫入完整的文件，而不是只是修補漏洞。在 Gemini CLI 上，它似乎比 GPT-5（高級）還要慢，儘管直接呼叫時要快得多？最後，有趣的是，當上下文需要時，它很難產生錯誤的程式碼。例如，如果你的類型有一個通用的「Show」實例，而你要求它建立一個自訂實例，它通常會遇到困難，因為從技術上講，這會是一個錯誤。它無法理解你之後會刪除舊實例！ 5. 結論打字到此為止，再見。

n元組rotl問題： https://t.co/Bgist.github.com/VictorTaelin/1…： https://t.co/TZwlZ264VI 正確答案是： -gist.github.com/VictorTaelin/a…S > spos` 這個問題透過 lithiumflow 解決了，但 Gemini 3 卻沒有解決 :( 任何公共模式都能解決這個問題嗎？

顯然，這只是第一天的體驗，所以請謹慎看待，尤其是我測試較少的部分。有人說它在創意寫作和健康方面也很有幫助。也許是這樣？不過，推斷意圖的問題確實存在！

來自 Taelin（@VictorTaelin）的推文串

作者資訊

推文串內容