我對雙子座3號的筆記 簡短版本: 首先:大家都看過基準測試結果了,所以我覺得不需要我來評判。不過,根據我的測試,這已經非常接近真實水平了,我想談談它。在我測試過的最困難的問題上,這個模型遠遠優於 GPT-5 Pro、Gemini 2.5 Deep Think 以及其他所有模型。 這是新的SOTA: → 偵錯複雜的編譯器錯誤 → 重構檔案時不會出現邏輯錯誤 → 解決複雜的λ演算問題 → ASCII 藝術(現在看起來還不錯!) → 第三世代 OU 競技對局(不多說了😭) 它仍然是一種LLM(層級模型),具有類似的故障模式,在某些情況下甚至比Sonnet/GPT-5更糟。 它似乎在以下方面表現很差: → 推斷意圖 → 不要做得太過火 → 一次性氛圍編碼 → 創意寫作 → 健康問題 另外,我懷疑這個檢查點並不是谷歌目前最好的檢查點。 接下來,我們將看到一份完整的、手動輸入的 Gemini 3 概述。 --- # 長版本 1. Vibe 測試:λ演算編程 我喜歡這種感覺測試,因為它防作弊:一旦某個模型解決了我的最困難的問題,我就會創建一個更難的問題,稍微提高一下目標。 目前業績記錄: → n元組映射:已由Grok 3解決(2025年2月) → n元組摺疊:由GPT-5解決(2025年8月) → n元組rotl問題:已由Gemini 3解決(今天!) 實現 rotl 令人印象深刻,因為: → 沒有其他模型能接近解決這個問題。 → Gemini 的解法比我的方案簡單兩倍。 → Gemini 3 解題速度比我快 5 倍。 事實上,它的解法非常簡潔,一行就能寫完: λn.λt.λk.(tλx.(nλg.λh.(h(gλq.λr.λs.(q(rs))))λu.λf.(fx)λu.uk)) 很漂亮,不是嗎?這個小函數是λ編碼元組的通用旋轉器。相較之下,其他所有模型都會產生一個大5倍的項…但這行不通。根本沒有其他模型可以產生類似的東西。這個答案讓我震驚不已。 我會發布一個包含提示訊息的 Gist,以及一個可運行的解決方案。 2. 實際調試 幾週前,我被一個棘手的 HVM4 bug 難住了。我在這裡發文抱怨說沒有 AI 能解決它。結果,AI 真的解決了。有人透過 LMSys 在我的舊檢查點上運行了我的提示,它精準地找到了問題所在:某個特定優化中的棧下溢。解決方案很簡單:把 `WNF_SPOS < 0` 換成 `WNF_SPOS < spos`。 這是人工智慧第一次在我自己解決實際問題之前就解決了這個問題,這讓我能夠繼續處理下一個問題,從而取得了巨大的進展。 我用 Gemini 3 測試了很多舊的調試提示,它解決了其中一半的問題。以前我花了幾個小時才解決的 bug,現在電腦一分鐘就能搞定! 現在,很遺憾:我把堆疊下溢問題提交給了今天發布的 Gemini 3 型號,但它沒能找到問題所在。所以,要么這個型號不是谷歌最聰明的版本,要么我那天運氣真的很好。 ): 3. 實際編碼/重構 該模型非常適合無錯誤地寫入大型文件。 例如,我讓一些人工智慧程式對 HVM4.hs 檔案進行了一些核心修改,然後檢查了其中最棘手的函數。不出所料,所有模型都在一些關鍵細節上失敗,導致了嚴重的 bug——除了 Gemini 3,它完美地完成了任務。 這讓我特別感到鼓舞,因為先前的模型在處理諸如線性等特定限制時會遇到困難,導致它們無法用於高價值製造的核心功能。而 Gemini 3 在這方面似乎表現得非常出色。 (代碼見下圖。) 4. 問題與怪癖 我讓 Gemini 3 對一個 Web 應用進行一次性建模,結果很差。 GPT-5.1(高難度)產生了一個完整的文件,包含了所有我要求的功能,而且沒有任何 bug。 Gemini 3 產生的檔案只有 GPT-5.1 的三分之一大小,缺少很多功能,而且 bug 也很多。我根本無法讓 Gemini 3 產生像 GPT-5.1 那樣高品質的一次性建模檔案。 我還發了關於腦膜炎前兆的提示訊息,結果它完全排除了腦膜炎的可能性(💀)。我不確定它對健康問題的預測是否可靠。 我讓它寫個故事,結果寫得很糟。沒有任何藉口。 它經常會過度操作,寫入完整的文件,而不是只是修補漏洞。 在 Gemini CLI 上,它似乎比 GPT-5(高級)還要慢,儘管直接呼叫時要快得多? 最後,有趣的是,當上下文需要時,它很難產生錯誤的程式碼。例如,如果你的類型有一個通用的「Show」實例,而你要求它建立一個自訂實例,它通常會遇到困難,因為從技術上講,這會是一個錯誤。它無法理解你之後會刪除舊實例! 5. 結論 打字到此為止,再見。
n元組rotl問題: https://t.co/Bgist.github.com/VictorTaelin/1…: https://t.co/TZwlZ264VI 正確答案是: -gist.github.com/VictorTaelin/a…S > spos` 這個問題透過 lithiumflow 解決了,但 Gemini 3 卻沒有解決 :( 任何公共模式都能解決這個問題嗎?
顯然,這只是第一天的體驗,所以請謹慎看待,尤其是我測試較少的部分。有人說它在創意寫作和健康方面也很有幫助。也許是這樣?不過,推斷意圖的問題確實存在!
