Gemini 3 這麼猛嗎,一位歷史學家測試了Gemini 3 Pro 破解歷史文件 他能實現以前模型基本上無法完成的歷史文件資訊破解和推理操作,這些手稿的字說實話沒經過學習和訓練根本不認識。 在涉及他從未見過的複雜手寫字體表格的識別時候,Gemini 3 的表現已經優於受過訓練的學生。 LLM 的「預測式」本質讓它在非常規拼字、姓名、地名、日期、金額等低機率元素上易錯,而且歷史文件裡面標點、大小寫、長s(ſ)、度量單位等也高度含混。 作者測試了50 份、約1 萬字的英文學術手寫樣本,涵蓋多種書寫體與成像條件,用於評估CER/WER。 至Gemini‑2.5‑Pro,在嚴格計分下約CER 4%、WER 11%;若排除標點與大小寫錯誤,降至CER 2%、WER 4%,已逼近專業人工。 排除一些含混項後,新模型(Gemini 3)降至CER 0.56%、WER 1.22%,接近或達到「專家人類水準」。與Gemini‑2.5‑Pro 相比提升50–70%。 作者說它似乎跨越了某些專家長期以來認為當前模型無法逾越的界限。 面對一個模糊的數字,它推斷出缺失的語境,進行了在歷史貨幣和重量體系之間的一系列多步換算,並得出了需要對文檔所描述世界進行抽象推理的正確結論。換句話說,它的表現好像能夠使用符號,儘管這些符號從未被明確定義。 看起來發生的是一種新出現的、隱含的推理形式——在一個統計模型內部感知、記憶和邏輯的自發性結合。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。



