即使是目前最先進的多模態語言學習模型(例如 GPT-5 和 Claude Opus 4.1)也存在一個有趣且啟發性的缺陷,那就是我稱之為認知模態隔離的問題。 這些模型看起來更像是弗蘭肯斯坦模型,它們是由單獨訓練的部分粗略地組合在一起的,透過將請求路由到正確的組件來組合,而不是以深度方式進行適當的整合。 對我來說,最大的「破綻」在於所有這些模型在創作連貫的原創 ASCII 藝術方面有多麼糟糕,甚至連修改現有藝術作品都做不到,而這對於一個孩子來說,只要擁有合適的工具(例如 asciiflow 編輯器,它在瀏覽器中非常棒而且免費)就能輕鬆做到。 我最近創建了一個很棒的實用程序,它使用 ast-grep 以強大的方式檢查代碼文件的問題(完成後我會發布更多相關信息),我想為每種編程語言製作一個漂亮的橫幅,其中包含每種語言不同的 ASCII 藝術吉祥物或徽標(Python 的蛇,Golang 的 gopher 等)。 對於任何模型來說,在保持整體連貫性的同時用新藝術作品替換舊藝術作品都是完全不可能的任務。 即使我非常明確地表達了我的要求(出於病態的好奇心,我又堅持了一段時間,就像神經科醫生對患有腦損傷的病人進行診斷一樣),他們也做得非常糟糕,令人啼笑皆非。 它們甚至犯了一些人類永遠不會犯的真正離奇的錯誤,例如將單詞“BUG”的 ASCII 藝術塊字母替換為重複的字符串“BUG”,這表明它們存在一種奇怪的本體論混淆,但如果你考慮到它們是如何通過序列自回歸下一個字符匹配進行訓練的,這就說得通了。 當一個人嘗試完成這項任務時,他會在「符號空間」和「實體(螢幕)空間」之間不斷地進行格式塔切換。 我們透過符號操作來新增或移動一個 ASCII 字符,然後觀察並感知我們剛剛所做的更改是否正確。這個過程如此流暢,以至於我們幾乎察覺不到。 這些多模態LLM似乎無法做到這一點,或者說至少在單次推理過程中無法做到。它們要么局限於一種模態,要么局限於另一種模態,似乎無法將它們融合起來。 如果他們能夠做到,我所描述的這項任務對他們來說將易如反掌,而不是完全無法克服。 我認為,下一代多模態LLM必須具有某種類似大腦胼胝體的數位模擬結構,胼胝體將大腦的兩個半球統一起來,並有助於在統一的意識中協調不同的認知模式。 也就是說,密集且可訓練的連結使得不同的模態能夠在處理過程中持續地相互調節。也可以稱為跨模態連結。
Grok對此深表贊同,並意識到自身也存在這些弱點:
