即使是目前最先进的多模态语言学习模型(例如 GPT-5 和 Claude Opus 4.1)也存在一个有趣且具有启发性的缺陷,那就是我称之为认知模态隔离的问题。 这些模型看起来更像是弗兰肯斯坦模型,它们是由单独训练的部分粗略地组合在一起的,通过将请求路由到正确的组件来组合,而不是以深度方式进行适当的集成。 对我来说,最大的“破绽”在于所有这些模型在创作连贯的原创 ASCII 艺术方面有多么糟糕,甚至连修改现有艺术作品都做不到,而这对于一个孩子来说,只要拥有合适的工具(例如 asciiflow 编辑器,它在浏览器中非常棒而且免费)就能轻松做到。 我最近创建了一个很棒的实用程序,它使用 ast-grep 以强大的方式检查代码文件的问题(完成后我会发布更多相关信息),我想为每种编程语言制作一个漂亮的横幅,其中包含每种语言不同的 ASCII 艺术吉祥物或徽标(Python 的蛇,Golang 的 gopher 等)。 对于任何模型来说,在保持整体连贯性的同时用新艺术作品替换旧艺术作品都是完全不可能完成的任务。 即使我非常明确地表达了我的要求(出于病态的好奇心,我又坚持了一段时间,就像神经科医生对患有脑损伤的病人进行诊断一样),他们也做得非常糟糕,令人啼笑皆非。 它们甚至犯了一些人类永远不会犯的真正离奇的错误,例如将单词“BUG”的 ASCII 艺术块字母替换为重复的字符串“BUG”,这表明它们存在一种奇怪的本体论混淆,但如果你考虑到它们是如何通过序列自回归下一个字符匹配进行训练的,这就说得通了。 当一个人尝试完成这项任务时,他会在“符号空间”和“物理(屏幕)空间”之间不断地进行格式塔切换。 我们通过符号操作来添加或移动一个 ASCII 字符,然后观察并感知我们刚刚所做的更改是否正确。这个过程如此流畅,以至于我们几乎察觉不到。 这些多模态LLM似乎无法做到这一点,或者说至少在单次推理过程中无法做到。它们要么局限于一种模态,要么局限于另一种模态,似乎无法将它们融合起来。 如果他们能够做到,我所描述的这项任务对他们来说将易如反掌,而不是完全无法克服。 我认为,下一代多模态LLM必须具有某种类似于大脑胼胝体的数字模拟结构,胼胝体将大脑的两个半球统一起来,并有助于在统一的意识中协调不同的认知模式。 也就是说,密集且可训练的连接使得不同的模态能够在处理过程中持续地相互调节。也可以称之为跨模态连接。
Grok对此深表赞同,并意识到自身也存在这些弱点:
