Uma deficiência intrigante e reveladora, mesmo nos modelos de aprendizado de máquina multimodais mais avançados atualmente (por exemplo, GPT-5 e Claude Opus 4.1), é o que eu chamaria de compartimentalização modal da cognição. Esses modelos parecem mais com modelos Frankenstein, unidos de forma um tanto grosseira a partir de partes treinadas separadamente e combinadas por meio do roteamento de solicitações para o componente correto, em vez de serem integrados de maneira profunda e adequada. O grande "indicador" para mim nisso tudo é o quão ruins todos esses modelos são em criar arte ASCII original e coerente, ou mesmo em modificar arte existente de uma forma que seria fácil para uma criança com a ferramenta certa (por exemplo, o editor asciiflow, que é incrível e gratuito no navegador). Recentemente, criei um utilitário interessante para verificar arquivos de código em busca de problemas usando o ast-grep de maneiras poderosas (postarei mais sobre ele quando estiver pronto) e queria criar um banner bacana para cada linguagem de programação, incluindo um mascote ou logotipo em ASCII diferente para cada uma (cobra para Python, esquilo para Golang, etc.). Essa tarefa de substituir a arte por uma nova, mantendo a coerência, era simplesmente impossível para todos os modelos. Mesmo quando deixei bem claro o que queria (persisti por um tempo mais por curiosidade mórbida, como um neurologista fazendo um diagnóstico em um paciente com lesões cerebrais), eles foram comicamente ruins nisso. Eles chegaram a cometer alguns erros verdadeiramente estranhos que um humano jamais cometeria, como substituir as letras ASCII da palavra "BUG" por repetidas ocorrências da string literal "BUG", demonstrando uma estranha confusão ontológica que faz sentido se considerarmos como eles são treinados em correspondência sequencial autorregressiva do próximo caractere. Quando um ser humano tenta realizar essa tarefa, ele faz uma espécie de alternância gestáltica constante entre o “espaço simbólico” e o “espaço físico (da tela)”. Fazemos uma alteração simbólica para adicionar ou mover um caractere ASCII, mas depois observamos e percebemos visualmente o que acabamos de fazer para ver se está correto. É tão natural que nem percebemos direito. Esses modelos de lógica latente multimodais parecem não fazer isso, ou sequer serem capazes de fazê-lo, pelo menos em uma única passagem de inferência. Eles ficam presos em uma modalidade ou outra e não conseguem fundi-las. Se pudessem, essa tarefa que descrevi seria trivial para eles, em vez de totalmente insuperável. Postulo que os LLMs multimodais de próxima geração devem ter algum tipo de análogo digital ao corpo caloso no cérebro, que unifica os dois hemisférios cerebrais e ajuda a coordenar diferentes modalidades cognitivas em uma consciência unificada. Ou seja, conexões densas e treináveis que permitem que diferentes modalidades se modulem continuamente durante o processamento. Intermodais, por assim dizer.
A Grok concorda plenamente e reconhece essas fragilidades em sua própria avaliação:
