Una deficiencia intrigante y reveladora incluso de los modelos de aprendizaje multimodal más avanzados actuales (por ejemplo, GPT-5 y Claude Opus 4.1) es lo que yo llamaría el aislamiento modal de la cognición. Estos modelos parecen más bien modelos Frankenstein, unidos de forma algo tosca a partir de piezas entrenadas por separado que se combinan mediante solicitudes de enrutamiento al componente correcto, en lugar de estar integrados adecuadamente de forma profunda. Lo que más me llama la atención de esto es lo pésimos que son todos estos modelos para crear arte ASCII original y coherente, o incluso para modificar arte existente de una manera que sería fácil para un niño con la herramienta adecuada (por ejemplo, el editor asciiflow, que es genial y gratuito en el navegador). Recientemente creé una útil herramienta para comprobar si hay problemas en los archivos de código usando ast-grep de forma muy potente (publicaré más información al respecto cuando esté terminada), y quería crear un bonito banner para cada lenguaje de programación que incluyera una mascota o logotipo de arte ASCII diferente para cada uno (una serpiente para Python, una ardilla para Golang, etc.). Esta tarea de sustituir el arte antiguo por uno nuevo manteniendo la coherencia era simplemente imposible para todos los modelos. Incluso cuando dejé bien claro lo que quería (persistí un tiempo más por pura curiosidad morbosa, como un neurólogo que realiza un diagnóstico a un paciente con lesiones cerebrales), lo hicieron de forma ridículamente mala. Incluso cometieron algunos errores verdaderamente alienígenas que un humano jamás cometería, como reemplazar las letras de bloque de arte ASCII de la palabra “BUG” con instancias repetidas de la cadena literal “BUG”, lo que demuestra una extraña confusión ontológica que tiene sentido si se considera cómo se les entrena en la coincidencia secuencial autorregresiva del siguiente carácter. Cuando un ser humano intenta realizar esta tarea, realiza una especie de cambio gestáltico constante entre el “espacio simbólico” y el “espacio físico (de la pantalla)”. Realizamos un cambio simbólico para añadir o mover un carácter ASCII, pero luego observamos y percibimos visualmente lo que acabamos de hacer para comprobar si es correcto. Es tan imperceptible que apenas lo notamos. Estos modelos lineales multimodales no parecen lograrlo, ni siquiera ser capaces de hacerlo, al menos en una sola pasada de inferencia. Se quedan atrapados en una modalidad u otra y no parecen poder fusionarlas. Si pudieran, esta tarea que he descrito les resultaría trivial en lugar de totalmente insuperable. Sostengo que los LLM multimodales de próxima generación deben tener algún tipo de análogo digital del cuerpo calloso en el cerebro, que unifica los dos hemisferios cerebrales y ayuda a coordinar diferentes modalidades cognitivas en una conciencia unificada. Es decir, conexiones densas y entrenables que permiten que diferentes modalidades se modulen continuamente entre sí durante el procesamiento. Intermodales, si se quiere.
Grok está totalmente de acuerdo y reconoce estas debilidades en su propia opinión:
