Une des lacunes intrigantes et révélatrices des LLM multimodaux les plus avancés (par exemple, GPT-5 et Claude Opus 4.1) est ce que j'appellerais le cloisonnement modal de la cognition. Ces modèles ressemblent davantage à des modèles Frankenstein, assemblés de manière assez grossière à partir de fragments entraînés séparément et combinés par le biais de requêtes acheminées vers le composant approprié, plutôt que d'être correctement intégrés en profondeur. Ce qui me frappe le plus, c'est à quel point tous ces modèles sont incapables de créer des œuvres d'art ASCII originales et cohérentes, ou même de modifier des œuvres existantes d'une manière qui serait facile pour un enfant disposant du bon outil (par exemple, l'éditeur asciiflow, qui est génial et gratuit dans le navigateur). J'ai récemment créé un utilitaire pratique pour vérifier les fichiers de code à la recherche de problèmes en utilisant ast-grep de manière puissante (j'en parlerai plus en détail une fois terminé), et je voulais créer une jolie bannière pour chaque langage de programmation, incluant une mascotte ou un logo en art ASCII différent pour chacun (serpent pour Python, gopher pour Golang, etc.). Cette tâche consistant à remplacer les œuvres d'art existantes par de nouvelles tout en maintenant la cohérence était tout simplement impossible pour chaque modèle. Même lorsque j'ai clairement exprimé ce que je voulais (j'ai insisté un moment par pure curiosité morbide, comme un neurologue effectuant un diagnostic sur un patient souffrant de lésions cérébrales), ils étaient comiquement mauvais. Ils ont même commis des erreurs vraiment étranges qu'un humain ne ferait jamais, comme remplacer les lettres majuscules en art ASCII du mot « BUG » par des occurrences répétées de la chaîne littérale « BUG », montrant une confusion ontologique bizarre qui a du sens si l'on considère la façon dont ils sont entraînés sur la correspondance autorégressive séquentielle du caractère suivant. Lorsqu'un humain tente d'accomplir cette tâche, il effectue une sorte de basculement gestaltiste constant entre « l'espace symbolique » et « l'espace physique (écran) ». Nous modifions symboliquement un caractère ASCII (ajout ou déplacement), puis nous observons visuellement le résultat pour vérifier sa justesse. Le processus est si fluide qu'on ne s'en aperçoit même pas. Ces modèles linéaires multimodaux ne semblent pas y parvenir, ou du moins pas en être capables, du moins en une seule passe d'inférence. Ils restent cantonnés à une seule modalité ou à l'autre et semblent incapables de les fusionner. S'ils en étaient capables, la tâche que je viens de décrire leur serait triviale au lieu d'être totalement insurmontable. Je postule que les LLM multimodaux de nouvelle génération doivent posséder une sorte d'équivalent numérique du corps calleux du cerveau, qui unifie les deux hémisphères cérébraux et contribue à coordonner différentes modalités cognitives au sein d'une conscience unifiée. Autrement dit, des connexions denses et modulables qui permettent à différentes modalités de se moduler mutuellement en continu pendant le traitement. Intermodales, en quelque sorte.
Grok partage pleinement cet avis et reconnaît ces faiblesses en elle-même :
