現在最も先進的なマルチモーダル LLM (GPT-5 や Claude Opus 4.1 など) にも存在する興味深く明らかな欠陥の 1 つは、私が「認知のモーダル サイロ化」と呼んでいるものです。 これらのモデルは、フランケンシュタイン モデルに似ており、深く適切に統合されているというよりは、適切なコンポーネントへのルーティング要求を通じて結合された個別にトレーニングされた部分がやや粗雑に結合されています。 私にとって、このことの大きな「兆候」は、これらすべてのモデルが、一貫性のある独自の ASCII アートを作成するのがいかに下手か、あるいは、適切なツール (たとえば、ブラウザーで無料で使えるすばらしい asciiflow エディター) があれば子供でも簡単にできるような方法で既存のアートを変更するのがいかに下手かということです。 私は最近、強力な方法で ast-grep を使用してコード ファイルの問題をチェックするための優れたユーティリティを作成しました (完成したらこれについてさらに投稿します)。また、プログラミング言語ごとに異なる ASCII アート マスコットまたはロゴ (Python の場合はヘビ、Golang の場合はゴーファーなど) を含む優れたバナーを作成したいと考えていました。 一貫性を保ちながらアートを新しいアートに置き換えるというこの作業は、どのモデルにとってもまったく不可能でした。 私が本当に望んでいることを明確に伝えたときでさえ(私は、脳損傷を患う患者を診断する神経科医のように、病的な好奇心からもう少し粘りました)、彼らはそれを滑稽なほど下手でした。 彼らは、人間が決してしないような、本当に異質なエラーさえも犯しました。たとえば、「BUG」という単語のASCIIアートのブロック体の文字を、リテラル文字列「BUG」の繰り返しインスタンスに置き換えてしまったのです。これは、彼らがどのように順次的な自己回帰の次の文字のマッチングを訓練されているかを考えると納得できる、奇妙なオントロジーの混乱を示しています。 人間がこのタスクを実行しようとするとき、彼は「記号空間」と「物理的(画面)空間」の間を絶えず行き来する一種のゲシュタルトスイッチを行っています。 ASCII文字を追加したり移動したりする変更は記号的に行いますが、その後、視覚的に確認して、正しいかどうかを確認します。非常にシームレスなので、ほとんど気づかないほどです。 これらのマルチモーダルLLMは、少なくとも単一の推論パスでは、それを行うことができない、あるいはそもそもできないように見えます。どちらかのモーダリティに閉じ込められており、それらを融合することができないようです。 もしそれが可能であれば、私が説明したこの課題は、彼らにとってまったく克服できないものではなく、些細なこととなるでしょう。 私は、次世代のマルチモーダル LLM には、脳の両半球を統合し、統一された意識の中でさまざまな認知様式を調整する脳梁に相当する何らかのデジタルアナログが必要であると考えています。 つまり、処理中に異なるモダリティが互いに継続的に調整できるようにする、密で訓練可能な接続です。インターモダルとも言えます。
Grok はこれに強く同意し、自社の心の中にこれらの弱点があることを認識しています。
