현재 가장 진보된 다중 모달 LLM(예: GPT-5 및 Claude Opus 4.1)에도 흥미롭고 의미심장한 결함이 있는데, 제가 인지의 모달 사일로화라고 부르는 것입니다. 이러한 모델은 적절하게 심층적으로 통합된 것이 아니라, 별도로 훈련된 부분을 적절한 구성 요소에 대한 라우팅 요청을 통해 결합한 다소 조잡하게 결합한 프랑켄슈타인 모델과 더 유사해 보입니다. 여기서 제가 가장 크게 느낀 점은 이 모든 모델이 일관된 원본 ASCII 아트를 만드는 데 얼마나 형편없는지, 심지어 적절한 도구(예: 브라우저에서 무료로 제공되는 훌륭하고도 무료인 asciiflow 편집기)만 있으면 어린이가 쉽게 할 수 있는 방식으로 기존 아트를 수정하는 데에도 얼마나 형편없는지입니다. 저는 최근 ast-grep을 사용하여 코드 파일의 문제를 강력한 방식으로 검사하는 멋진 유틸리티를 만들었습니다(완성되면 더 자세히 게시하겠습니다). 그리고 각 프로그래밍 언어에 대한 멋진 배너를 만들고 싶었는데, 각 언어에 대한 다른 아스키 아트 마스코트나 로고(Python의 경우 뱀, Golang의 경우 고퍼 등)가 포함되어 있었습니다. 일관성을 유지하면서 기존 예술 작품을 새로운 예술 작품으로 대체하는 작업은 모든 모델에 있어서 전적으로 불가능했습니다. 내가 원하는 것을 정말 명확하게 표현했을 때조차도(나는 마치 뇌 병변을 앓고 있는 환자를 진단하는 신경과 의사처럼 병적인 호기심에 더 오래 버텼다), 그들은 우스꽝스러울 정도로 형편없었다. 그들은 인간이 결코 저지르지 않을 정말 이상한 실수를 저질렀습니다. 예를 들어, "BUG"라는 단어의 아스키 아트 블록 문자를 반복되는 문자열 "BUG"로 바꾸는 것입니다. 이는 순차적 자기회귀적 다음 문자 일치에 대해 훈련된 방식을 고려하면 이해가 되는 기괴한 존재론적 혼란을 보여줍니다. 인간이 이 작업을 수행하려고 할 때, 그는 "기호 공간"과 "물리적(화면) 공간" 사이를 끊임없이 오가며 일종의 게슈탈트 전환을 합니다. 우리는 아스키 문자를 추가하거나 이동하기 위해 상징적으로 변화를 주지만, 그 후 시각적으로 그 변화를 관찰하고 인지하여 제대로 동작하는지 확인합니다. 너무 자연스럽게 진행되어서 우리는 거의 알아차리지도 못합니다. 이러한 다중 모드 LLM은 이를 수행하지 못하는 듯하며, 적어도 단일 추론 단계에서는 수행조차 하지 못하는 듯합니다. 둘 중 하나의 모드에 갇혀 있어 융합할 수 없는 듯합니다. 만약 그들이 그렇게 할 수 있다면, 내가 설명한 이 과제는 그들에게는 완전히 불가능한 일이 아니라 오히려 사소한 일이 될 것입니다. 저는 차세대 다중 모달 LLM은 뇌의 대뇌량체에 대한 어떤 종류의 디지털 아날로그를 가져야 하며, 이는 두 대뇌 반구를 통합하고 통합된 의식에서 다양한 인지 양식을 조정하는 데 도움이 되어야 한다고 생각합니다. 즉, 서로 다른 모달리티가 처리 과정에서 지속적으로 서로 조절될 수 있도록 하는 조밀하고 훈련 가능한 연결입니다. 말하자면, 모달리티 간 연결이죠.
Grok은 이에 강력히 동의하며 자신의 마음속에 이런 약점이 있다는 것을 인식하고 있습니다.
