통합된 멀티모달 모델은 텍스트와 이미지를 모두 생성할 수 있지만, 실제로 크로스모달 추론 기능을 갖추고 있을까요? 본 논문에서는 통합 모델이 "상호 교차 모달 추론"을 수행하는 능력을 평가하기 위해 특별히 설계된 벤치마크를 제시합니다. 간단히 말해서, "텍스트적 사고"에 대한 평가 모델은 텍스트 추론을 사용하여 이미지를 생성할 수 있고, "시각적 사고"는 이미지 추론을 사용하여 텍스트를 생성할 수 있습니다. 테스트 결과에 따르면, 이 모델은 "텍스트적 사고"에는 비교적 뛰어나지만 "시각적 사고"에는 비교적 약한 것으로 나타났습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.