이미지와 비디오를 기반으로 한 다중 모드 사고와 추론의 최신 발전에 관심이 있는 분이라면 @KevinQHLin의 논문 모음을 꼭 읽어보세요! 1. 이미지로 생각하기 이 섹션에서는 모델의 시각적 이해와 의사 결정 능력을 개선하기 위해 이미지를 AI 추론에 통합하는 방법을 살펴보는 4편의 논문을 소개합니다. [1] DeepEyes: 강화 학습을 통한 "이미지로 생각하기"에 대한 인센티브 제공 Xiaohongshu 팀의 논문에서는 강화 학습을 사용하여 모델이 생각하는 동안 이미지를 사용하도록 장려하고, 영역 국소화 및 확대 기능을 지원하여 모델이 시각적 세부 사항을 더 정확하게 처리할 수 있도록 돕습니다. [2] GRIT: MLLM에게 이미지로 생각하는 법 가르치기 저자로는 YFan_UCSC와 xwang_lk가 있습니다. 이 방법은 외부 처리 없이 다중 모드 대규모 언어 모델(MLLM)에서 영역 기반 체이닝을 구현하여 토큰을 통해 이미지 영역을 직접 표현함으로써 효율성을 향상시킵니다. [3] ThinkMorph: 다중 모드 교차 사고 연쇄 추론의 새로운 속성 저자로는 Kuvvius, LINJIEFUN, michaelqshieh, RanjayKrishna가 있습니다. 이 논문은 텍스트와 이미지를 동시에 생성하는 통합적이고 서로 얽힌 사슬 형태의 사고 프레임워크를 제안하며, 이를 통해 다중 모드 추론의 새로운 속성을 밝혀냅니다. [4] V-Thinker: 이미지를 활용한 상호작용적 사고 WeChat 팀에서 개발한 이 방법은 코드 기반의 시각적 도구를 통해 대화형 추론을 가능하게 하며, 모델이 이미지 처리를 동적으로 조정하여 더욱 유연한 사고 과정을 지원할 수 있도록 합니다. 2. 비디오로 생각하기 이 섹션에서는 추론에서 역동적인 시각적 양식으로서 비디오의 잠재력을 강조하는 세 편의 논문을 나열합니다. [5] 비디오 모델은 제로샷 학습기이자 추론기입니다. Google DeepMind Veo3 기반 모델을 기반으로, 제로샷 프레임 체인 추론을 지원하므로 추가 학습 없이 비디오 시퀀스에서 논리적 추론을 처리할 수 있습니다. [6] 미니베오3-리저너 THUML의 오픈소스 비디오 생성 모델로, 체인 사고방식을 위해 설계되었으며, 보다 접근하기 쉬운 구현을 제공합니다. [7] 비디오로 생각하기: 유망한 다중 모드 추론 패러다임으로서의 비디오 생성 저자는 xpqiu 팀 소속입니다. 본 논문에서는 VideoThinkBench 벤치마크를 소개하고 다중 모드 추론의 새로운 패러다임으로서 비디오 생성을 탐구합니다. 원본 논문은 Kevin의 원본 게시물에서 찾을 수 있습니다. 🔽
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
