제가 기대하는 연구 분야의 세 번째 부분은 (+ 기계 정신 이미지 + 인식 토큰): 다중 모드 CoT(중얼거리는 VLM 대신). BAGEL(Qwen 2.5-VL-7B 기반)을 기반으로 했기 때문에 꽤 경계가 뚜렷하고, 수작업으로 제작한 느낌이 강합니다. 하지만! 그들은 갑자기 조작당해요!
이거 정말 멋지네요 @leothecurious 저는 이것이 VLM 비전이 시기상조이며 이 불구가 된 패러다임에서도 쉽게 얻을 수 있는 많은 것들이 있다는 당신의 비난에 대한 나의 정당성을 크게 입증한다고 생각합니다.



