私が大いに期待している研究ラインの 3 番目の要素 (+ 機械精神イメージ + 知覚トークン): マルチモーダル CoT (つぶやくような VLM の代わりに)。 BAGEL(Qwen 2.5-VL-7B ベース)をベースにしているので、非常にしっかりとした作りになっています。そして、非常に手作り感があります。 しかし!彼らは創発的な操作を手に入れます!
これはとてもクールだ @leothecurious これは、VLMのビジョンが時期尚早であり、この不完全なパラダイムでも簡単に達成できる成果がたくさんあるというあなたの非難をほぼ正当化すると思います。



