X (Twitter)

Troisième élément de la ligne de recherche dont j'attends beaucoup (+ Imagerie mentale machine + Jetons de perception) : CoTs multimodaux (au lieu de VLM marmonnants). Basé sur BAGEL (lui-même basé sur Qwen 2.5-VL-7B), donc assez limité. Et entièrement réalisé à la main. Mais ! Ils obtiennent des manipulations émergentes !

C'est vraiment génial @leothecurious Je pense que cela me donne largement raison concernant votre condamnation de la vision VLM, jugée prématurée, et le fait qu'il existe de nombreuses opportunités faciles à saisir, même dans ce paradigme défaillant.

Fil de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Informations sur l'auteur

Contenu du fil