第三部分是我非常期待的研究方向(+机器心理意象+感知标记):多模态CoT(而不是喃喃自语的VLM)。 它基于 BAGEL(而 BAGEL 又基于 Qwen 2.5-VL-7B),所以结构相当封闭。而且是纯手工打造的。 但是!它们会进行突发性操控!
这太酷了 @leothecurious 我认为这在很大程度上证实了我之前对VLM愿景的谴责,即它为时尚早,而且即使在这种残缺的范式下也有很多唾手可得的成果。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月5日 19:46
第三部分是我非常期待的研究方向(+机器心理意象+感知标记):多模态CoT(而不是喃喃自语的VLM)。 它基于 BAGEL(而 BAGEL 又基于 Qwen 2.5-VL-7B),所以结构相当封闭。而且是纯手工打造的。 但是!它们会进行突发性操控!
这太酷了 @leothecurious 我认为这在很大程度上证实了我之前对VLM愿景的谴责,即它为时尚早,而且即使在这种残缺的范式下也有很多唾手可得的成果。