第三部分是我非常期待的研究方向(+機器心理意象+知覺標記):多模態CoT(而不是喃喃自語的VLM)。 它是基於 BAGEL(而 BAGEL 又基於 Qwen 2.5-VL-7B),所以結構相當封閉。而且是純手工打造的。 但是!它們會進行突發性操控!
這太酷了 @leothecurious 我認為這在很大程度上證實了我之前對VLM願景的譴責,即它為時過早,而且即使在這種殘缺的範式下也有很多唾手可得的成果。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月5日 晚上7:46
第三部分是我非常期待的研究方向(+機器心理意象+知覺標記):多模態CoT(而不是喃喃自語的VLM)。 它是基於 BAGEL(而 BAGEL 又基於 Qwen 2.5-VL-7B),所以結構相當封閉。而且是純手工打造的。 但是!它們會進行突發性操控!
這太酷了 @leothecurious 我認為這在很大程度上證實了我之前對VLM願景的譴責,即它為時過早,而且即使在這種殘缺的範式下也有很多唾手可得的成果。