統一多模態模型既能產生文本,也能產生圖像,但它們真的具備跨模態的推理(reasoning) 能力嗎? 這篇論文推出的是專門評估統一模型中「互動式跨模態推理」 (reciprocal cross-modal reasoning) 能力的基準。 簡單來說就是「文字思考」評測模型推理時是否可以用文字推理產生圖像,或是「視覺思考」:用圖像推理生成文字。 從測驗結果看模型相對都擅長“文字思考”,“視覺思考”比較弱。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。