X (Twitter)

統一多模態模型既能產生文本，也能產生圖像，但它們真的具備跨模態的推理(reasoning) 能力嗎？這篇論文推出的是專門評估統一模型中「互動式跨模態推理」 (reciprocal cross-modal reasoning) 能力的基準。簡單來說就是「文字思考」評測模型推理時是否可以用文字推理產生圖像，或是「視覺思考」：用圖像推理生成文字。從測驗結果看模型相對都擅長“文字思考”，“視覺思考”比較弱。

來自宝玉（@dotey）的推文串

作者資訊

推文串內容