顺便说一句,与视频生成不同,世界模型必须具有“因果理解”。 视频生成模型可以先(隐式地)采样网球轨迹,然后相应地采样球员动作。 世界模型无法做到这一点,玩家的动作是被强加的。P(X|Y)P(Y) 和 P(Y|X)P(X) 之间的差异可能就像计算加密哈希和破解加密哈希一样大。