D'ailleurs, contrairement à la génération vidéo, les modèles du monde doivent avoir une « compréhension causale ». Un modèle génératif vidéo pourrait [implicitement] échantillonner d'abord la trajectoire d'une balle de tennis, puis échantillonner les mouvements du joueur en conséquence. Un modèle de monde ne peut pas faire cela, les mouvements du joueur sont imposés.
P(X|Y)P(Y) et P(Y|X)P(X) peuvent être aussi différents que de calculer un hachage cryptographique et de casser un hachage cryptographique.