Aliás, ao contrário da geração de vídeo, os modelos mundiais devem ter uma "compreensão causal". Um modelo generativo de vídeo poderia [implicitamente] amostrar primeiro a trajetória de uma bola de tênis e, em seguida, amostrar os movimentos do jogador de acordo. Um modelo do mundo não consegue fazer isso, os movimentos do jogador são impostos.
P(X|Y)P(Y) e P(Y|X)P(X) podem ser tão diferentes quanto calcular um hash criptográfico e quebrar um hash criptográfico.