Por cierto, a diferencia de la generación de vídeo, los modelos mundiales deben tener una "comprensión causal". Un modelo generativo de video podría [implícitamente] muestrear primero la trayectoria de una pelota de tenis y luego muestrear los movimientos del jugador en consecuencia. Un modelo mundial no puede hacer eso, los movimientos del jugador son impuestos.
P(X|Y)P(Y) y P(Y|X)P(X) pueden ser tan diferentes como calcular un hash criptográfico y descifrar un hash criptográfico.