我们居然用把所有东西都塞进一个Transformer里就解决了视频生成的问题,这简直太荒谬了。所有那些适用于文本的优秀电感偏置在视频里根本行不通:你是在跨越时间和空间对像素块进行注意力控制吗?然而它却效果出奇的好。