我們居然用把所有東西都塞進一個Transformer裡就解決了影片生成的問題,這簡直太荒謬了。所有那些適用於文字的優秀電感偏壓在影片裡根本行不通:你是在跨越時間和空間對像素區塊進行注意力控制嗎?然而它卻效果出奇的好。