近日,谷歌與李飛飛的斯坦福團隊攜手推出了基于Transformer的視頻生成模型W.A.L.T。該模型利用因果編碼器和窗口注意的變壓器架構(gòu),成功將圖像和視頻壓縮到一個共享的潛在空間,實現(xiàn)了聯(lián)合訓(xùn)練和生成。這一創(chuàng)新性的模型不僅在已建立的視頻和圖像生成基準(zhǔn)測試上取得了SOTA,還展示了在文本到視頻生成任務(wù)中的卓越性能。

這種方法有兩個關(guān)鍵的設(shè)計決策。首先,它使用因果編碼器共同壓縮圖像和視頻,使其在統(tǒng)一的潛在空間內(nèi)進(jìn)行訓(xùn)練和生成,支持跨模態(tài)操作。其次,為了內(nèi)存和訓(xùn)練效率,它使用了專為聯(lián)合空間和時空生成建模量身定制的窗口注意力架構(gòu)。這些設(shè)計決策的結(jié)合使得W.A.L.T在已建立的視頻(如UCF-101和Kinetics-600)和圖像(如ImageNet)生成基準(zhǔn)測試中達(dá)到了最先進(jìn)的性能,而且不需要使用無分類器的引導(dǎo)。
W.A.L.T官方演示視頻:
W.A.L.T項目地址:https://walt-video-diffusion.github.io/