近日,谷歌與李飛飛的斯坦福團(tuán)隊(duì)攜手推出了基于Transformer的視頻生成模型W.A.L.T。該模型利用因果編碼器和窗口注意的變壓器架構(gòu),成功將圖像和視頻壓縮到一個(gè)共享的潛在空間,實(shí)現(xiàn)了聯(lián)合訓(xùn)練和生成。這一創(chuàng)新性的模型不僅在已建立的視頻和圖像生成基準(zhǔn)測(cè)試上取得了SOTA,還展示了在文本到視頻生成任務(wù)中的卓越性能。

這種方法有兩個(gè)關(guān)鍵的設(shè)計(jì)決策。首先,它使用因果編碼器共同壓縮圖像和視頻,使其在統(tǒng)一的潛在空間內(nèi)進(jìn)行訓(xùn)練和生成,支持跨模態(tài)操作。其次,為了內(nèi)存和訓(xùn)練效率,它使用了專為聯(lián)合空間和時(shí)空生成建模量身定制的窗口注意力架構(gòu)。這些設(shè)計(jì)決策的結(jié)合使得W.A.L.T在已建立的視頻(如UCF-101和Kinetics-600)和圖像(如ImageNet)生成基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)的性能,而且不需要使用無分類器的引導(dǎo)。
W.A.L.T官方演示視頻:
W.A.L.T項(xiàng)目地址:https://walt-video-diffusion.github.io/