W.A.L.T：通過擴(kuò)散模型生成逼真視頻的AI模型

AIHubAI布道師

近日，谷歌與李飛飛的斯坦福團(tuán)隊(duì)攜手推出了基于Transformer的視頻生成模型W.A.L.T。該模型利用因果編碼器和窗口注意的變壓器架構(gòu)，成功將圖像和視頻壓縮到一個(gè)共享的潛在空間，實(shí)現(xiàn)了聯(lián)合訓(xùn)練和生成。這一創(chuàng)新性的模型不僅在已建立的視頻和圖像生成基準(zhǔn)測(cè)試上取得了SOTA，還展示了在文本到視頻生成任務(wù)中的卓越性能。

這種方法有兩個(gè)關(guān)鍵的設(shè)計(jì)決策。首先，它使用因果編碼器共同壓縮圖像和視頻，使其在統(tǒng)一的潛在空間內(nèi)進(jìn)行訓(xùn)練和生成，支持跨模態(tài)操作。其次，為了內(nèi)存和訓(xùn)練效率，它使用了專為聯(lián)合空間和時(shí)空生成建模量身定制的窗口注意力架構(gòu)。這些設(shè)計(jì)決策的結(jié)合使得W.A.L.T在已建立的視頻（如UCF-101和Kinetics-600）和圖像（如ImageNet）生成基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)的性能，而且不需要使用無分類器的引導(dǎo)。

W.A.L.T官方演示視頻：

W.A.L.T項(xiàng)目地址：https://walt-video-diffusion.github.io/

?版權(quán)聲明：如無特殊說明，本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個(gè)人或組織，在未征得本站同意時(shí)，禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺(tái)。否則，我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。