欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区

訊飛智文
當(dāng)前位置:首頁(yè)>AI工具>AI訓(xùn)練模型>Emu3:智源推出的原生多模態(tài)世界模型,可實(shí)現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成

Emu3:智源推出的原生多模態(tài)世界模型,可實(shí)現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成

Emu3是什么?

Emu3是由北京智源研究院推出的原生多模態(tài)世界模型,旨在簡(jiǎn)化和提升多模態(tài)任務(wù)的處理能力。多模態(tài)任務(wù)指的是同時(shí)處理不同類型的數(shù)據(jù)(如圖像、視頻、文本等)。與依賴擴(kuò)散模型(如 Stable Diffusion)或組合架構(gòu)(如 CLIP 與大型語(yǔ)言模型結(jié)合)的傳統(tǒng)方法不同,Emu3 采用了 next-token 預(yù)測(cè)技術(shù),將圖像、文本、視頻轉(zhuǎn)化為離散的 token,并使用單一的 Transformer 模型進(jìn)行訓(xùn)練。

Emu3只基于下一個(gè) token 預(yù)測(cè),無(wú)需擴(kuò)散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成,官方宣稱實(shí)現(xiàn)圖像、文本、視頻大一統(tǒng)。

Emu3:智源推出的原生多模態(tài)世界模型,可實(shí)現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成

Emu3的功能特性

  • 圖像生成:Emu3 通過預(yù)測(cè)視覺 token 來生成高質(zhì)量圖像,支持靈活的分辨率和風(fēng)格,不再需要擴(kuò)散模型,生成過程更為高效。
  • 視頻生成:與依賴噪聲生成視頻的擴(kuò)散模型不同,Emu3 通過預(yù)測(cè)視頻序列中的下一個(gè) token 來生成視頻,使整個(gè)過程更加簡(jiǎn)潔高效。
  • 視頻預(yù)測(cè):Emu3 能夠?qū)σ曨l進(jìn)行延續(xù)預(yù)測(cè),模擬現(xiàn)實(shí)世界中的環(huán)境、人物和動(dòng)物行為,展現(xiàn)強(qiáng)大的物理世界模擬能力。
  • 視覺-語(yǔ)言理解:Emu3 展現(xiàn)了強(qiáng)大的視覺和語(yǔ)言感知能力,可以對(duì)圖像進(jìn)行詳細(xì)描述,并提供連貫的文本回復(fù),而無(wú)需依賴 CLIP 和預(yù)訓(xùn)練的大型語(yǔ)言模型。
  • 多模態(tài)整合:Emu3 通過將文本、圖像和視頻轉(zhuǎn)化為離散 token,并統(tǒng)一使用 Transformer 進(jìn)行訓(xùn)練,實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)的整合。該模型能夠在多個(gè)領(lǐng)域(圖像、視頻、文本)表現(xiàn)出色,并且可以同時(shí)處理這些不同模態(tài)的數(shù)據(jù),適用于多模態(tài)任務(wù)。
  • 無(wú)擴(kuò)散、無(wú)組合架構(gòu):Emu3 的設(shè)計(jì)拋棄了傳統(tǒng)的擴(kuò)散模型和組合架構(gòu),專注于 token 預(yù)測(cè)。這種設(shè)計(jì)使得模型在訓(xùn)練和推理過程中能夠更高效地?cái)U(kuò)展。減少了對(duì)傳統(tǒng)復(fù)雜架構(gòu)的依賴,提高了模型的可擴(kuò)展性,適用于更多任務(wù)和更大規(guī)模的數(shù)據(jù)集。
Emu3:智源推出的原生多模態(tài)世界模型,可實(shí)現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成

Emu3的性能評(píng)測(cè)

在圖像生成任務(wù)中,基于人類偏好評(píng)測(cè),Emu3 優(yōu)于 SD-1.5 與 SDXL 模型。在視覺語(yǔ)言理解任務(wù)中,對(duì)于 12 項(xiàng)基準(zhǔn)測(cè)試的平均得分,Emu3 優(yōu)于 LlaVA-1.6。在視頻生成任務(wù)中,對(duì)于 VBench 基準(zhǔn)測(cè)試得分,Emu3 優(yōu)于 OpenSora 1.2。

Emu3:智源推出的原生多模態(tài)世界模型,可實(shí)現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成

如何使用Emu3?

目前 Emu3 已開源了關(guān)鍵技術(shù)和模型,鏈接如下:

?版權(quán)聲明:如無(wú)特殊說明,本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個(gè)人或組織,在未征得本站同意時(shí),禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺(tái)。否則,我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。 Trae
0 條回復(fù) A文章作者 M管理員
    暫無(wú)評(píng)論內(nèi)容
error:
主站蜘蛛池模板: 罗山县| 昌宁县| 临潭县| 尖扎县| 东阳市| 泰和县| 东丰县| 枣强县| 天水市| 西吉县| 丹棱县| 建始县| 宁德市| 牡丹江市| 图片| 陆川县| 正镶白旗| 嘉善县| 米脂县| 濮阳县| 额敏县| 胶南市| 呈贡县| 安平县| 原平市| 句容市| 越西县| 司法| 准格尔旗| 康定县| 谢通门县| 清河县| 灵丘县| 旬阳县| 大渡口区| 比如县| 乐山市| 山东省| 高碑店市| 驻马店市| 安义县|