Qwen2-Audio：阿里推出的開源音頻語言大模型

AI訓(xùn)練模型
24年8月12日
編輯

AIHubAI布道師

Qwen2-Audio是什么？

Qwen2-Audio是由阿里通義團(tuán)隊(duì)推出的大型音頻語言模型系列，它能夠接受音頻信號輸入，進(jìn)行音頻分析或直接文本響應(yīng)，支持語音聊天和音頻分析兩種交互模式，并且提供了預(yù)訓(xùn)練模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。

Qwen2-Audio的主要特點(diǎn)

語音聊天：用戶可以使用語音向音頻語言模型發(fā)出指令，無需通過自動(dòng)語音識別（ASR）模塊。
音頻分析：該模型能夠根據(jù)文本指令分析音頻信息，包括語音、聲音、音樂等。
多語言支持：該模型支持超過8種語言和方言，例如中文、英語、粵語、法語、意大利語、西班牙語、德語和日語。

Qwen2-Audio的模型效果

官方在一系列基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，包括 LibriSpeech、Common Voice 15、Fleurs、Aishell2、CoVoST2、Meld、Vocalsound 以及 AIR-Benchmark，下面我們將展示一張圖表來說明 Qwen2-Audio 相對于競爭對手的表現(xiàn)。在所有任務(wù)中，Qwen2-Audio 都顯著超越了先前的最佳模型或是 Qwen-Audio。

Qwen2-Audio的模型結(jié)構(gòu)與訓(xùn)練范式

Qwen2-Audio使用 Qwen 語言模型和音頻編碼器這兩個(gè)基礎(chǔ)模型，接著依次進(jìn)行多任務(wù)預(yù)訓(xùn)練以實(shí)現(xiàn)音頻與語言的對齊，以及 SFT 和 DPO 來掌握下游任務(wù)的能力并捕捉人類的偏好。

如何使用Qwen2-Audio？

Qwen2-Audio團(tuán)隊(duì)在 Hugging Face 和 ModelScope 上開源了 Qwen2-Audio-7B 以及 Qwen2-Audio-7B-Instruct，并且搭建了一個(gè)在線體驗(yàn)demo，相關(guān)鏈接如下：

Qwen2-Audio在線體驗(yàn)：https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo
Qwen2-Audio項(xiàng)目地址：https://qwenlm.github.io/zh/blog/qwen2-audio
Qwen2-Audio GitHub地址：https://github.com/QwenLM/Qwen2-Audio
Qwen2-Audio論文地址：https://arxiv.org/pdf/2407.10759
Qwen2-Audio MODELSCOPE地址：https://modelscope.cn/organization/qwen

據(jù)官方透露，在不久的將來，Qwen2-Audio團(tuán)隊(duì)計(jì)劃在更大的預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練出更優(yōu)秀的 Qwen2-Audio 模型，使該模型能夠支持更長的音頻（超過30秒），并且還將構(gòu)建更大規(guī)模的 Qwen2-Audio 模型，用于研究音頻語言模型的擴(kuò)展定律。

?版權(quán)聲明：如無特殊說明，本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個(gè)人或組織，在未征得本站同意時(shí)，禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺(tái)。否則，我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。