Qwen2-Audio是什么?
Qwen2-Audio是由阿里通義團(tuán)隊(duì)推出的大型音頻語言模型系列,它能夠接受音頻信號輸入,進(jìn)行音頻分析或直接文本響應(yīng),支持語音聊天和音頻分析兩種交互模式,并且提供了預(yù)訓(xùn)練模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。

Qwen2-Audio的主要特點(diǎn)
- 語音聊天:用戶可以使用語音向音頻語言模型發(fā)出指令,無需通過自動(dòng)語音識別(ASR)模塊。
- 音頻分析:該模型能夠根據(jù)文本指令分析音頻信息,包括語音、聲音、音樂等。
- 多語言支持:該模型支持超過8種語言和方言,例如中文、英語、粵語、法語、意大利語、西班牙語、德語和日語。
Qwen2-Audio的模型效果
官方在一系列基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括 LibriSpeech、Common Voice 15、Fleurs、Aishell2、CoVoST2、Meld、Vocalsound 以及 AIR-Benchmark,下面我們將展示一張圖表來說明 Qwen2-Audio 相對于競爭對手的表現(xiàn)。在所有任務(wù)中,Qwen2-Audio 都顯著超越了先前的最佳模型或是 Qwen-Audio。

Qwen2-Audio的模型結(jié)構(gòu)與訓(xùn)練范式
Qwen2-Audio使用 Qwen 語言模型和音頻編碼器這兩個(gè)基礎(chǔ)模型,接著依次進(jìn)行多任務(wù)預(yù)訓(xùn)練以實(shí)現(xiàn)音頻與語言的對齊,以及 SFT 和 DPO 來掌握下游任務(wù)的能力并捕捉人類的偏好。

如何使用Qwen2-Audio?
Qwen2-Audio團(tuán)隊(duì)在 Hugging Face 和 ModelScope 上開源了 Qwen2-Audio-7B 以及 Qwen2-Audio-7B-Instruct,并且搭建了一個(gè)在線體驗(yàn)demo,相關(guān)鏈接如下:
- Qwen2-Audio在線體驗(yàn):https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo
- Qwen2-Audio項(xiàng)目地址:https://qwenlm.github.io/zh/blog/qwen2-audio
- Qwen2-Audio GitHub地址:https://github.com/QwenLM/Qwen2-Audio
- Qwen2-Audio論文地址:https://arxiv.org/pdf/2407.10759
- Qwen2-Audio MODELSCOPE地址:https://modelscope.cn/organization/qwen
據(jù)官方透露,在不久的將來,Qwen2-Audio團(tuán)隊(duì)計(jì)劃在更大的預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練出更優(yōu)秀的 Qwen2-Audio 模型,使該模型能夠支持更長的音頻(超過30秒),并且還將構(gòu)建更大規(guī)模的 Qwen2-Audio 模型,用于研究音頻語言模型的擴(kuò)展定律。