Qwen2.5-Omni：阿里推出的新一代端到端多模態模型

AIHubAI布道師

Qwen2.5-Omni是什么？

Qwen2.5-Omni是阿里巴巴通義團隊推出的一款全模態大語言模型。它能夠處理多種輸入形式，包括文本、音頻、圖像和視頻，并生成相應的輸出。該模型采用Thinker-Talker雙核架構，其中Thinker模塊負責理解和處理多模態信息，Talker模塊則將這些理解轉化為自然語音輸出。Qwen2.5-Omni在語音識別、翻譯、語音生成和多模態理解等方面表現出色，具備高效的實時處理能力，適用于多個應用場景。

Qwen2.5-Omni的主要特點

全模態處理能力：支持文本、音頻、圖像和視頻等多種輸入形式，能夠同時處理和理解不同類型的信息。
雙核架構：采用Thinker-Talker雙核架構，Thinker模塊負責處理和理解輸入信息，Talker模塊將理解結果轉化為自然語音輸出。
實時交互能力：支持音視頻的實時處理和生成，能夠快速響應輸入并生成輸出。
自然語音生成：在生成語音時，Qwen2.5-Omni能夠確保語音的自然流暢，超越了許多現有的模型。
多模態性能優化：在多個基準測試中，Qwen2.5-Omni在音頻理解和多模態處理方面表現出色，能夠有效應對復雜任務。
強大的語音指令理解能力：在理解語音命令和進行語音指令跟隨方面具有卓越的表現，能夠處理復雜的指令并執行任務。

Qwen2.5-Omni的模型性能

Qwen2.5-Omni在包括圖像，音頻，音視頻等各種模態下的表現都優于類似大小的單模態模型以及封閉源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模態任務OmniBench，Qwen2.5-Omni達到了SOTA的表現。此外，在單模態任務中，Qwen2.5-Omni在多個領域中表現優異，包括語音識別（Common Voice）、翻譯（CoVoST2）、音頻理解（MMAU）、圖像推理（MMMU、MMStar）、視頻理解（MVBench）以及語音生成（Seed-tts-eval和主觀自然聽感）。