騰訊開源Covo-Audio語音AI模型整合辨識、推理與合成技術

商商傳媒 2026-03-26 23:59

重點摘要

● 騰訊推出開源語音AI模型Covo-Audio，整合辨識、推理與合成技術。

● Covo-Audio採用端到端架構，支援全雙工對話、語音客製化與多輪互動。

● 模型結合Whisper、Qwen2.5及BigVGAN等技術，並以創新「層級三模態語音-文字交錯」技術訓練。

● Covo-Audio在基準測試中表現優異，但與專有系統仍有差距。

● 開源語音AI領域競爭激烈，IBM、阿里巴巴、Mistral等公司亦有相關模型發表。

#AI技術 #開源模型 #語音AI

相關組織：騰訊阿里巴巴 IBM

商傳媒｜責任編輯／綜合外電報導

騰訊（Tencent）今日推出其最新的開源語音AI模型Covo-Audio，這款70億參數的模型在單一端到端架構中，整合了語音辨識、語音推理與語音合成功能，為開放社群的語音AI發展樹立了新的里程碑。

Covo-Audio旨在擺脫傳統語音AI系統中，自動語音辨識（ASR）、語言模型處理與文字轉語音（TTS）三者間獨立運作的串聯流程。該模型能直接處理連續音訊輸入，並產出語音輸出，支援全雙工對話、語音客製化與多輪互動，並以開放的CC BY 4.0授權釋出。其模型權重及推理程式碼已同步於GitHub及HuggingFace平台開放。

在技術架構上，Covo-Audio整合了多項先進組件，包括Whisper-large-v3音訊編碼器、阿里巴巴（Alibaba）的Qwen2.5-7B-Base語言模型作為骨幹，以及用於語音合成的BigVGAN聲碼器。其訓練核心採用「層級三模態語音-文字交錯」（Hierarchical Tri-modal Speech-Text Interleaving）創新技術，在短語和句子層級上精確對齊連續聲學特徵、離散語音標記及自然語言文本。此系統歷經兩階段預訓練，處理總計高達2兆個語音與文本跨模態tokens。

在效能表現方面，Covo-Audio在MMAU和MMSU等基準測試中，於70億參數規模的模型裡取得最高分數，甚至與部分320億參數系統的表現相當或超越。特別是Covo-Audio-Chat-FD版本，能支援使用者與模型同時發言的全雙工語音互動。儘管如此，一份由Artificial Analysis於本月公布的報告指出，目前開源語音模型在效能上仍與Google、xAI等業者提供的專有系統存在一定差距。

放眼開源語音AI領域，競爭日益激烈。本月中旬，IBM已發表其10億參數的Granite 4.0 Speech模型，主攻多語言語音辨識與翻譯。今年一月，阿里巴巴的Qwen團隊也推出了具備語音複製能力的Qwen3-TTS。而法國AI公司Mistral今日同樣發布了開源的文字轉語音模型Voxtral TTS，其特點是能從不到五秒的音訊樣本中學習並客製化語音，支援九種語言，並能適應邊緣運算裝置，適用於語音助理及客服機器人等應用。