騰訊(Tencent)今日推出其最新的開源語音AI模型Covo-Audio,這款70億參數的模型在單一端到端架構中,整合了語音辨識、語音推理與語音合成功能,為開放社群的語音AI發展樹立了新的里程碑。
Covo-Audio旨在擺脫傳統語音AI系統中,自動語音辨識(ASR)、語言模型處理與文字轉語音(TTS)三者間獨立運作的串聯流程。該模型能直接處理連續音訊輸入,並產出語音輸出,支援全雙工對話、語音客製化與多輪互動,並以開放的CC BY 4.0授權釋出。其模型權重及推理程式碼已同步於GitHub及HuggingFace平台開放。
在技術架構上,Covo-Audio整合了多項先進組件,包括Whisper-large-v3音訊編碼器、阿里巴巴(Alibaba)的Qwen2.5-7B-Base語言模型作為骨幹,以及用於語音合成的BigVGAN聲碼器。其訓練核心採用「層級三模態語音-文字交錯」(Hierarchical Tri-modal Speech-Text Interleaving)創新技術,在短語和句子層級上精確對齊連續聲學特徵、離散語音標記及自然語言文本。此系統歷經兩階段預訓練,處理總計高達2兆個語音與文本跨模態tokens。
在效能表現方面,Covo-Audio在MMAU和MMSU等基準測試中,於70億參數規模的模型裡取得最高分數,甚至與部分320億參數系統的表現相當或超越。特別是Covo-Audio-Chat-FD版本,能支援使用者與模型同時發言的全雙工語音互動。儘管如此,一份由Artificial Analysis於本月公布的報告指出,目前開源語音模型在效能上仍與Google、xAI等業者提供的專有系統存在一定差距。
放眼開源語音AI領域,競爭日益激烈。本月中旬,IBM已發表其10億參數的Granite 4.0 Speech模型,主攻多語言語音辨識與翻譯。今年一月,阿里巴巴的Qwen團隊也推出了具備語音複製能力的Qwen3-TTS。而法國AI公司Mistral今日同樣發布了開源的文字轉語音模型Voxtral TTS,其特點是能從不到五秒的音訊樣本中學習並客製化語音,支援九種語言,並能適應邊緣運算裝置,適用於語音助理及客服機器人等應用。