阿里開源語音模型CosyVoice整合包0721更新版

  • A+
所屬分類:軟件下載

CosyVoice是通義實驗室依托大規模預訓練語言模型,深度融合文本理解和語音生成的新一代生成式語音合成大模型,支持文本至語音的實時流式合成。可以應用于:智能設備/機器人播報的語音內容,如智能客服機器人、智能音箱、數字人、語音助手等。

音視頻創作中需要將文字轉為語音播報的場景,如小說閱讀、新聞播報、影視解說、劇本配音等。

CosyVoice則專注自然語音生成,支持多語言、音色和情感控制,支持中英日粵韓5種語言的生成,效果顯著優于傳統語音生成模型。

僅需要3~10s的原始音頻,CosyVoice即可生成模擬音色,甚至包括韻律、情感等細節,包括跨語種語音生成。而且CosyVoice支持以富文本或自然語言的形式,對生成語音的情感、韻律進行細粒度的控制,生音頻在情感表現力上得到明顯提升。

CosyVoice是一款基于語音量化編碼的語音生成大模型。它對語音進行離散化編碼,并依托大模型技術,實現自然流暢的語音生成體驗。與傳統語音生成技術相比,

CosyVoice具有韻律自然、音色逼真等特點。CosyVoice支持多達5種語言,同時還支持以自然語言或富文本形式對生成語音進行情感等維度的細粒度控制。研究團隊提供了基模型CosyVoice-300M、經過SFT微調后的模型CosyVoice-300M-SFT、以及支持細粒度控制的模型CosyVoice-300M-Instruct,可滿足不同場景下的使用需求。

通過與原始音頻以及最近大火的ChatTTS對比,可以發現CosyVoice的合成音頻在內容一致性上更高,并且沒有很少存在幻覺額外多字的現象。CosyVoice很好地建模了合成文本中的語義信息,達到了與人類發音人相當的水平。此外,通過對合成音頻進行重打分,能夠進一步降低識別的錯誤率,甚至在內容一致性和說話人相似度上超越人類。

(文件包有預合成演示音頻,可自行聽?。?/p>

CosyVoice-300M本身具備一定從文本內容中推斷情感的能力,經過細粒度控制訓練的模型,CosyVoice-300M-Instruct在情感分類中的得分更高,具備更強的情感控制能力。

資源下載此資源僅限注冊用戶下載,請先
版權信息:本資源僅供參考與學習,版權歸原作者所有,嚴禁商用! 資源將使用多個網盤保證下載有效,點擊多個網盤地址不會重復扣金幣。 全部網盤失效請 聯系客服。虛擬商品,暫不支持退款!

歷史上的今天:

推薦應用

發表評論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: