<object id="0laau"><strong id="0laau"><xmp id="0laau"></xmp></strong></object>
<table id="0laau"><strike id="0laau"></strike></table>
  • <tr id="0laau"><label id="0laau"><tt id="0laau"></tt></label></tr>
    <p id="0laau"></p>

      Top
      首頁 > 正文

      喜馬拉雅論文被ICASSP 2022收錄 受邀展示自研跨語言語音合成技術

      近日,喜馬拉雅自研的跨語言語音合成創新技術論文被2022年IEEE國際音頻、語音與信號處理會議(2022 IEEE International Conference on Acoustics, Speech, and Signal Processing,ICASSP 2022)收錄,并受邀于今年5月在新加坡舉辦的會議上向全球展示相關技術成果。
      發布時間:2022-01-25 14:21        來源:賽迪網        作者:賽迪網

      近日,喜馬拉雅自研的跨語言語音合成創新技術論文被2022年IEEE國際音頻、語音與信號處理會議(2022 IEEE International Conference on Acoustics, Speech, and Signal Processing,ICASSP 2022)收錄,并受邀于今年5月在新加坡舉辦的會議上向全球展示相關技術成果。

      https://alidocs.oss-cn-zhangjiakou.aliyuncs.com/res/JZWGl09W0400n34Y/img/067edded-967e-4c36-b1b3-ce0cefe9fb19.20.36.png

      ICASSP是由IEEE(電氣電子工程師學會)主辦的在信號處理及其應用方面的頂級會議,在國際上享有盛譽并具有廣泛的學術影響力。今年是ICASSP的第47屆會議,會議主題為“以人為本的信號處理”。

      多語言建模已經成為語音合成系統必須擁有的能力。在實際的建模過程中,常需要根據單語種數據,構建一個擁有多語言能力的音色,比如需要能同時說中文和英文的某個音色,而該音色只有中文數據。針對這種情況,業界主流的建模方式是構建一個跨語言的語音合成系統,使該純中文音色去學習另外一個帶英文數據音色的英文能力。但該類跨語言語音合成系統在構建時往往有一些不足之處,比如學習到的英文發音不盡人意,或者由于學習英文發音,中文的韻律或者發音準確度下降,特別是在高表現力的音色建模上(如有聲書朗讀風格的音色)。為了進一步解決上述跨語言語音合成系統中所存在的問題,喜馬拉雅在論文中提出了其自研的創新訓練方法。

      這一創新訓練方法著眼于讓模型能夠接受所有音色和語言的組合的訓練。例如音色A是一個純中文數據,音色B是一個純英文數據。在一些主流的跨語言語音合成系統的訓練中,系統只能被<音色A,中文>和<音色B,英文>兩種組合的數據進行訓練。但是在實際語音合成推理中,卻需要讓音色A說英文(<音色A,英文>)和讓音色B說中文(<音色B,中文>),而這兩種組合都沒有對應數據進行訓練。此次喜馬拉雅在論文中提出的方法,通過訓練發音判別器和音色相似度判別器,使得系統不僅接受已有數據組合(<音色A,中文>,<音色B,英文>)的訓練,也可以被跨語言數據組合(<音色A,英文>,<音色B,中文>)訓練,從而使得訓練和推理兩個過程中的音色和語言組合完全對齊。

      實驗結果顯示,新提出的方法不僅在跨語言可懂度上顯著超越了基線模型,并且在保留音色相似度的前提下,也提升了跨語言語音合成的自然度。該方法不僅可以用在中英跨語言語音合成建模上,同樣可以擴展到其他任何語言的建模上,例如方言跨語言遷移等。

      圖片

      喜馬拉雅已在TTS(語音合成)領域潛心鉆研多年,并在內部專門成立了喜馬拉雅智能語音實驗室這一核心部門,長期專注于語音合成、識別、語音信號處理、編解碼以及智能音效的研究和開發,而這次的論文研究成果便來自于這一部門。目前,語音合成技術在喜馬拉雅已經廣泛被運用于評書、新聞、小說等多種內容的制作中,正助力喜馬拉雅在現有的“UGC + PGC + PUGC”內容生態之外,進一步拓展AIGC的可能性。

      2021年,喜馬拉雅通過將自主設計單獨的韻律提取模塊融入到 HiTTS 技術框架,完美復現了單田芳的“聲音”,目前已用單田芳的AI合成音上線了80張左右的“單田芳聲音重現”專輯,其中,《毛氏三兄弟》和歷史類作品的聲音完播率遠超過普通人聲作品,為未來出版物大量有聲化提供了新的解決方案。如今有了跨語言的語音合成技術,我們接下來將有望聽到單田芳先生的“聲音”來播講英文內容。同時,2021年,還有新京報、環球時報、瀟湘晨報、時代周報、海外網、刺猬公社等眾多主流媒體入駐喜馬拉雅,借助喜馬拉雅TTS技術加速制作新聞類音頻節目,讓聽眾有了更多的渠道聽到更權威的新聞。

      未來,喜馬拉雅將持續投入TTS技術的研發升級,不斷打開對于聲音的想象,讓技術加持聲音、讓聲音服務生活。

      專題訪談

      合作站點
      stat
      国产呦萝小初合集密码
      <object id="0laau"><strong id="0laau"><xmp id="0laau"></xmp></strong></object>
      <table id="0laau"><strike id="0laau"></strike></table>
    1. <tr id="0laau"><label id="0laau"><tt id="0laau"></tt></label></tr>
      <p id="0laau"></p>