AI 合成語音如今已經屢見不鮮,然而在使用者聽來卻不能讓人產生與真人對話和閱讀般的沉浸感。
不過,微軟亞洲研究院和微軟 Azure 語音團隊近日聯合推出的全新端到端語音合成模型 NaturalSpeech,在 CMOS 測試中首次達到了真人說話水準。這將近一步提升微軟 Azure 中合成語音的水準,讓所有合成聲音都惟妙惟肖。
文本到語音合成(Text to Speech,TTS)是一項根據文本產生可懂且自然的語音的電腦技術。近年來,隨著深度學習的發展,TTS 在學術界和工業界取得了快速突破並且被廣泛應用。在 TTS 的研究和產品上,微軟一直有著深厚的積累。
在研究方面,微軟曾創新提出了多個 TTS 模型,包括基於 Transformer 的語音合成(TransformerTTS)、快速語音合成(FastSpeech 1/2、LightSpeech)、低資源語音合成(LRSpeech)、定制化語音合成(AdaSpeech 1/2/3/4)、歌聲合成(HiFiSinger)、身歷聲合成(BinauralGrad)、聲碼器(HiFiNet、PriorGrad)、文本分析、說話人臉合成等,而且推出了 TTS 領域最詳盡的文獻綜述。同時,微軟亞洲研究院還在多個學術會議上(如 ISCSLP 2021、IJCAI 2021、ICASSP 2022)舉辦了語音合成教程,並在 Blizzard 2021 語音合成比賽中推出了 DelightfulTTS,獲得了最好成績。此外,微軟還推出了開源語音研究專案 NeuralSpeech 等。
在產品方面,微軟在 Azure 認知服務中提供了強大的語音合成功能,開發人員可以借助其中的 Neural TTS 功能將文本轉換為逼真的語音,用於眾多場景之中,例如語音助手、有聲讀物、遊戲配音、輔助工具等等。利用 Azure Neural TTS,使用者既可以直接選擇預置的音色,也可以自己錄製上傳聲音樣本自訂音色。目前,Azure Neural TTS 支援超過120種語言,包括多語言變體或方言,同時該功能也已整合到了多個微軟產品中,並且被業界諸多合作夥伴所採用。為了持續推動技術創新,提高服務品質,微軟 Azure 語音團隊與微軟亞洲研究院密切合作,讓 TTS 在不同場景下聽起來更多樣、更悅耳,也更自然。
近日,微軟亞洲研究院和微軟 Azure 語音團隊研發出了全新的端到端 TTS 模型 NaturalSpeech,該模型在廣泛使用的 TTS 資料集(LJSpeech)上使用 CMOS (Comparative Mean Opinion Score) 作為指標,首次達到了與自然語音無明顯差異的優異成績。這一創新性的科研成果未來也將整合到微軟 Azure TTS 服務中供更多使用者使用。
4大創新設計讓NaturalSpeech超越傳統TTS系統
NaturalSpeech 是一個完全端到端的文本到語音波形產生系統(見圖1),能夠彌合合成語音與真人聲音之間的品質差距。具體而言,該系統利用變分自編碼器(Variational Auto-Encoder, VAE),將高維語音 (x) 壓縮成連續的幀級表達 z(記作後驗 q(z|x)),用於對語音波形 x(記作 p(x|z))的重構。相應的先驗(記作 p(z|y))則從文本序列 y 中獲取。
考慮到來自語音的後驗比來自文本的先驗更加複雜,研究員們設計了幾個模組(見圖2),盡可能近似地對後驗和先驗進行匹配,進而透過y→p(z|y)→p(x|z)→x完成文本到語音的合成。
在音素編碼器上利用大規模音素預訓練(phoneme pre-training),從音素序列中提取更好的表達。利用由時長預測器和上採樣層組成的完全可微分的時長模組(durator),來改進音素的時長建模。基於流模型(flow)的雙向先驗/後驗模組(bidirectional prior/posterior),可以進一步增強先驗 p(z|y) 以及降低後驗 q(z|x) 的複雜性。基於記憶的變分自編碼器(Memory VAE),可降低重建波形所需的後驗複雜性。
據微軟亞洲研究院主管研究員譚旭介紹,與之前的 TTS 系統相比,NaturalSpeech 有以下幾大優勢:
- 減少訓練和推理的不匹配。先前的級聯聲學模型/聲碼器系統和顯式時長預測都受到了訓練推理不匹配的影響。其原因在於聲碼器使用了真實的梅爾譜以及梅爾譜編碼器使用了真實的時長,而推理中使用了相應的預測值。NaturalSpeech 完全端到端文本到波形的產生以及可微時長模組,則能夠避免訓練推理的不匹配。
- 緩解了一對多的映射問題。一個文本序列可以對應多個不同的語音表達,例如音高、持續時間、速度、停頓、韻律等方面的變化。以往的研究僅額外預測音高/時長,並不能很好地處理一對多的映射問題。NaturalSpeech 中基於記憶的 VAE 和雙向先驗/後驗則能降低後驗的複雜性並增強先驗,有助於緩解一對多的映射問題。
- 提高表達能力。此前的 TTS 模型往往不足以從音素序列中提取良好的表達以及學習語音中複雜的資料分佈。NaturalSpeech 透過大規模音素預訓練、帶有記憶機制的 VAE、強大的產生模型(如Flow/VAE/GAN)可以學習更好的文本表達和語音資料分佈。
權威評測結果顯示:NaturalSpeech合成語音與真人聲音不相伯仲
此前的工作通常採用「平均意見分」(Mean Opinion Score, MOS)來衡量 TTS 品質。在 MOS 評測中,參與者透過聽取真人說話錄音和 TTS 的合成語音,分別對兩種聲音的特徵進行五分制評分,包括聲音品質、發音、語速和清晰度等。但是 MOS 對於區分聲音品質的差異不是非常敏感,因為參與者只是對兩個系統的每條句子單獨打分,沒有兩兩互相比較。而 CMOS(Comparative MOS)在評測過程中可以對兩個系統的句子兩兩對比並排打分,並且使用七分制來衡量差異,所以對品質差異更加敏感。
因此,在評測 NaturalSpeech 系統和真實錄音的品質時,研究員們同時進行了 MOS 和 CMOS 兩種測試(結果如表1和2所示)。在廣泛採用的 LJSpeech 資料集上的實驗評估表明,NaturalSpeech 在語句等級與真人錄音的對比上實現了-0.01 CMOS,在 Wilcoxon 符號秩檢驗中實現了 p>>0.05。這表明在這一資料集上,NaturalSeech 首次與真人錄音無統計學意義上的顯著差異。這個成績遠高於此前在 LJSpeech 資料集上測試的其它 TTS 系統。
想瞭解更多技術細節,可以參閱 NaturalSpeech 論文和 GitHub 主頁:
- NaturalSpeech 論文:NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
- NaturalSpeech GitHub 主頁:NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
TTS發展道阻且長,需要業界共同打造負責任的AI
在微軟 Azure 認知服務語音首席研發總監趙晟看來,NaturalSpeech 系統首次達到了與真人錄音沒有顯著差異的效果,是 TTS 研究上的一個新的里程碑。從長遠角度來講,雖然借助新模型能夠實現更高品質的合成語音,但這並不意味著徹底解決了 TTS 所面臨的問題。目前,TTS 仍然存在很多具有挑戰性的場景,如充滿情感的語音、長篇朗誦、即興表演的語音等,這些都需要更先進的建模技術來類比真人語音的表現力和多變性。
隨著合成語音品質的不斷提升,確保 TTS 能被人們信賴是一個需要攻堅的問題。微軟主動採取了一系列措施來預判和降低包括 TTS 在內的人工智慧技術所帶來的風險。微軟致力於依照以人為本的倫理原則推進人工智慧的發展,早在2018年就發佈了「公平、包容、可靠與安全、透明、隱私與保障、負責」6個負責任的人工智慧原則(Responsible AI Principles),隨後又發佈負責任的人工智慧標準(Responsible AI Standards)將各項原則實施落地,並設置了治理架構確保各團隊把各項原則和標準落實到日常工作中。我們正在與全球的研究人員和學術機構合作,繼續推進負責任的人工智慧的實踐和技術。
Azure AI Neural TTS的更多功能和聲音等待探索
Azure AI Neural TTS 目前共提供340多種聲音,支援120多個語種和方言。此外,Neural TTS 還能説明企業以多種語言和風格,打造專屬的品牌聲音。現在,使用者可以透過 Neural TTS 試用版來探索更多功能和特色聲音。
資料來源:
加入電腦王Facebook粉絲團