10月是美國國家讀書月,在這個萬聖節將會有些新奇的事情。古騰堡計畫(Project Gutenberg) 這個免費電子書網站取得了進化的大躍進,讀者現在可以聽到由21世紀的AI所合成的聲音神奇地大聲朗讀愛倫·坡的故事,或是《科學怪人》、莎士比亞的《馬克白》或其他神秘巫婆的故事。
來自 微軟、Google 和 MIT 的研究人員與古騰堡計畫的執行長葛雷格·紐比(Greg Newby)合作,製作了5,000本開放授權的有聲書 — 大約35,000小時的音訊 ,而這些聲音都是由讓人驚訝,類似人聲的朗讀。
這是一個龐大而多樣的典藏,包含了小說和非小說 — 經典文學、戲劇,甚至傳記。每個人都能找到他們喜愛的 — 從亞瑟·柯南·道爾的《福爾摩斯歸來記》到愛德加·萊斯·巴勒斯的《泰山的回歸》,每個人都能找到適合自己的內容。
「我們希望這個貢獻可以為學術界和更廣泛的有聲書聽眾提供價值,」研究人員在 arXiv.org 的預印本論文中寫道。該論文題目是「大規模自動製作有聲書」,認為有聲書可以為為視障者、幼兒,甚至是學語言的新手「可以大大提高文學作品的可理解性」。
古騰堡計畫的執行董事葛雷格·紐比在一封訪談電子郵件中說:「反應整體上是正面的」。「有聲書非常受歡迎,即使是我們2004年的推出舊的,品質較差的有聲書也是如此。人們很喜歡有各種文學作品的有聲書,當然,微軟 從古騰堡計畫文本製作的新有聲書中,有許多作品以前從來沒有以有聲書的形式出現,因為這些作品在主流平台來說不夠受歡迎。」
紐比記得有一個負面回饋,有人稱這整個作為是「不適當的」 — 把人類的文學作品餵給一台沒有感情的機器,而唯一的目的是讓機器模擬人類的聲音和語調。「這似乎是普遍的反應」紐比說,但這些意見都來自「不是來自那些真正會去聽有聲書或對 古騰堡計畫有了解的人。」
「從我的角度來看,他們完成的工作是優秀的,古騰堡計畫支持任何能夠使文學更廣泛、低成本或無成本地流通到更多受眾的活動。
「微軟 的努力無疑符合這些條件。」
對技術慈善事業感到興奮
他們的論文指出,製作和出版一本電子書可能需要數小時的工作。演員史蒂芬·弗萊(Stephen Fry)曾講述他精確錄製《哈利波特》系列文本的困難。
這個過程也是昂貴的。但更重要的是,該論文指出,使用合成聲音的有聲書「歷來都受到文字轉語音系統機械化本質的困擾」。在 微軟 Cloud 的一個解釋性影片中,紐比表示,對有聲書需求一直都很高,但是「我們發現,儘管如此,我們並不真正擅長製作有聲書,所以我們最終放棄了有聲書。
「直到 微軟 說,『嘿,我們有一些自動把文字轉成語音的新技術。』」
在微軟 Developer YouTube的官方頻道中的影片,布蘭登·沃許(Brendan Walsh)總結了他們為這個雄心勃勃的專案所使用的技術。「幸運的是,我們開發了一些工具,並使用了一些網路開源工具,使它變得容易得多...具體來說,我們使用Azure Synapse Analytics上的Synapse ML與Apache Spark來生成一系列有聲書。」
最終結果是「古騰堡計畫開放有聲書典藏」,這些內容可以在主要的PODCAST平台和串流平台上獲得,也提供單一的.zip檔案供研究人員使用。
在影片中,沃許說自己「對從事技術慈善工作感到興奮。」
首席研究員馬克·漢彌爾頓(Mark Hamilton)很高興能說,他們的技術會「讓這些有聲書真正聽起來像是真人在朗讀,而不是機器人!」
聽起來效果如何?
這些電子書在 Spotify、Apple podcasts、Google Podcasts 和 Internet Archive 上都有自己的頁面。每段錄音開始都會說:「感謝您收聽這本由古騰堡計畫和 微軟 AI 製作的免費有聲書。」
是的,雖然缺乏史蒂芬·弗萊那種熱情洋溢的人味,但這些聲音仍然很容易被當成是人的聲音。不過這些AI還不夠完美。AI 知道如何閱讀羅馬數字 — 但對像「I」和「V」這樣的單獨字母感到困惑。(所以當閱讀莎士比亞的《馬克白》時,它把第一幕的標題 — Scene I — 讀作「scene eye」,而第五幕變成「scene vee」。)而當《馬克白》中的一名女巫談到折磨名為「Tiger」的船長( master o' th' Tiger)(可能是一艘名為 Tiger 的船)時,AI 直接放棄並拼出字母,說「master O T H Tiger。」
或許更令人失望的是它用完全相同的聲音讀每個部分。馬克白和馬克白夫人是同一個男性旁白,三個女巫、班柯和鄧肯王也是如此。紐比說他也聽到了這樣的回饋。「有人評論說似乎沒有任何女性聲音,並問為什麼。我已經把這個意見轉給了微軟,我也覺得應該要有各種聲音。」
研究人員的論文還談到了他們在「自動發音和情感推測系統」上的工作,該系統會掃描文字段落的上下文,然後「動態改變朗讀聲音和語氣」,讓對話「更加生動和引人入勝」,甚至預測對話中應使用的適當情緒。(2020 年,一些相同的研究人員曾致力於一種聽起來更自然的文字轉語音系統,首先得構建一個「自發對話語音語料庫」進行訓練,然後為系統配上一個具有「對話上下文編碼器」來選擇適當的回應語氣。)
展望未來,紐比說:「最終如果人們能選擇自己喜歡的聲音、語速等,並得到一本專門為他們製作的有聲書,那就太好了!」紐比說他看過微軟的技術展示,該技術會為不同的角色更換不同的聲音,但不幸的是這個功能「目前還沒有應用在當前的書籍中。」
This is the first time I've heard AI audio narration referred to as synthetic speech...
— Terri Nakamura (@terrinakamura) September 22, 2023
Project Gutenberg puts 5,000 audiobooks online for free using synthetic speech | TechCrunch https://t.co/mGEtTUfZgGpic.twitter.com/8VeENWotgc
未來的形勢
該專案的首席研究員說他們希望為古騰堡計畫上所有的60,000 本電子書製作免費的有聲書,甚至將它們翻譯成不同的語言。漢彌爾頓在微軟Developer的YouTube頻道中說:「我們看看能否擴大這個專案的規模。」
他們的論文還談到了一個展示的應用程式,該應用程式「允許與會者用自己的聲音,建立幾秒鐘的有聲書。」實質上,該系統使用被稱為「零樣本文字轉語音」的快速技術「複製」每個與會者的聲音。(儘管與會者也可以選擇選擇另一個預先合成的聲音。)毫無疑問,與會者也會對有聲書在短短幾秒鐘內就製作完成感到驚訝。在 YouTube 上的一段影片中,首席研究員 馬克·漢彌爾頓在 15 秒內就做完了一本《愛麗絲夢遊仙境》的有聲書。
然後,使用者甚至可以客製化自己的書籍獻辭,AI 將會用他們的聲音在電子書正式開始之前朗讀獻辭。「一旦完成,我們將透過電子郵件向使用者發送一個連結,他們就可以下載他們客製化的有聲書。」
紐比認為最重要的是:所有的東西都是開源的。程式碼可以在微軟的Synapse ML網站上找到。
紐比說:「微軟這個工作昏偉大之處在於,書籍是完全免費的,軟體也是完全免費。你可以直接使用現在的軟體功能,也可以自己外掛其他的功能上去。」
加入電腦王Facebook粉絲團