Big Brother is Watching You(老大哥正在看著你)。這句話來自於英國著名政治小說《一九八四》,在故事設定中隨處可見該宣傳標語,表示四周都由監聽設備和秘密員警。
當代,公司使用「bossware」來監聽員工的上班情況;不少「spyware」APP可以記錄手機通話;以Amazon Echo 為代表的智慧型家居設備可以記錄你的日常對話。
那麼如何抵禦這些無孔不入的監聽呢?最新研發的「Neural Voice Camouflage」技術有望提供幫助。可以透過在你說話時在背景中產生自訂音訊噪音來迷惑 AI 助手。
這個新系統使用了「對抗性攻擊」。該系統部署了機器學習的方法,透過演算法在資料中尋找模式,然後調整聲音覆蓋人的聲音。從本質上講,你利用一個人工智慧來愚弄另一個。
然而,這個過程並不像它聽起來那麼容易。機器學習的人工智慧需要處理整個聲音片段,然後才知道如何調整它,當你想即時偽裝時,這並不可行。
因此,在新的研究中,研究人員教會了一個神經網路,一個受大腦啟發的機器學習系統,以有效地預測未來。科學家對其進行了許多小時的語音記錄訓練,因此它可以不斷地處理 2 秒鐘的聲音片段,並偽裝出接下來可能說的話。
AI 會聆聽剛才所說的話,並發出聲音,這些聲音會擾亂許多可能跟隨的短語。對人耳來說,聲音聽起來像是背景雜音,口語很容易理解,但機器卻難以理解。
例如,如果有人剛說「enjoy the great feast」(盡情享受盛宴),雖然系統無法預測他接下來會說什麼。但是,透過說話情境,以及說話人的聲音特徵,它產生的聲音會擾亂一系列可能的後續短語。這包括接下來實際發生的事情;這裡,同一個說話者說:「that’s being cooked」(這是剛烹飪好的)。
對人類聽眾來說,這種音訊偽裝聽起來像是背景雜音,他們在理解口語方面沒有問題。但是對於機器來說卻比較困難。
科學家們將他們系統的輸出疊加到錄製的語音上,因為它被直接輸入到可能被偷聽者用來轉錄的自動語音辨識(ASR)系統之一。該系統將 ASR 軟體的單詞錯誤率從 11.3% 提高到 80.2%。例如「I’m nearly starved myself, for this conquering kingdoms is hard work」,被轉錄為「im mearly starme my scell for threa for this conqernd kindoms as harenar ov the reson」。
被白色雜訊掩蓋的語音和競爭性對抗性攻擊(缺乏預測能力,只用過晚半秒播放的雜訊掩蓋它剛剛聽到的內容)的錯誤率分別只有12.8%和20.5%。這項工作在上個月的國際學習表徵會議上發表了一篇論文,也進行同行評審。
即使當ASR系統被訓練成轉錄受神經語音偽裝干擾的語音時(可以想像竊聽者會採用這種技術),其錯誤率仍為 52.5%。一般來說,最難打亂的詞是短的,如「the」,但這些是對話中最不容易暴露的部分。
研究人員還在現實世界中測試了這種方法,透過與麥克風在同一房間的一組揚聲器播放與偽裝相結合的語音記錄。它仍然有效。例如,「I also just got a new monitor」被轉錄為「with reasons with they also toscat and neumanitor」。
加入電腦王Facebook粉絲團