Google發表音訊分離技術，可抽離影片中各人物的語音

Google發表了名為Audio-Visual Speech Separation的音訊分離技術，能夠透過分析影像以及聲音的特徵，將影片中各人物所說的話分離成獨立音軌，如此一來就能讓觀眾在雙人同時講話的影片中，自由選擇要聽誰的語音，此外這項技術也能用來分離背景雜音，強化視訊通話時的音質表現。

人工智慧協助分析

當人類專注於聆聽某個人說話時，頭腦會「自動調低」其他人與環境雜音的音量，讓人可以在吵雜的場合也能彼此交談。然而要透過電腦將各別人物的語音單獨抽離出來，仍然是個相當艱鉅的挑戰。

Google的軟體研發團隊在《Looking to Listen at the Cocktail Party》一文中，提出了透過深度學習與聲音-影像模型的方式分離語音的技術，能夠強化影片中特定人物的語音，並消除其他人的聲音與環境音。

這項技術最大的特色，在於它會同時分析影片中的影像與聲音，透過辨識人物表情的變化，提升辨識精準度，同時它也能應用於一般單聲道影片，系統會自動辨識影片中的人物與聲音，觀眾需要做的只要點選影片中出現的人臉，就能只聽到他的聲音。

在研發過程中，團隊引用了100,000支YouTube只有單一講者的無干擾演講影片，並將這些總時數長達2000小時的影片混入其他演講影片與背景雜音，以用於訓練多重串流卷積神經網路（Multi-Stream Convolutional Neural Network），讓人工智慧發揮分離音訊的效果。

▲ Audio-Visual Speech Separation技術可以將影片中不同人的聲音分離。（圖片來源：Looking to Listen at the Cocktail Party，下同）

▲ 該技術不但會分析聲音，也會分析影片中人物的嘴型與表情。

▲ 在人工智慧的協助下，這項技術能夠分離多個人物的語音與背景雜音。（圖片來源：Google Research Blog）

實際效果展示

開發團隊也公佈了許多Audio-Visual Speech Separation的展示影片，讀者可以從下列影片中看出這項技術的效果確實十分出色。

▲隨著影片的播放，可以看到切換到不同音軌時，就只會出現指定人物的語音。

▲原始影片為2人激烈爭論，在Audio-Visual Speech Separation的處理下，可以讓觀眾選擇只聽右方主播的聲音。

▲Audio-Visual Speech Separation也能用來消除背景雜音。

▲這項技術也可以應用於強化視訊通話的音質表現。

開發團隊表示Audio-Visual Speech Separation除了有助於讓觀眾選擇想要聆聽的人物聲音之外，也能用來消除背景雜音，強化影片與視訊通話的音質表現，此外將音訊分離後也有助於提升語音辨識系統自動產生字幕的精確度，適用範圍相當廣泛，Goolge也在研究如何應用於其他Goolge產品上，或許在不久的未來就能在更多地方看到這項技術。

加入電腦王Facebook粉絲團

Google發表音訊分離技術，可抽離影片中各人物的語音

人工智慧協助分析

實際效果展示

Trending Articles

SM3268AB 8CE三星量产无法格式化

[下载工具]Think4V utubedown(Youtube高清视频下载工具) v2.1.6 官方版2.1.3

出售: SINE Othello 電源線

博讯｜张磊帮助下，李源潮的儿子被耶鲁录取

FullEventLogView 1.73 免安裝中文版 - 事件檢視器取代工具

同門四角戀？李沛旭喇舌「小郭雪芙」曾智希，蔡淑臻拍完婚紗...怒毀婚

五代RAV4 降車身（機械車位因素）

[攻略] 《魔獸世界》6.2.2 白色魚人蛋再現！來去收編魚人寶寶特基！

jetBrains Product crack 2024 Java based

2013 KUGA 6G轉動方向盤會聽到摳摳摳的異音，有人知道原因嗎?

【豌豆字幕組】[藥屋少女的呢喃（藥師少女的獨語）/ Kusuriya no Hitorigoto][25][繁體][1080P][MP4]

好用的照片后期处理软件【DxO PhotoLab Elite 5.4.0.4765 (x64) 多语言便携版】..

出售: Thixar Silence Plus 啫喱板

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

三條崙討海人故事…重建烏倉寮憶43年前船難

致喬立建設道歉聲明

[一般] 神州全地圖掉寶資料

方易通7862 8/128G 無360 刷機

動感校園小記者・瑪利諾修院學校｜採訪王瑋駿陳晞文帶領試玩風帆

有藍電流行車紀錄器分享文嗎