以後AI靠聽鍵盤聲就能偷你密碼,準確率高達95%!你沒聽錯,現在鍵盤打字也不安全了,實在防不勝防。
最近,來自杜倫大學等三所學校的研究人員訓練一個AI模型,讓聲學攻擊變得無比簡單,透過分析鍵盤聲音,就能重構使用者輸入的密碼和敏感資訊。
網友們聽到後有人表示:
這就是為什麼我輸密碼的時候會聽重金屬音樂,並且將音量調到最大。
危險!危險!危險!
事情還要從英國大學研究人員發的這篇題為「A Practical Deep Learning-Based Acoustic Side Channel Attack on Keyboards」的論文說起。
在這項研究中,研究人員用深度學習的方法提出了一個完全自動化的鍵盤聲學側通道攻擊流程,包括按鍵分割、透過mel頻譜圖進行特徵提取、使用CoAtNet模型進行分類幾個大的部分。
具體來說,第一步按鍵分割,就是記錄目標鍵盤上的按鍵。
在這項工作中,研究人員使用手機(iPhone13 mini)和視訊會議軟體Zoom(模擬遠端攻擊場景)來收集聲音,透過按壓MacBookPro上的36個按鍵(0-9,a-z)來製造聲音。
每個按鍵被連續按下25次後,一個記錄按壓聲音的音檔就產生了。
接下來就是對錄音進行快速傅立葉變換,然後在頻率上對係數進行求和以獲得「能量」(energy)。之後定義一個能量閾值,當能量超過這個閾值時,標記這裡是一個按鍵音。
透過這個方法,可以從長音訊中分割出獨立的按鍵音段。
和手機錄音不同,由於Zoom會使用降噪技術來壓縮音量範圍,所以不同按鍵的音量差異很小。這裡研究人員提出了一種逐步調整閾值的方法來解決這個問題。
簡而言之,就是先設置一個初始閾值,使用當前閾值分割音訊,得到按鍵數量。如果分割得到的按鍵數量小於目標數量,則降低閾值;如果分割得到的按鍵數量大於目標數量,則增加閾值。透過逐步微調閾值,直到分割結果等於目標按鍵數量。這裡為了更精細調整,每次調整幅度會變小,直到準確分割出所有按鍵。
然後,就可以製作出波形圖和頻譜圖,進行特徵提取,視覺化每個按鍵的可辨識差異。
下面重頭戲來了,這些頻譜圖圖像會被用來訓練一個圖像分類器——CoAtNet。
研究人員將mel頻譜圖作為聲音的視覺表示,以圖像的形式輸入到CoAtNet中。CoAtNet包含卷積層和自注意力層,可以高效學習特徵並建模特征之間的全域關係。
並在CoAtNet的基礎上添加了平均池化層和全連接層,以得到最終的按鍵分類結果。
此外,研究人員還使用了交叉熵損失函數和Adam優化器訓練模型,訓練過程中,每5個epoch測試一次驗證集精度。透過調節學習率、epoch數量等超參數,解決了模型精度突降的問題。
最終,模型在手機錄製的資料集上,分類準確率達到95%;在Zoom錄製的資料集上,分類準確率達到93%。
手機和Zoom兩種錄音方式的結果僅差2%,也側面說明了錄音方式的改變不會對準確率產生顯著影響。
此外,值得一提的是,研究人員還發現大多數誤分類都是相鄰按鍵,錯誤具有一定規律性。
AI讓古老的東西「重生」
網友看到這項研究後,一部分人表示驚恐,還有一部分人表示這項研究十幾年前就有了:
顯然,古老的(非常非常古老的)東西再次變得新鮮起來了。
就比如說2005年一篇華人學者「Keyboard Acoustic Emanations Revisited」的研究中,就已對鍵盤聲學進行了探索。
那麼,這裡有什麼差別?
研究人員表示,之前的方法大多針對的是桌上型電腦鍵盤,已經過時了,而這項研究中用的是MacBook鍵盤,很多型號通用,潛在危險更大。
還有現在的麥克風也不是當年的了,之前是外接話筒,而這項研究中用的是手機和Zoom錄製按鍵聲。
最主要的是方法不太一樣,以前一種較為常見的方法是用隱藏式馬可夫模型(HMM),現在用的是CoAtNet模型。
HMM是在文本語料庫上訓練的模型,用於預測序列位置中最可能的單詞或字元。例如,如果分類器輸出「Hwllo」,則可以使用HMM來推斷「w」實際上是錯誤分類的「e」。
相信對於廣大網友來說,這些都不是重點,重要的是怎麼防範啊!
怎麼防鍵盤竊聽?
應對AI竊密也不是沒有方法。研究人員就說了,可以透過改變打字風格,從標準十指鍵盤變為自由打字,可以降低辨識準確率。還有一些方法:
- 使用隨機複雜密碼,包含不同大小寫字母,增加攻擊難度。
- 在語音通話軟體中加入隨機假打字音訊干擾訊號,檢測到按鍵聲時加入干擾。
- 使用雙重認證,比如指紋等生物特徵,避免透過鍵盤輸入密碼。
除此之外,此前有研究也提出過一些,但今時今日效果可能較差,比如使用觸控鍵盤、檢查房間內是否有隱藏麥克風、關閉麥克風、不在視訊通話時輸入關鍵資訊等。
網友也給出了一些奇招,比如說:
把敲密碼改成複製/貼上?
加入電腦王Facebook粉絲團