NVIDIA又來了!
一年一度的NVIDIA GTC中國大會以線上的形式和大家見面,不過這次現身的不是CEO黃仁勛,而是NVIDIA首席科學家Bill Dally。
在影片中,Bill Dally介紹了NVIDIA在醫療、自動駕駛汽車和機器人等多個領域的身手,也分享瞭如何在具有更高頻寬、更易於編寫程式的系統中製造更快AI晶片的相關內容。
當然更多的還是關於安培微架構(Ampere),以及一些有趣的應用,例如當語音助手和GAN結合之後,能發生什麼?
同時,Dally稱:「在『摩爾定律』失效的當下,如果我們真想提高電腦性能,『黃氏定律』就是一項重要指標,且在可預見的未來都將一直適用。」
想知道GPU如何在NVIDIA的各類產品中大展身手的嗎?
安培如何合理運用稀疏性特徵
我們都知道,NVIDIA的安培是世界上最大的7nm晶片,具有540億個晶體管。
Bill Dally表示,最讓他激動的是,安培破解了如何利用神經網路的稀疏性獲得更大的性能的問題。
我們先複習一下安培的性能指數。
可以看到,對於高性能運算,安培具有雙精度Tenser Core,對於FP64運算,可以在執行矩陣乘法運算時維持19.5teraFLOPS的性能。
對於使用全新TensorFLOAT 32數據類型進行的深度學習訓練,安培可以提供156teraFLOPS的性能。
而對於深度學習推理,使用Int8,安培可以提供1.25petaops。
說到稀疏性,我們知道,大多數神經網路其實是可以修剪的,我們大可切斷70%-90%的聯繫,進而達到壓縮、釋放內容、獲得記憶體的效果,但是我們還無法充分使用這項特徵。
現在,我們可以藉助安培來合理運用這個特徵。安培透過利用結構化稀疏性(允許4個權重中的2個為0)解決了這個問題。因此,對於矩陣乘法指令,一旦將權重稀疏為2/4模式,就會實現雙倍的性能。
即使矩陣乘法只是整個應用場景的一部分,例如BERT的推理自然語言處理基準測試,安培仍然能達到1.5倍的性能。
在深度學習構架中,這是一個巨大的飛躍。
同時,安培也簡化了AI與科學應用之間的關係,你無需在一台電腦上完成一部分工作,再轉移到另一台電腦上進行另一部分的工作,使用一台電腦就能完成兩者。
對於不少AI應用程式,很多人都在構建專門的加速器,但是這樣的速度會更快嗎?其實不一定。
早在Kepler時代,進行深度學習,最常用的指令是半精度浮點乘加,如果把它歸一化成為技術,將這些都進行相同的比較,大約是1.5皮焦耳的能量,提取指令並對其解碼,與執行該指令相關的所有開銷約為30皮焦耳,開銷超過了有效載荷,在開銷上耗費的能量是有效載荷的20倍。
然後在Pascal時代,通過改進技術,採用半精度點積運算指令,對包含4個單元的向量執行點積運算。
如今,我們要做8個算術運算,4個乘法運算,4個加法運算,6皮焦耳的能量,開銷僅為5倍。
雖然從結果上看依舊不是最理想的,但相比最開始,仍然最佳化了不少。
TensorCore的實際作用是為矩陣乘法累加提供專門的指令,在Volta中,採用半精度矩陣乘法累加(IMMA),一條指令所消耗的能力實際執行了128次浮點運算,因此完全可以攤還開銷。
這樣一來,開銷只有22%,在Turing中添加IMMA指令後,現在可以執行1024次Int8運算,有效負載所需的能量為160皮焦耳,開銷僅為16%。
也就是說,如果構建一個不具有任何可編輯程式的專用加速器,你將獲得16%的優勢。
但同時,我們也不能忽視了,神經網路正在以驚人的速度發展,GPU的可程式編輯性迫使你跟上變化,新模型層出不窮,訓練方法也日漸改善。想要利用這些資源,你就需要一台可程式編輯性很強的設備。
GPU提供了一個完全可程式編輯性的平台,透過構建TensorCore,使用專門的指令分攤開銷,你就可以得到與專用加速器無損的可程式編輯性。
未來,GAN也能語音助手化了
我們先來看一張圖,可能大家也能猜到了,左邊是產生的虛擬人物,中間是產生的風格化人物,右邊則是產生的無生命實體。
最近,NVIDIA推出StyleGAN,人們便可以在不同尺度、不同大小下獨立控制各個特徵,更輕鬆地分離隱變量,進而分離隱變量中控製圖像不同特徵的部分,例如控制某個人物是否微笑,是否戴眼鏡,以及他們頭髮的顏色。
同時,在影片技術上,NVIDIA也有所著墨。
得到一個人的原始圖像,和一個人的動作視訊,就能合成該說話者逼真的頭部影片。在這一任務中,原始圖像主要負責編碼人物的外觀,影片則決定了人物的動作。
這正是NVIDIA提出的一種純神經式的算繪方式,即不使用說話者頭部的3D圖像,只在靜態圖像上訓練產生的深度網路,進而進行頭部動作影片算繪。
除此之外,未來,如果你希望自己能夠變成一個藍頭髮的卡通人物,這項技術也即將實現。
不得不說,GAN已經進入我們的日常生活中,但是有沒有想過,當GAN和語音技術碰撞之後,會產生怎樣的效果呢?
如果你說的話,被Jarvis提取,再轉換成文本,輸入到自然語言模型中查詢、翻譯、問答,最後能夠產生一幅指定的畫,例如你希望哪裡有山、哪裡有水,GAN都會自動幫助填充。
GPU成就了深度學習
在AI領域,深度神經網路,卷積神經網路,反向傳播等,這些在上個世紀就已經出現的概念,一直要等到2012年AlexNet的出現,這場革命才真正開始。
那年,Alex Krizhevsky在AlexNet上獲得的性能提升,比此前在ImageNet上5年的工作成果總和還要多。可以說,GPU成就了深度學習,但同時,也限制了深度學習的發展。
如下圖所示,在自然語言處理網路的發展中,從BERT到GPT-3,速度之快令人瞠目。
但是想要構建更大的模型,並在更大的數據集上進行訓練,這就受限於在已有的GPU資源上可接受的時間內能訓練到的程度。
我們再次搬出「黃式定律」,可以看到,這8年裡,NVIDIA將單晶片推理能力提高了317倍,這條曲線就是著名的「黃式定律」,即實現推理能力每年翻倍。
自動駕駛:分場景的解決方案
自動駕駛的複雜程度不言而喻,其涉及到感應器、攝影鏡頭、雷達、光達、即時運算等多種類型的技術。
在實際應用中,還需要預測其他汽車、行人以及周圍交通參與者的行為。
於是,NVIDIA選擇利用AI,打造GPU控制的自動駕駛汽車,畢竟AI駕駛員不會出現疲勞駕駛等情況。
但這不是在汽車中裝置一些AI技術那麼簡單,你需要解決的是從數據採集開始的端到端問題。
首先,你需要透過各種感應器,包括攝影鏡頭、雷達、光達、超音波設備產生大量具有標記數據的數據集,然後接受所有的數據並進行篩選。
在將這些模型部署到汽車之前,需要透過硬體在環的仿真模擬進行測試。實際的AI硬體會模擬合成看到的訊息,包括攝影鏡頭產生的合成視訊流,光達產生的合成光達數據等,然後需要驗證這些模型在仿真時是否正常工作。
除此之外,該神經網路還需要處理其他訊息,例如天氣、交叉路口的情況等。
可以想見,這是相當大的運算負載,NVIDIA針對此,採用了專為邊緣應用打造的基於安培架構的各種產品和解決方案。
在自動駕駛汽車中,如果只需要駕駛輔助功能,則可使用基於Orin Ampere架構提供每秒10萬億次運算,且耗能僅為5瓦的嵌入式晶片來處理該任務。
對於L2級自動駕駛,可能更需要45瓦能耗,每秒200TOPS的Orin AGX來處理該工作負載。
當然,對於L5等級的自動駕駛,該電腦採用了一對Orin和一對A100算力高達每秒2千萬億次運算,功耗為800瓦。這種雙重的電腦可提供額外的保險,如果一部分系統失效,另一部分系統可以繼續工作處理感應器訊號,至少確保在安全停車前汽車的駕駛是安全的。
並行模擬機器人,合理應對各類路況
如今,越來越多的工廠都配備了機器人,它們都能做到公釐等級精度的精準定位,但很多也都缺少與人的互動能力。
透過利用深度學習的能力,NVIDIA的技術人員開發了一項名為「黎曼運動策略」的新技術,本質上從數學角度進行簡化後,可以實現機器人與人的互動。
例如傳球給機器人,除了在模擬環境中設置塊狀物,還人為設置了一些障礙,但是實驗證明,不管球滾到哪裡,機器人都能快速運算出一條路徑繞開障礙物並抓住球。
如何操控未知目標,需要針對機械手進行一系列的泛化訓練。NVIDIA在模擬環境中訓練了大量四足機器人,從什麼都不懂,到遇到各種障礙物,再到合理應對每種表面、上下樓梯,這些技能在真實環境下也能充分應用起來。
這一切,也都得益於NVIDIA利用GPU的並行性進行的模擬。
最佳化圖形光源和照明
在好萊塢影片中,我們經常能看到非常逼真的CG技術的運用。
根據Bill Dally介紹,這種離線的電腦圖形通常使用的是一種稱為基於物理性質的路徑追蹤算繪技術,對每個像素投射數万條光線,每一個影格都需要花費數小時。
最近,NVIDIA的技術團隊推出了一種以每秒60影格或者更快的速度即時處理照片算繪畫面的技術,從效果上看,不管是球體之間的反射,還是球體對光源的反射,都做到了十分逼真的程度:
同時,Bill Dally表示,這其實是在單個NVIDIAGPU上以每個影格60秒的速度算繪的效果。
這要得益於NVIDIA在圖形領域方面的持續貢獻,首當其衝的就是RTXDI技術,正如上面的照片所展示的:傳統圖形在陰影投射上表現不夠令人滿意,但是透過RTXDI,每個光源都會將其光線投射到其相鄰的表面上,這才是逼真陰影效果的奧秘,即光線和物體之間的關係,
其次,在間接照明上,RTXDI使用光探測器將光線從一個表面投射到另一個表面,就能看到一個表面將點亮另一個表面,第二個表面將點亮第三個表面,如此循環。
- 本文授權轉載自大數據文摘