AI在做什麼
最近AI(人工智慧)的發展有著爆炸性的成長,如影像辨識、語音辨識、自然語言處理等需求,都可以透過AI處理。而深度學習也是AI技術的其中一環,它是種執行機器學習的技術,能夠將大量數據輸入機器,並透過演算法分析數據,讓機器從中學習判斷或預測事物的能力。
以影像辨識為例,輸入的影像會經過許多稱為「層」的數學運算過程,每「層」運算都能讓系統分析影像的特徵,當第一「層」運算完成後,就會將分析結果傳到下一「層」,如此迭代運算直到最後一「層」。
在運算過成中,系統內的類神精網路(Neural Network)會透過正向傳播演算法(Forward Propagation)學習圖像的特徵與計算權重,並透過反向傳播演算法(Backward Propagation)比對輸入資料與演算誤差,修正錯誤。
在深度學習中,輸入的圖像通常是一組數量龐大的圖庫,並以平行處理方式同時進行大量運算,使用者可以在訓練過程中調校參數,提高訓練的準確度與速度。當訓練完成後,我們就能利用AI進行圖像分類,讓AI自動將圖像分類或是加上標籤(Tag)。這個動作稱為深度學習推論(Deep Learning Inference),是相當重要的效能指標。
Xeon Scalable處理器衝著AI而來
在瞭解了深度學習的概念後,就可以開始看看Intel是如何強化Xeon Scalable處理器的效能,來提升深度學習的效率。
類神精網路運作時的摺積運算基本上就是矩陣相乘,因此能夠以每秒進行的單精度通用矩陣乘法(Single Precision General Matrix Multiply,SGEMM)或通用矩陣乘法(Integer General Matrix Multiply,IGEMM)運算次數,來評估處理器的效能表現。相較於Broadwell世代Xeon處理器,Xeon Platinum 8180能夠帶來2.3倍SGEMM效能,以及3.4倍INT8 IGEMM4效能,有效提升深度學習效率。
此外Xeon Scalable也支援AVX-512指令集,能同時進行2組512 bit融合乘加(Fused-Multiply Add,FMA)運算,吞吐量是AVX、AVX2的2倍,根據Intel內部測試,在同一個處理器上開啟AVX-512,可以帶來1.65倍效能提升。
另一方面,由於深度學習仰賴龐大的資料,所以記憶體存取能力也是效能表現的重要關鍵。每顆Xeon Scalable都支援6通道DDR4記憶體,以及新的網狀架構(Mesh Architecture),在STREAM Triad效能測試中,記憶體頻寬高達211GB/s,此外大容量的快取記憶體也對效能有正面助益。
除了硬體方面,Intel也以開源形式提供了深度神精網路(Deep Neural Networks)運算用的函數庫,方便使用者利用Neon、TensorFlow、Caffe、theano、torch等軟體框架開發AI程式,透過軟體最佳化的方式盡一步提升效能。
雖然我們這種一般使用者不會直接使用Xeon Scalable處理器,但仍可使用許多與AI相關的多雲端服務,因此還是能間接享受Xeon Scalable的強悍效能。
加入電腦王Facebook粉絲團