NVIDIA創辦人暨執行長黃仁勳於2024年3月18日的GTC主題演講發表了最新的Blackwell GPU,單顆B200 GPU就能帶來高達20PFLOPS的FP4資料類型運算效能,還可搭配NVLink交換器晶片組織由36顆CPU、72顆GPU構成的機櫃。
新世代AI運算晶片降臨
B200 GPU(繪圖處理器)採用Blackwell架構,晶片由2組封裝在一起的GPU Die(裸晶)與192GB HMB3e高頻寬記憶體所組成,為現今H100、GH200等Hooper架構GPU的接續產品,具有最高達30備的運算效能與25倍電力效率提升,與當代運算節點能夠帶來更強悍的效能表現,並在達成相同運算量的前提下大幅節省消耗的電力。
此外NVIDIA也發表了資料吞吐量提升1.8倍的NVLink交換器晶片,能夠在每條NVLink匯流排帶來雙向1.8 TB/s的資料傳輸速度,並可組織最多達576組GPU的運算節點,並且如DPU(資料處理器),每組夠提供提供3.6 TFLOPS的SHARP V4運算效能,將部分負載由CPU(處理器)或GPU轉移至DPU,釋放更多運算資源。
為了提升網路擴充性,NVIDIA也出了最高速度可達800 Gb/s的Quantum-X800 InfiniBand與Spectrum-X800乙太網路平台,以及GB200 NVL72的伺服器。
GB200 NVL72顧名思義由18組1U尺寸水冷伺服器構成,每台伺服器搭載2組GB200 Superchip(全機共有36組Grace架構CPU與72組Blackwell架構GPU),總體AI訓練效能可達720 FLOPS,AI推論效能則上看1,440 FLOPS,同時也搭載BlueField-3 DPF(資料處理器),可加速超大規模AI雲端運算與儲存、資安應用彈性。
與數量相同的前代H100 GPU相比,GB200 NVL72提供高達30倍的大型語言模型推論工作負載效能(使用混合專家模型,Mixture-of-Experts Model),並且提升25倍電力效率。
此外NVIDIA也發表了專為Transformer、大型語言模型和生成式AI等負載而設計的DRIVE Thor車載運算平台,採用Arm Neoverse V3AE CPU核心搭配Blackwell架構GPU,提供高達1,000 TFLOPS的效能,以確保自駕車的安全。
軟體功能撮合Omniverse與Apple Vision Pro
NVIDIA也將推出Omniverse Cloud API(應用程式介面),讓開發人員能將 Omniverse核心技術整合至現有的數位孿生設計和自動化軟體、測試和驗證機器人或自動駕駛汽車等自主機器的模擬工作流程等應用,並且可搭配Apple Vision Pro頭戴式顯示器。
針對人型機器人應用,NVIDIA也發表了以Thor SoC為基礎的Jetson Thor電腦與Isaac機器人平台的最新版本,提供用於模擬的生成式AI基礎模型和工具及AI工作流程基礎架構,並透過GR00T計劃(Generalist Robot 00 Technology,通用型機器人技術)加速機器人理解自然語言,並透過觀察人類行為來模仿動作。
NVIDIA也於GTC大會宣布,TSMC(台積電)和Synopsys將利用cuLitho運算微影平台(Computational Lithography)投入生產,加速製造並突破物理極限的先進半導體製程,並實現以350組H100 GPU的系統取代40,000組CPU的系統,在加快生產流程的同時降低成本、空間和電力。
GTC 2024春季展將於3月18至21日期間舉行,筆者將會持續帶來更多、更詳細相關新聞與報導,有興趣的讀者也可以參考GTC官方網站,瞭解更多線上與實體活動。
加入電腦王Facebook粉絲團