Quantcast
Channel: 電腦王
Viewing all articles
Browse latest Browse all 5922

GTC 24:Blackwell架構詳解!看懂B100、B200、GB200、GB200 NVL72成員的糾結瓜葛

$
0
0
身為目前最強的AI加速運算單元,Blackwell GPU不但具有強悍的效能,還可透過串接多組GPU方式構建「超大型GPU」,帶來更高的總體效能與吞吐量。Fa0e913a09b8ada4e1250e52d24e1b91

身為目前最強的AI加速運算單元,Blackwell GPU不但具有強悍的效能,還可透過串接多組GPU方式構建「超大型GPU」,帶來更高的總體效能與吞吐量。

不同散熱與介面組態

NVIDIA推出了多種Blackwell GPU組態,包含整合8組GPU的HGX形式超級電腦,以及整合2組GPU搭配1組Grace CPU的GB200運算節點,而它們又可以彼此串連成為更大型的運算叢集。

NVIDIA在GTC大會上主要推廣的型號為整合2組Blackwell GPU與1組Grace CPU的GB200 Superchip,NVIDIA推出的GB200 Superchip運算節點(Compute Node)則是將2組GB200 Superchip安置於1U高度的伺服器,並採用水冷散熱方案,能讓單組GB200 Superchip的TDP達到2700W,完全解放效能表現。

此外NVIDIA也會推出採用SXG介面的B200與B100等GPU,且都能夠以8組GPU組成HGX B200或HGX B100伺服器,2者主要的差異在於B200的TDP最高可達1000W,而B100僅為800W。

NVIDIA超大規模與高效能運算副總裁暨總經理Ian Buck也在媒體訪談中補充說明,若將B200安置於伺服器並搭配水冷散熱方案,則可將TDP上調至1200W,進一步提高運算效能。

另一方面,在散熱與供電許可的範圍下,B200與B100 GPU能夠直接與現有H100 HGX或相容伺服器進行GPU替換(Drop-in Replace),提供更大的升級彈性並節省升級費用。

(若下方表格無法完整顯示,請點選我看圖片版

GB200 Superchip規格表
規格GB200 Superchip
組態Grace CPU + 2 Blackwell GPU
FP4 Tensor Core稠密/稀疏運算效能20 / 40 PFLOPS
FP8/FP6 Tensor Core稠密/稀疏運算效能10 / 20 PFLOPS
INT8 Tensor Core稠密/稀疏運算效能10 / 20 PFLOPS
FP16/BF16 Tensor Core稠密/稀疏運算效能5 / 10 PFLOPS
FP32 Tensor Core稠密/稀疏運算效能2.5 / 5 PFLOPS
FP64 Tensor Core稠密運算效能90 TFLOPS (0.09PFLOPS)
HBM記憶體架構HBM3e 8x2-sites
HBM記憶體容量最大384 GB
HBM記憶體頻寬最高16 TB/s
處理器組態72x Arm Neoverse V2核心
處理器L1快取記憶體每核心64KB i-cache + 64KB d-cache
處理器L2快取記憶體每核心1MB
處理器L3快取記憶體114MB
LPDDR5X記憶體容量最大480 GB
LPDDR5X記憶體頻寬最高512 GB/s
解壓縮引擎
影像解碼器2x 7 NVDEC、2x 7 NVJPEG
Multi-Instance GPU(MIG)執行個體2x 7
尺寸型式(Form factor)Superchip模組
NVLink版本NVLink v5
NVLink頻寬(雙向)2x 1.8 TB/s
PCIe Gen 6頻寬(雙向)2x 256 GB/s
TDP最高2700W
伺服器組態NVIDIA GB200 NVL72最高可達576 GPUs

 (若下方表格無法完整顯示,請點選我看圖片版

NVIDIA Blackwell HGX規格表
規格HGX B200HGX B100
組態8x Blackwell GPU 
FP4 Tensor Cor運算效能144 PFLOPS112 PFLOPS
FP8/FP6/INT8 Tensor Core運算效能72 PFLOPS56 PFLOPS
高速記憶體容量最大1.5 TB
聚合記憶體頻寬最高64 TB/s
聚合NVLink頻寬14.4 TB/s
單一GPU規格
TDP最高1000W最高800W
FP4 Tensor Cor運算效能18 PFLOPS14 PFLOPS
FP8/FP6/INT8 Tensor Core運算效能9 PFLOPS7 PFLOPS
FP16/BF16 Tensor Core運算效能4.5 PFLOPS3.5 PFLOPS
FP32 Tensor Cor運算效能2.2 PFLOPS1.8 PFLOPS
FP64 Tensor Cor運算效能40 TFLOPS30 TFLOPS
GPU記憶體組態HBM3e
GPU記憶體頻寬最高8 TB/s
互連介面NVLink(1.8 TB/s)、PCIe Gen6(256 GB/s)
伺服器組態8 GPU(NVIDIA HGX B100 夥伴與
NVIDIA認證系統)
8 GPU(NVIDIA HGX B200 夥伴與
NVIDIA認證系統)

Blackwell GPU的實體圖片,更多詳細介紹可看筆者的前篇報導。

GB200 Superchip整合2組Blackwell GPU與1組Grace CPU。

GB200 Superchip的實體圖片,上方為2組Blackwell GPU,中央則為Grace CPU與LPDDR5x記憶體。

每組Blackwell GPU內建容量為384 GB的HBM3e高頻寬記憶體。

Grace CPU則在外部配置最大480 GB LPDDR5X記憶體。

GB200 Superchip運算節點整合2組GB200 Superchip,搭配水冷散熱方案,安置於1U高度的伺服器。(左方為去除水冷頭的情況)

此外客戶也可以選則整合8組SXG介面Blackwell GPU的HGX B200或HGX B100伺服器。

透過高速互連頻寬組成超大GPU

Blackwell GPU的另一大創新功能,就是能夠透過NVLink串聯最多576組Blackwell GPU,讓整個叢集猶如組成單一超大GPU,達到擴大運算效能、共享記憶體、執行規模更大模型的能力。

而NVIDIA也推出了GB200 NVL72伺服器,它的機櫃(Rack)具有18組GB200 Superchip運算節點以及9組NVLink交換器(每組交換器具有2組NVLink交換器晶片所),能在由72組GPU組成的NVL72網域叢集中,以130 TB/s的頻寬交換資料。而跨多台機櫃的GPU資料則會透過InfiniBand網路傳輸。

相對於Blackwell GPU晶片內部的2組裸晶透過頻寬高達10 TB/s的NV-HBI(NVIDIA High-Bandwidth Interface)晶片對晶片互連(Chip-to-Chip Interconnection)相連,多顆GPU之間則是透過第5代NVLink相連。它採用18通道(Link)的高速差分訊號對(High-Speed Differential Pair),能夠提供總共高達1.8 TB/s的雙向頻寬(即單向為900 GB/s),最高能支援576組GPU相連,遠高於前代的256組GPU。

第5代NVLink的頻遠遠高出PCIe Gen 5x16的14倍,其1小時的雙向傳輸量總合約為6.32 PB,大約等同於18年4K電影串流的資料量,或是11組Blackwell GPU之間的傳數量總合就與整個網際網路相當,對於執行大型AI模型的效能表現扮演重要角色。

(若下方表格無法完整顯示,請點選我看圖片版

NVIDIA GB200 NVL72規格表
規格NVIDIA GB200 NVL72
組態36x GB200 Superchip
FP4 Tensor Core稠密/稀疏運算效能720 / 1440 PFLOPS
FP8/FP6 Tensor Core稠密/稀疏運算效能360 / 720 PFLOPS
INT8 Tensor Core稠密/稀疏運算效能360 / 720 PFLOPS
HBM記憶體架構HBM3e
HBM記憶體容量最大13.5 TB
HBM記憶體頻寬最高576 TB/s
處理器組態2592x Arm Neoverse V2核心
高速記憶體容量最大30 TB
NVLink交換器7x
NVLink頻寬(雙向)130 TB/s

NVLink交換器晶片能夠串聯最多576組Blackwell GPU組成單一超大GPU,達到擴大運算效能、共享記憶體、執行規模更大模型的能力。

NVLink交換器由2組NVLink交換器晶片構成,並提供144組NVLink端子,無阻塞交換劉量答14.4 TB/s,為GB200 NVL72系統提供高頻寬和低延遲資料交換能力。

GB200 NVL72機櫃具有18組GB200 Superchip運算節點,總共包含72組Blackwell GPU與36組Grace CPU。

GB200 NVL72機櫃背面則有稱為NVLink Spine(NVLink脊椎)的資料連接纜線,GPU串聯在一起。

NVIDIA不但透過CUDA確立了AI運算軟體與框架的領先優勢,隨著Blackwell架構推出的第5代NVLink也支援串聯更多GPU,進而提供更龐大的運算能力以及記憶體總容量,讓競爭對手望塵莫及。

回到GTC 2024春季場系列報導目錄

加入電腦王Facebook粉絲團

Viewing all articles
Browse latest Browse all 5922

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>