GTC 24：NVIDIA Blackwell AI運算平台架構解析，將72組GB200組成超大型GPU

NVIDIA在GTC 2024春季場發表Blackwell平台，透過全新NVLink交換器晶片串連36組Grace CPU與72組GB200 GPU，在單一機櫃就可提供1.44 EFPLOS運算效能。Image may be NSFW.
Clik here to view. 887cbab4b7904c21e6a5558d9e5f7fbd

NVIDIA在GTC 2024春季場發表Blackwell平台，透過全新NVLink交換器晶片串連36組Grace CPU與72組GB200 GPU，在單一機櫃就可提供1.44 EFPLOS運算效能。

雙裸晶封裝協同出擊

Blackwell GPU架構打頭陣的產品是GB200 Superchip，它整合了1組Grace CPU（中央處理器）與2組B200 GPU（繪圖處理器），具有20 TFLPOS FP8資料類型運算效能，若使用新的FP4資料類型則可將運能算效提升到40 TFLPOS，是前代Hopper GPU的5倍之譜。

延伸閱讀：NVIDIA於GTC 2024春季場發表Blackwell GPU與NVLink交換器晶片，單顆GPU效能高達20PFLOPS

Blackwell架構的命名源自紀念研究賽局理論和統計學的數學家David Harold Blackwell，也是第1位入選美國國家科學院的黑人學者。

B200可以說是目前世界上最強大的晶片之一，採用TSMC（台積電）4NP製程節點，並將2組裸晶（Die）封裝為單一晶片，總共具有高達2,080億個電晶體，藉由頻寬高達10 TB/s的互連匯流排連接成單個、統一GPU，共享總量達192GB的HMB3e高頻寬記憶體，足以執行10兆個參數的大型模型。

Blackwell搭載第2代Transformer引擎，透過新的微張量擴展（Micro-Tensor Scaling）與整合至TensorRT-LLM和NeMo Megatron運算框架的先進動態範圍管理演算法，以支援FP4資料類型的運算，除了能夠讓運算效能加倍之外，也能節省記憶體用量，以容納量體更大的AI模型。

Blackwell採用第5代NVLink，具有高達1.8TB/s的雙向資料吞吐量，並且最多可以串接576組Blackwell GPU，提供無縫高速資料傳輸的能力，有利加速參數數量高達1兆的模型以及混合專家（Mixture-of-Experts）AI模型的運算效能。此外Blackwell也內建處理能力達800GB/s的解壓縮引擎，有助於提高資料吞吐量並節省傳輸時的頻寬，確保資料分析和資料科學的最高效能。

在安全性方面，Blackwell整合RAS引擎，藉由晶片級的功能利用以AI為基礎的預防性維護診斷和預測可靠性問題，能夠最大化系統正常運行時間，並增強大規模AI部署的彈性，使其連續數週甚至數月不間斷地運行，以利降低運營成本。Blackwell也並支援新的本機介面加密協定，能夠在不影響效能的情況下保護機密運AI模型和客戶資料，對於醫療保健和金融服務等隱私敏感產業至關重要。

Image may be NSFW.
Clik here to view. NVIDIA創辦人暨執行長黃仁勳於2024年3月18日的GTC主題演講中展示Blackwell GPU（圖左。由於背景為全黑所以讓照片看起來有不自然，但這個老黃是真人，並不是AI生成的）。 ▲ NVIDIA創辦人暨執行長黃仁勳於2024年3月18日的GTC主題演講中展示Blackwell GPU（圖左。由於背景為全黑所以讓照片看起來有不自然，但這個老黃是真人，並不是AI生成的）。

Image may be NSFW.
Clik here to view. Blackwell GPU與GB200 Superchip的實體。 ▲ Blackwell GPU與GB200 Superchip的實體。

Image may be NSFW.
Clik here to view. Blackwell GPU採用TSMC（台積電）4NP製程節點，單一裸晶具有1,040億個電晶體。 ▲ Blackwell GPU採用TSMC（台積電）4NP製程節點，單一裸晶具有1,040億個電晶體。

Image may be NSFW.
Clik here to view. Blackwell搭載第2代Transformer引擎、第5代NVLink，整合RAS引擎、本機介面加密協定，並內建解壓縮引擎。 ▲ Blackwell搭載第2代Transformer引擎、第5代NVLink，整合RAS引擎、本機介面加密協定，並內建解壓縮引擎。

Image may be NSFW.
Clik here to view. GB200 Superchip，在FP4資料類型的運算能效高達40 TFLPOS，是前代Hopper GPU的5倍之譜。 ▲ GB200 Superchip，在FP4資料類型的運算能效高達40 TFLPOS，是前代Hopper GPU的5倍之譜。

Image may be NSFW.
Clik here to view. 透過硬體升級與資料類型最佳化等方式，NVIDIA在8年之內將AI運算效能提高1000倍。 ▲ 透過硬體升級與資料類型最佳化等方式，NVIDIA在8年之內將AI運算效能提高1000倍。

進入Exa級效能時代

DGX GB200 NVL72系統由18組GB200 Superchip運算節點（包含2組GB200 Superchip）構成，全機總共包括36組Grace CPU與72組B200 GPU，並透過第5代NVLink互連技術連接為單一大型GPU，採用新型高效水冷機架，可在FP4 資料類型提供1.44 EFPLOS的FP4資料類型運算效能，達到Exa數量級的程度。

與由H100相比，GB200 Superchip在大型語言模型推論工作負載具有30倍的效能提升，若有更高的運算需求，還可透過擴展額外機架將8組或更多DGX GB200 NVL72系統串接為DGX SuperPOD超級電腦，提供總共高達240 TB的記憶體容量（包含Grace CPU的LPDDR5x以及B200 GPU的HBM3e），足以滿足超大量體AI模型訓練與推論的需求。

Image may be NSFW.
Clik here to view. DGX GB200 NVL72除了仰賴GB200 Superchip之外，負責資料交換工作的NVLink交換器晶片也功不可沒。它同樣採用TSMC 4NP製程節點，能在每條NVLink匯流排帶來雙向1.8 TB/s的資料傳輸速度，並可組織最多達576組GPU的運算節點，並且如DPU（資料處理器）一般，提供3.6 TFLOPS的SHARP V4運算效能。 ▲ DGX GB200 NVL72除了仰賴GB200 Superchip之外，負責資料交換工作的NVLink交換器晶片也功不可沒。它同樣採用TSMC 4NP製程節點，能在每條NVLink匯流排帶來雙向1.8 TB/s的資料傳輸速度，並可組織最多達576組GPU的運算節點，並且如DPU（資料處理器）一般，提供3.6 TFLOPS的SHARP V4運算效能。

Image may be NSFW.
Clik here to view. DGX GB200 NVL72系統由18組GB200 Superchip運算節點與9組NVLink交換器構成。 ▲ DGX GB200 NVL72系統由18組GB200 Superchip運算節點與9組NVLink交換器構成。

Image may be NSFW.
Clik here to view. DGX GB200 NVL72系統可以視為單顆大型GPU，可提供1.44 EFLOPS的FP4資料類型運算效能。 ▲ DGX GB200 NVL72系統可以視為單顆大型GPU，可提供1.44 EFLOPS的FP4資料類型運算效能。

Image may be NSFW.
Clik here to view. 使用8,000組上代Hopper GPU組成的系統訓練GPT Mixture-of-Experts 1.8T模型需時90天並消耗15百萬瓦電力。 ▲ 使用8,000組上代Hopper GPU組成的系統訓練GPT Mixture-of-Experts 1.8T模型需時90天並消耗15百萬瓦電力。

▲ 使用2,000組Blackwell GPU組成的系統就能在相同時間完成訓練，且消耗電力下降至4百萬瓦。

Image may be NSFW.
Clik here to view. Blackwell GPU在AI推論的效能表現最高可達Hopper GPU的30倍。 ▲ Blackwell GPU在AI推論的效能表現最高可達Hopper GPU的30倍。

黃仁勳表示，DGX AI超級電腦是AI工業革命的工廠，全新的DGX SuperPOD結合NVIDIA最先進的加速運算、網路和軟體，協助公司、產業和國家完善和生成子有的人工智慧。

加入電腦王Facebook粉絲團

GTC 24：NVIDIA Blackwell AI運算平台架構解析，將72組GB200組成超大型GPU

雙裸晶封裝協同出擊

進入Exa級效能時代

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本