NVIDIA在2024年3月18日的GTC主題演講發表了最新的Blackwell GPU,單顆B200 GPU就能帶來高達20PFLOPS的FP4資料類型運算效能,還可搭配NVLink交換器晶片組織由36顆CPU、72顆GPU構成的機櫃。
NVIDIA的 H100 AI 晶片使其成為價值數億美元的公司,其價值可能超過 Alphabet 和亞馬遜。儘管競爭對手一直在奮力追趕,但也許 NVIDIA 即將擴大其領先優勢--憑藉新的 Blackwell B200 GPU 和 GB200 超級晶片。
B200 GPU 強在哪裡?
NVIDIA 表示,新的 B200 GPU 擁有 2080 億個電晶體,可提供高達 20petaflops 的 FP4 算力,而 GB200 將兩個 GPU 和一個 Grace CPU 結合在一起,可為 LLM 推理工作負載提供 30 倍的性能,同時還可能大大提高效率。NVIDIA 表示,與 H100 相比,它的成本和能耗"最多可降低 25 倍"。
NVIDIA 聲稱,訓練一個 1.8 兆個參數的模型以前需要 8000 個 Hopper GPU 和 15 兆瓦的電力。如今,NVIDIA 首席執行長表示,2000 個 Blackwell GPU 就能完成這項工作,耗電量僅為 4 兆瓦。
NVIDIA 表示,在具有 1750 億個參數的 GPT-3 LLM 基準測試中,GB200 的性能是 H100 的 7 倍,而 NVIDIA 稱其訓練速度是 H100 的 4 倍。
NVIDIA 介紹說,其中一項關鍵改進是採用了第二代變壓器引擎,通過為每個神經元使用四個位元而不是八個位元,將計算能力、頻寬和模型大小提高了一倍(前面提到的 FP4 的 20 petaflops)。第二個關鍵區別只有在連接大量 GPU 時才會出現:新一代 NVLink 交換機可讓 576 個 GPU 相互連接,雙向頻寬達到每秒 1.8 TB。
這就要求 NVIDIA 打造一個全新的網路交換晶片,其中包含 500 億個電晶體和一些自己的板載計算:NVIDIA 表示,該晶片擁有 3.6 teraflops 的 FP8 處理能力。
NVIDIA 表示,在此之前,由 16 個 GPU 組成的叢集有 60% 的時間用於相互通訊,只有 40% 的時間用於實際計算。
當然,NVIDIA 還指望企業大量購買這些 GPU,並將它們包裝成更大的設計,比如 GB200 NVL72,它將 36 個 CPU 和 72 個 GPU 內建到一個液冷機架中,可實現總計 720 petaflops 的 AI 訓練性能或 1440 petaflops(又稱 1.4exaflops)的推理性能。它內部有近兩英里長的電纜,共有 5000 條獨立電纜。
機架上的每個托盤包含兩個 GB200 晶片或兩個 NVLink 交換機,每個機架有 18 個前者和 9 個後者。NVIDIA 稱,其中一個機架總共可支援 27 兆個參數模型。據傳,GPT-4 的參數模型約為 1.7 兆。
該公司表示,亞馬遜、Google、微軟和甲骨文都已計畫在其雲端服務產品中提供 NVL72 機架,但不清楚它們將購買多少。
當然,NVIDIA 也樂於為公司提供其他解決方案。下面是用於 DGX GB200 的 DGX Superpod,它將八個系統合而為一,總共擁有 288 個 CPU、576 個 GPU、240TB 記憶體和 11.5 exaflops 的 FP4 計算能力。
NVIDIA 稱,其系統可擴充到數萬 GB200 超級晶片,並透過其新型 Quantum-X800 InfiniBand(最多 144 個連接)或 Spectrum-X800 乙太網路(最多 64 個連接)與 800Gbps 網路連線在一起。
我們預計今天不會聽到任何關於新遊戲 GPU 的消息,因為這一消息是在 NVIDIA 的 GPU 技術大會上發表的,而該大會通常幾乎完全專注於 GPU 計算和人工智慧,而不是遊戲。不過,Blackwell GPU 架構很可能也會為未來的 RTX 50 系列桌面顯示卡提供算力。
加入電腦王Facebook粉絲團