Quantcast
Channel: 電腦王
Viewing all articles
Browse latest Browse all 5918

NVIDIA公布H200 MLPerf測試成績,表現較H100提高45%

$
0
0
NVIDIA公布H200 GPU於MLPerf LLM測試成績,在Llama 2 70B項目的表現較H100提高45%,同時也說明TensorRT-LLM軟體更新能夠帶來近3倍的效能表現。D8227c1404e4364c355d35dff11c3c55

NVIDIA公布H200 GPU於MLPerf LLM測試成績,在Llama 2 70B項目的表現較H100提高45%,同時也說明TensorRT-LLM軟體更新能夠帶來近3倍的效能表現。

軟硬體雙管齊下強化效能

NVIDIA在MLPerf H200首次基準測試說明會中,先說明了在短短六個月中透過即時連續批次處理(In-Flight Sequence Batching)、KV快取記憶體管理與分頁最佳化、XQA核心最佳化、多GPU節點平行化、FP8資料類型量化等TensorRT-LLM軟體功能更新,讓H100 GPU(繪圖處理器)在MLPerf推論的GPT-J測試項目中,能夠帶來2.9倍的效能表現。

而在重頭戲LLM(大型語言模型)測試中,身為進階版的H200將記憶體由H100的80GB HBM3高頻寬記憶體提升為141GB HBM3e,不但容量有所增加,頻寬也由3.35 TB/s提升為4.8 TB/s,能夠帶來約45%的效能增益。

NVIDIA也提到,若使用強化散熱能力的客製化MGX伺服器,能夠進一步提高GPU的TDP限制,能帶來最高14%的效能增益。

 

隨著LLM(大型語言模型)的量體越來越大,推論運算難度與複雜度也隨之提高。

TensorRT-LLM在近期版本更新中加入許多能夠改善效能的新功能。

回顧TensorRT-LLM的更新,陸續加入許多重要功能。

在MLPerf推論的GPT-J測試項目中,新版TensorRT-LLM能在伺服器情境帶來2.9倍的效能表現。

H200 GPU搭載容量更大、頻寬更高的HBM3e高頻寬記憶體,能夠帶來約45%的效能增益。

客製化散熱方案MGX伺服器能夠額外帶來最高14%的效能增益。

NVIDIA也自豪地表示自家仍上傳了所有MLPerf測試成績。

H200預計於2024年第二季開始出貨,由於它與H100的TDP規格相同,因此在使用官方建議設計的H100 HGX伺服器能夠直接更換為H200(Drop-in Replace),節省升級開支。

加入電腦王Facebook粉絲團

Viewing all articles
Browse latest Browse all 5918

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>