TensorRT-LLM能夠支援多種大型語言模型,並在新世代軟硬體整合的助力下,最高可帶來8倍AI推論效能。
TensorRT-LLM能夠支援多種大型語言模型,並在新世代軟硬體整合的助力下,最高可帶來8倍AI推論效能。
軟硬體雙管齊下
NVIDIA預測大型語言模型(Large Language Model,以下簡稱LLM)的應用將沿伸至各行各業,其技術發展也相當快速,不過隨著模型的量體持續擴大,AI模型的部署也變的更加複雜,且需花費更多運算資源進行推論。
為了改善這個狀況,NVIDIA推出TensorRT-LLM運算框架,它具有高度最佳化與開源等特性,並支援GPT-3、Llama、Flacon 180B、BLOOM等LLM,以及SmoothQuant、FlashAttention、fMHA等AI核心(AI Kernel)。
此外TensorRT-LLM也支援多GPU、多結點運算,並導入能夠最佳化工作排程的In-Flight Batching技術,還能透過Transformer引擎自動將模型轉換為FP8資料格式,都對效能表現有所幫助。
雖然說上述效能數據所使用的GPU屬於不同世代產品,但看到。H100 GPU搭配TensorRT-LLM與單純使用H100,也能帶來約略1倍的效能增益,可見其軟體最佳化還是能帶來長足效能進步。
加入電腦王Facebook粉絲團