NVIDIA顯示卡搭配TensorRT運算框架，Stable Diffusion AI算圖效能在有指定件下飆達近3倍

在搭配TensorRT運算框架針對U-Net運算部分進行最佳化之後，可以顯著提升NVIDIA顯示卡進行Stable Diffusion AI算圖的效能，讓我們一起搶先測試它的效果如何。 6fa6888c34711068114cd6d988237e21

在搭配TensorRT運算框架針對U-Net運算部分進行最佳化之後，可以顯著提升NVIDIA顯示卡進行Stable Diffusion AI算圖的效能，讓我們一起搶先測試它的效果如何。

利用TensorRT強化運算效能

如果讀者想要嘗試TensorRT運算框架的最佳化效果，可以先參考GitHub上stable-diffusion-webui-tensorrt項目的「trt_overhaul」分枝，跟著說明操作就能安裝必要程式、轉換模型，並享有最佳化的效能提升。

延伸閱讀：NVIDIA推出TensorRT-LLM運算框架，最高帶來8倍大型語言模型推論效能

目前Stable Diffusion WebUI所使用的TensorRT運算框架還處於相當早期的開發階段，儘支援U-Net運算部分的最佳化，且輸出圖像解析度僅支援512 x 512、768 x 768，且無法藉由Hires Fix.功能變更輸出圖像解析度。

NVIDIA顯示卡搭配TensorRT運算框架，Stable Diffusion AI算圖效能在有指定件下飆達近3倍

▲讀者可以追蹤該GitHub資訊，以掌握版本更新資訊。

實際動手玩

使用trt_overhaul的整個流程需要先安裝對應的外掛程式，在安裝過程中預先寫好的腳本會自動安裝所需的相依程式。之後使用者需要先將Stable Diffusion的模型（checkpoint或safetensors格式）轉換為ONNX格式模型，接著再次轉換為TensorRT格式。

需要注意的是，轉換為TensorRT格式模型的步驟將花費較長的時間，且需要指定想要轉換的解析度與批次尺寸（Batch Size，同時算圖的數量），並會分別轉檔得到多組專用模型，在圖像生成的時候只能使用匹配的模型，無法混搭使用。

實際的安裝與使用方式請參考下列圖文說明。

▲ 開啟Stable Diffusion WebUI介面後，先至Extensions頁面並選擇Install from URL，在URL欄位輸入「https://github.com/MorkTheOrk/stable-diffusion-webui-tensorrt」，並在Branch欄位輸入「trt_overhaul」，之後按下Install。

▲ 接著到Setting頁面，找到Quicksettings list項目，手動輸入「sd_unet」。

▲ 安裝好後重新啟動Stable Diffusion WebUI並進入TensorRT頁面的Convert to ONNX標籤，然後在Stable Diffusion checkpoint下拉式選單選擇要轉換的模型，並點擊Convert按鈕。

▲ 接著切換到Convert ONNX to TensorRT標籤，選擇模型並指定想要轉換的解析度與批次尺寸，並勾選Use half floats使用半精度浮點數資料格式以提升運算效能，最後點擊Convert按鈕，這個轉換過成可能需要等待很久。（若ONNX模型沒有出現，可以點一下Refresh List按鈕）