你手上的GPU能跑Llama 2等大模型嗎？用這個開源的專案測測看

你的 GPU 記憶體夠用嗎？這裡有一個開源的專案，可以提前幫你查看。 B4294224a9ad8abba662403ff62498ca

在算力為王的時代，你的 GPU 可以順暢的運行大模型（LLM）嗎？

對於這一問題，很多人都難以給出確切的回答，不知該如何計算 GPU 記憶體。因為查看 GPU 可以處理哪些 LLM 並不像查看模型大小那麼容易，在推理期間（KV 快取）模型會佔用大量記憶體，例如，llama-2-7b 的序列長度為 1000，需要 1GB 的額外記憶體。不僅如此，模型在訓練期間，KV 快取、啟動和量化都會佔用大量記憶體。

我們不禁要問，能不能提前瞭解上述記憶體的佔用情況。近幾日，GitHub 上新出現了一個專案，可以幫你計算在訓練或推理 LLM 的過程中需要多少 GPU 記憶體，不僅如此，借助該專案，你還能知道詳細的記憶體分布情況、評估採用什麼的量化方法、處理的最大上下文長度等問題，進而幫助使用者選擇適合自己的 GPU 配置。

延伸閱讀：將330億參數大模型「塞進」單個消費級GPU，加速15%、性能不減

▲ 專案連結：https://github.com/RahulSChand/gpu_poor

不僅如此，這個專案還是可互動的，如下所示，它能計算出運行 LLM 所需的 GPU 記憶體，簡單的就像填空題一樣，使用者只需輸入一些必要的參數，最後點一下藍色的按鈕，答案就出來了。

▲ 互動網頁連結：https://rahulschand.github.io/gpu_poor/

最終的輸出形式是這樣子的：

{  "Total": 4000,
"KV Cache": 1000,
"Model Size": 2000,
"Activation Memory": 500,
"Grad & Optimizer memory": 0,
"cuda + other overhead":  500}

至於為什麼要做這個專案，作者 Rahul Shiv Chand 表示，有以下原因：

在 GPU 上運行 LLM 時，應該採用什麼的量化方法來適應模型；
GPU 可以處理的最大上下文長度是多少；
什麼樣的微調方法比較適合自己？Full? LoRA? 還是 QLoRA?
微調期間，可以使用的最大 batch 是多少；
到底是哪項任務在消耗 GPU 記憶體，該如何調整，進而讓 LLM 適應 GPU。

延伸閱讀：Intel快速進入AI PC時代！13代Core支援160億參數大模型、Arc顯示卡速度提升54％

那麼，該如何使用呢？

首先是對模型名稱、ID 以及模型尺寸的處理。你可以輸入 Huggingface 上的模型 ID（例如 meta-llama/Llama-2-7b）。目前，該專案已經寫死並保存了 Huggingface 上下載次數最多的 top 3000 LLM 的模型配置。

如果你使用自訂模型或 Hugginface ID 不可用，這時你需要上傳 json 配置（參考專案示例）或僅輸入模型大小（例如 llama-2-7b 為 70 億）就可以了。

接著是量化，目前該專案支援 bitsandbytes (bnb) int8/int4 以及 GGML（QK_8、QK_6、QK_5、QK_4、QK_2）。後者僅用於推理，而 bnb int8/int4 可用於訓練和推理。

最後是推理和訓練，在推理過程中，使用 HuggingFace 實現或用 vLLM、GGML 方法找到用於推理的 vRAM；在訓練過程中，找到 vRAM 進行全模型微調或使用 LoRA（目前專案已經為 LoRA 配置寫死 r=8）、QLoRA 進行微調。

不過，專案作者表示，最終結果可能會有所不同，具體取決於使用者模型、輸入的資料、CUDA 版本以及量化工具等。實驗中，作者試著把這些因素都考慮在內，並確保最終結果在 500MB 以內。下表是作者交叉檢查了網站提供的 3b、7b 和 13b 模型佔用記憶體與作者在 RTX 4090 和 2060 GPU 上獲得的記憶體比較結果。所有值均在 500MB 以內。

你手上的GPU能跑Llama 2等大模型嗎？用這個開源的專案測測看

感興趣的人可以親自體驗一下，假如給定的結果不準確，專案作者表示，會對專案進行及時最佳化，完善專案。

延伸閱讀：微軟、谷歌、亞馬遜的大模型的雲端戰爭正在互相交火中

加入電腦王Facebook粉絲團

你手上的GPU能跑Llama 2等大模型嗎？用這個開源的專案測測看

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本