透過與Arm伺服器處理器設計商Ampere Computing新建立的合作夥伴關係,Qualcomm正在慢慢確立自己作為AI基礎設施新創企業的最佳朋友。
在周四Ampere的年度戰略和規畫藍圖更新期間宣布,這兩家公司承諾推出一台2U的機器,其中包括8個用於執行機器學習推理的Qualcomm AI 100 Ultra加速器和192個Ampere CPU核心。「在一個典型的12.5kW機架中,這相當於擁有多達56個AI加速器和1344個計算核心,同時不需要昂貴的液體冷卻。」Ampere興奮地說道。
Ampere及其合作夥伴Oracle竭盡全力證明,在適當設定期望值的前提下,在CPU上運行許多流行聊天機器人背後的大型語言模型(LLM)是完全可能的。之前已經詳細探討了這個概念了,簡而言之,受限於記憶體頻寬,CPU通常最適合運行介於70億到80億參數大小的較小模型,而且通常只能在較小的批次規模下運行,即同時處理的用戶數量較少。
這就是Qualcomm的AI 100加速器的用武之地,因為它們更高的記憶體頻寬允許它們處理更大模型或更高批次規模的推理。請記住,推理涉及到在整個模型上運行操作;如果你的LLM是4GB、8GB或32GB大小,那意味著每次你想從一個提示中生成句子的下一部分或一段原始碼時,都需要反覆處理大量的數字。
為什麼選擇Qualcomm?
當談到用於資料中心的AI晶片時,Qualcomm的名字並不經常出現。
談到AI晶片時,大多數的焦點都集中在GPU巨頭Nvidia身上,剩餘的注意力則被Intel的Gaudi和AMD的Instinct產品線所分散。相反,Qualcomm獲得的大部分關注都集中在其AI智慧型手機和AI筆電戰略上。
然而,這並不是說Qualcomm在資料中心沒有立足點。事實上,其AI 100系列加速器已經存在多年,最新的Ultra系列產品就在去年秋季首次亮相。
這款加速器是一款纖薄的單插槽PCIe卡,目的是對大型語言模型進行推理。與AMD和Nvidia經常成為頭條新聞的600W和700W怪物相比,這張卡只要150W功耗相比之下相當溫和。
儘管其外形小巧,功耗相對較低,但Qualcomm聲稱,單個AI 100 Ultra能夠運行1000億個參數的模型,而兩個AI 100 Ultra可以結合起來支援GPT-3規模的模型(1750億個參數)。
就推理性能而言,這款64核心的卡在INT8精度下可達到870 TOPS,並由128GB的LPDDR4x記憶體提供支援,可提供548GB/s的頻寬。
記憶體頻寬是將AI推理擴展到更大批次規模的一個主要因素。
生成第一個token,在聊天機器人中我們體驗到的是在提交提示並出現響應的第一個詞之間的延遲,通常是計算受限的。然而,除此之外,隨後生成的每個字往往都受記憶體約束。
這部分解釋了為什麼像AMD和Nvidia這樣的GPU供應商一直在轉向更大庫的更快的HBM3和HBM3e記憶體。這兩個矽晶製造商的最新晶片的記憶體頻寬超過5TB/s,大約是Qualcomm產品的10倍。
為了克服這些限制,Qualcomm在軟體最佳化方面下了很大功夫,採用了諸如推測解碼和微縮放格式(MX)等技術。
推測解碼是使用一個小的、輕量級的模型來產生初始回應,然後使用一個更大的模型來檢查和糾正其準確性。理論上,這種組合可以提高AI應用的吞吐量和效率。
同時,MX6和MX4等格式的目的是減少模型的記憶體佔用。從技術上講,這些格式是一種量化形式,將模型權重壓縮到較低的精度,進而減少所需的記憶體容量和頻寬。
Qualcomm聲稱,透過結合MX6和推測解碼,這些技術可以比FP16基準實現四倍的吞吐量提升。
對於Ampere來說,Qualcomm提供了一種替代Nvidia GPU的選擇,Nvidia GPU已經可以與其CPU一起工作,用於更大規模的AI推理。
人工智慧新創公司加大對高通加速器的使用
Ampere並不是唯一一家與Qualcomm合作解決AI推理問題的公司。這個拼圖還缺少一塊未被解決的部分:訓練。
另一家Ampere AI Platform Alliance的成員,Waferscale AI新創公司Cerebras,在3月份與Qualcomm宣布合作,同時推出了其WSE-3晶片和CS-3系統。
Cerebras在AI基礎設施供應商中是獨一無二的,原因有很多,最明顯的是他們的晶片的大小確實像盤子一樣大,現在每個晶片都有90萬個核心和44GB的SRAM,對,這個數字沒有打錯。
儘管Cerebra的晶圓級晶片相當驚人,但它們是為訓練模型而設計的,而不是為了運行它們。推理是一個遠不如訓練那麼依賴供應商的工作。這意味著在Cerebra的CS-2或3集群上訓練的模型可以在任何數量的加速器上部署,只需最少的調整。
與Qualcomm的不同之處在於,兩家公司正在進行生態系統的合作。Cerebras正在努力訓練更小、更準確、性能更好的模型,這些模型可以充分利用Qualcomm在推測解碼、稀疏推理和MX量化的軟體最佳化。
建立生態系統
有趣的是,Qualcomm並沒有被列為AI Platform Alliance的成員,至少目前還沒有。話雖如此,鑑於Qualcomm的AI 100 Ultra加速器已經上市,這可能只是個權宜之計,等待該聯盟中的其他較小玩家趕上來。
在這方面,AI Platform Alliance有許多成員正在研究處於不同商業化階段的推理加速器。其中一個更有趣的公司是Furiosa——沒錯,這個名字確實是在致敬《瘋狂麥斯》。如果還有任何疑問的話,那麼還可以告訴你,這家晶片新創公司甚至還有一款代號為Warboy的電腦視覺加速器。
Furiosa的第二代加速器代號為RNGD(發音為Renegade,因為在後AI時代,誰還需要母音呢?)採用台積電5nm製程製造,擁有高達512 teraFLOPS的8位性能或1024 TOPS的INT4性能。因此,對於可以利用較低4位精度的任務負載,這款150W的晶片比Qualcomm的AI 100有一些優勢。
該晶片的真正優勢是48GB的HBM3記憶體,雖然容量比Qualcomm的零件低,但擁有近三倍的頻寬,達到1.5TB/s。
我們何時能在實際應用中看到RNGD還有待觀察。然而,AI Platform Alliance的關鍵點似乎是讓各個新創公司能夠專注於解決AI領域中他們最擅長的部分,並依靠其他公司來解決其餘部分,無論是透過直接合作還是標準化。
這樣看來,Qualcomm似乎在這條路上結交了一些新朋友。
填補空白
由於Arm v9指令集體系結構帶來的架構改進,Ampere對Qualcomm在大批量下處理更大模型的依賴可能是短暫的。
正如之前報導的那樣,CPU供應商為其Ampere One系列處理器開發的客製核心同時利用了舊的v8和新的v9架構的元素。據了解,v9-A規範引入了可擴展矩陣擴展2(SME2)支援,旨在加速機器學習工作負載中常見的矩陣數學運算。然而,目前Ampere目前的晶片正在使用其雙128位向量單元處理AI推理任務。
有理由相信,Ampere和其他公司未來相容Arm的晶片都可以會利用SME2。事實上,在客戶端方面,Apple新的M4 SoC與Armv9相容,並在其核心內建了SME2加速。
Qualcomm實際上是首批採用Armv9的公司之一,在其一些Snapdragon系統級晶片中使用了Armv9。然而,然而,當使用其從Nuvia收購的CPU設計時,這家晶片公司似乎正在回歸到Arm v8,幾乎可以肯定,這一決定已經成為與Arm的一個爭議點。雖然Arm希望其客戶選擇具有SME2的v9來進行基於CPU的AI推理,但Qualcomm卻堅持認為v8搭配將推理從CPU卸載到另一個處理單元的方式也很好。
在資料中心領域,無論是Arm v9還是SME2,記憶體頻寬仍將是一個瓶頸。引入更快的MCR(Multiplexer Combined Ranks)DIMM應該會有所幫助,12通道平台能夠達到825GB/秒的頻寬。
正如我們從Intel的Xeon 6展示中看到的那樣,這種頻寬提升應該可以允許高達700億個參數的模型在單個CPU上以4位精度合理運行。
- 延伸閱讀:NVIDIA最強AI晶片Blackwell B200晶片效能太驚人,摩爾定律已經被「黃氏定律」取代
- 延伸閱讀:NVIDIA的「世界上最強大AI晶片」Blackwell B200 GPU 強在哪裡?
- 延伸閱讀:Intel Gaudi 3 人工智慧加速晶片測試性能比NVIDIA的 H100 快 50%
資料來源:
加入電腦王Facebook粉絲團