Intel於11月7日在台北舉辦今年度亞太暨日本區唯一的實體系列活動Intel Innovation Taipei 2023科技論壇,並於「透過Intel Gaudi 2訓練與優化大型語言模型」講座分享AI運算的科技應用與觀點。
企業可在基礎模型上進行微調
透過Intel Gaudi 2訓練與優化大型語言模型講座由Intel Habana Labs台灣區總經理胡瑛敏主持,她先說明訓練大型語言模型(LLM)的運算成本相當高,而且還需要準備龐大的訓練資料(筆者註:對企業而言可能也需要延攬對應的人才與負擔人事成本),將花費相當多的時間與金錢。舉例來說,OpenAI的GPT-3 175B模型的規模為1,750億組參數,訓練的運算成本高達美金841,346元。
為了降低導入AI的時間與成本,企業可以考慮以預先訓練的大型語言模型為基礎,並對其進行微調,例如針對應用需求強化模型在特定領域的知識、強化效能、縮小量體(以利在小型裝置執行)、強化管理,以在生態系統中發揮簡化開發與降低整體成本的優勢。
然而無論是從頭開始訓練模型,或是在現有模型上進行微調,都會消耗龐大的運算資源。從Intel產品組合來看,代號為Emerald Rapids的第5代Xeon Scalable處理器雖然加入Matrix Engine運算單元並支援FP16資料類型以,有助於提升AI運算效能,但它仍只適合用於進行運算需求較小的AI推論工作,運算需求更大的AI訓練仍有賴Gaudi 2這類AI加速器,以縮短工作流程所花費的時間。
Gaudi 2滿足AI訓練需求
胡瑛敏說明,Gaudi 2晶片的硬體具有24組張量處理器(Tensor Processor Core)與2組矩陣乘法引擎(Matrix Multiplication Engine),內建48MB SRAM快取記憶體與96GB HBM2e高頻寬記憶體,並具有24組100GbE RDMA網路卡(Remote Direct Memory Access,可以略過處理器直接與另一組網路卡傳輸資料),不但本體就有充沛的AI運算效能,也具有高效率的Scale-Out擴充能力,透過串接多組Gaudi 2提升整體效能。胡瑛敏補充說明由256組晶片擴充至384組後,在訓練GPT-3模型時能保有95%的線性效能增益。
Gaudi 2的參考設計以8組晶片為單位,叢集內的每組Gaudi 2透過PCIe Gen 4x16介面經由交換器連接至伺服器的處理器,並使用21組網路卡與其他7組Gaudi 2互連,剩餘3組網路卡則透過QSFP-DD光纖模組與外部節點互連。另一方面,Gaudi 2採用RoCE協定與乙太網路介面,不同於競爭對手使用專有網路介面,具有更廣泛的相容性,也有利於系統Scale-Out擴充的建置。
Gaudi 2的AI訓練與推論等運算的效能,介於競爭對手的前代A100與最新H100等晶片之間,但是擁有更出色的效能-價格比,對於以總擁有成本(TCO)為考量的企業來說,也是相當重要的考量因素。
胡瑛敏也提到下代Gaudi 3晶片將有4倍於Gaudi 2的BF16資料類型運算效能,並具有2倍網路頻寬與1.5倍記憶體容量,表現值得期待。
醫療領域的AI應用
講座中也介紹了Wiwynn(緯穎科技)開發的SV600G2伺服器,它具有8組Gaudi 2晶片,伺服器中也搭載2組第3代Xeon Scalable處理器,並具有32組DDR4 RDIMM記憶體插槽,以及6組400GbE頻寬的QSFP-DD光纖模組,提供高達400GbE的RDMA對外頻寬。
活動的展示區也展出Wiwynn與JelloX(捷絡生技)合作的成果,利用Gaudi 2強化醫學方面的AI應用,現場產出的範例為訓練用於分析與偵測乳癌組織的免疫螢光影像AI模型,以及病患的聲音分辨是否罹患喉癌等技術。
根據Intel目前的產品路線規劃,在Gaudi 3之後的AI運算產品將以代號為Falcon Shore的GPU解決方案為主,屆時也可預計將帶來許多創新設計。
加入電腦王Facebook粉絲團