Quantcast
Viewing all articles
Browse latest Browse all 6432

Intel Innovation Taipei 2023:透過Gaudi 2訓練與最佳化大型語言模型,還有醫療影像辨識實際展示

Intel於「透過Intel Gaudi 2訓練與優化大型語言模型」講座分享AI運算的科技應用與觀點。Image may be NSFW.
Clik here to view.
0218ce8f2ff14108f8eb7743cb53d9b8

Intel於11月7日在台北舉辦今年度亞太暨日本區唯一的實體系列活動Intel Innovation Taipei 2023科技論壇,並於「透過Intel Gaudi 2訓練與優化大型語言模型」講座分享AI運算的科技應用與觀點。

企業可在基礎模型上進行微調

透過Intel Gaudi 2訓練與優化大型語言模型講座由Intel Habana Labs台灣區總經理胡瑛敏主持,她先說明訓練大型語言模型(LLM)的運算成本相當高,而且還需要準備龐大的訓練資料(筆者註:對企業而言可能也需要延攬對應的人才與負擔人事成本),將花費相當多的時間與金錢。舉例來說,OpenAI的GPT-3 175B模型的規模為1,750億組參數,訓練的運算成本高達美金841,346元。

為了降低導入AI的時間與成本,企業可以考慮以預先訓練的大型語言模型為基礎,並對其進行微調,例如針對應用需求強化模型在特定領域的知識、強化效能、縮小量體(以利在小型裝置執行)、強化管理,以在生態系統中發揮簡化開發與降低整體成本的優勢。

然而無論是從頭開始訓練模型,或是在現有模型上進行微調,都會消耗龐大的運算資源。從Intel產品組合來看,代號為Emerald Rapids的第5代Xeon Scalable處理器雖然加入Matrix Engine運算單元並支援FP16資料類型以,有助於提升AI運算效能,但它仍只適合用於進行運算需求較小的AI推論工作,運算需求更大的AI訓練仍有賴Gaudi 2這類AI加速器,以縮短工作流程所花費的時間。

Image may be NSFW.
Clik here to view.
透過Intel Gaudi 2訓練與優化大型語言模型講座由Intel Habana Labs台灣區總經理胡瑛敏主持。

Image may be NSFW.
Clik here to view.
隨著生成式AI與大型語言模型的興起,許多企業都將這些技術導入應用,並創造更多機會與收益。(投影片於會場翻拍,畫質較差敬請見諒,下同)

Image may be NSFW.
Clik here to view.
訓練大型語言模型不但花費相當多金錢,也需許多心力與時間。

Image may be NSFW.
Clik here to view.
企業可以取得開放模型的授權,並在基礎模型上進行微調以降低成本。

Gaudi 2滿足AI訓練需求

胡瑛敏說明,Gaudi 2晶片的硬體具有24組張量處理器(Tensor Processor Core)與2組矩陣乘法引擎(Matrix Multiplication Engine),內建48MB SRAM快取記憶體與96GB HBM2e高頻寬記憶體,並具有24組100GbE RDMA網路卡(Remote Direct Memory Access,可以略過處理器直接與另一組網路卡傳輸資料),不但本體就有充沛的AI運算效能,也具有高效率的Scale-Out擴充能力,透過串接多組Gaudi 2提升整體效能。胡瑛敏補充說明由256組晶片擴充至384組後,在訓練GPT-3模型時能保有95%的線性效能增益。

Gaudi 2的參考設計以8組晶片為單位,叢集內的每組Gaudi 2透過PCIe Gen 4x16介面經由交換器連接至伺服器的處理器,並使用21組網路卡與其他7組Gaudi 2互連,剩餘3組網路卡則透過QSFP-DD光纖模組與外部節點互連。另一方面,Gaudi 2採用RoCE協定與乙太網路介面,不同於競爭對手使用專有網路介面,具有更廣泛的相容性,也有利於系統Scale-Out擴充的建置。

Gaudi 2的AI訓練與推論等運算的效能,介於競爭對手的前代A100與最新H100等晶片之間,但是擁有更出色的效能-價格比,對於以總擁有成本(TCO)為考量的企業來說,也是相當重要的考量因素。

胡瑛敏也提到下代Gaudi 3晶片將有4倍於Gaudi 2的BF16資料類型運算效能,並具有2倍網路頻寬與1.5倍記憶體容量,表現值得期待。

Image may be NSFW.
Clik here to view.
Gaudi 2具有24組張量處理器與2組矩陣乘法引擎。

Image may be NSFW.
Clik here to view.
Gaudi 2的參考設計以8組晶片為單位,叢集內的每組Gaudi 2晶片透過PCIe Gen 4x16介面經由交換器連接至伺服器的處理器,並使用21組網路卡與其他7組晶片互連,剩餘3組網路卡則透過QSFP-DD光纖模組與外部節點互連。

Image may be NSFW.
Clik here to view.
以FP8資料類型執行GPT-J模型的MLPerf測試中,Gaudi 2在Server與Offline等環境下分別落後H100約9%與28%,但大幅領先A100超過1倍。

Image may be NSFW.
Clik here to view.
Intel與NVIDIA是唯2於MLPerf提交AI訓練的公司,以384組Gaudi 2訓練GPT-3模型花費311.9分鐘,若改用FP8資料類型,預期效能-價格比將高於H100。

Image may be NSFW.
Clik here to view.
Gaudi 2執行多種AI運算的效能皆高於A100,微調後執行BridgeTower模型的效能領先H100達40%。

Image may be NSFW.
Clik here to view.
總結來說,Gaudi 2具有比A100、H100等競爭對手產品更高的成本效益。

Image may be NSFW.
Clik here to view.
在相同測試環境下,Gaudi 2比A100節省14%能源,與H100相比更是節省50%,Gaudi 2也具有更出色的電力效率(效能-功耗比)。

Image may be NSFW.
Clik here to view.
下代Gaudi 3晶片將有4倍於Gaudi 2的BF16資料類型運算效能,並具有2倍網路頻寬與1.5倍記憶體容量。

Image may be NSFW.
Clik here to view.
Gaudi 2也將於Intel Developer Cloud服務提供使用。

醫療領域的AI應用

講座中也介紹了Wiwynn(緯穎科技)開發的SV600G2伺服器,它具有8組Gaudi 2晶片,伺服器中也搭載2組第3代Xeon Scalable處理器,並具有32組DDR4 RDIMM記憶體插槽,以及6組400GbE頻寬的QSFP-DD光纖模組,提供高達400GbE的RDMA對外頻寬。

活動的展示區也展出Wiwynn與JelloX(捷絡生技)合作的成果,利用Gaudi 2強化醫學方面的AI應用,現場產出的範例為訓練用於分析與偵測乳癌組織的免疫螢光影像AI模型,以及病患的聲音分辨是否罹患喉癌等技術。

Image may be NSFW.
Clik here to view.
Wiwynn展示具有8組Gaudi 2晶片的SV600G2伺服器。

Image may be NSFW.
Clik here to view.
每台SV600G2伺服器總共具有6組400GbE頻寬的QSFP-DD光纖模組,具有高達2400GbE的RDMA對外頻寬。

Image may be NSFW.
Clik here to view.
SV600G2伺服器的尺寸為6U,除了有8組Gaudi 2晶片之外,還有2組處理器與32組記憶體模組。

Image may be NSFW.
Clik here to view.
Wiwynn與JelloX合作,利用Gaudi 2強化醫學影像的深度學習模型應用。圖為訓練用於分析與偵測乳癌組織的免疫螢光影像AI模型。

Image may be NSFW.
Clik here to view.
JelloX的另一個展示項目為透過病患的聲音就可分辨是否罹患喉癌,能夠免去病患接受侵入性檢查之苦。

根據Intel目前的產品路線規劃,在Gaudi 3之後的AI運算產品將以代號為Falcon Shore的GPU解決方案為主,屆時也可預計將帶來許多創新設計。

加入電腦王Facebook粉絲團

Viewing all articles
Browse latest Browse all 6432

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>