二月初,先是Google,然後是微軟,宣布對他們的搜尋引擎進行了重大改革。這兩家科技巨頭都在構建或購買生成式人工智慧工具上投入鉅資,這些工具能使用大型語言模型來理解和回答複雜的問題。現在,他們正試圖將其整合到搜尋中,希望能給使用者提供更豐富、更準確的體驗。
但對這些新工具的興奮之情可能掩蓋了一個骯髒的秘密——構建高性能人工智慧搜尋引擎的競賽可能需要運算能力的大幅提升,隨之而來的是科技公司所需的能源和碳排放量的大幅增加。
英國薩里大學(University of Surrey)網路安全教授艾倫‧伍德沃德(Alan Woodward)表示:「已經有大量資源用於索引和搜尋網際網路內容,但人工智慧的加入則會將做這件事所需的能源和資源提升到另一個層次。它需要高效的處理能力、儲存能力和搜尋能力。每當我們看到線上處理的進一步變化時,就會看到大型處理中心所需的電力和冷卻資源在顯著增加。」
訓練大型語言模型(LLMs),比如 OpenAI 的 ChatGPT(它將為微軟的Bing搜尋引擎提供支援),以及Google的同類產品 Bard,意味著在大量資料中解析和運算聯繫,這就是這些模型往往是由擁有大量資源的公司開發的原因。
「訓練這些模型需要大量的運算能力,」西班牙拉科魯尼亞大學的電腦科學家卡洛斯‧戈麥斯‧羅德里格斯(Carlos Gómez-Rodríguez)說,「現在,只有大型科技公司才能訓練這些模型。」
雖然 OpenAI 和Google都沒有說過他們各自產品的運算成本是多少,但研究人員的協力廠商分析估計,ChatGPT 部分基於 GPT-3 的訓練消耗了 1287 兆瓦時,並導致了超過 550 噸的二氧化碳排放量,這相當於一個人在紐約和舊金山之間往返 550 次。
卡洛斯‧戈麥斯‧羅德里格斯表示:「這並沒有那麼糟糕,但你必須考慮到這樣一個事實:你不僅要訓練它,還要執行它,為數百萬使用者服務。」
投資銀行瑞銀(UBS)估計,ChatGPT 每天有 1300 萬使用者,將其作為一個獨立產品使用,與將其整合到每天處理 5 億次搜尋的Bing中,也有很大的區別。
加拿大資料中心公司 QScale 聯合創始人馬丁‧布沙爾(Martin Bouchard)認為,根據他對微軟和Google搜尋計畫的瞭解,在這一過程中加入生成式人工智慧,需要「每次搜尋至少增加 4 到 5 倍的運算量」。他指出,ChatGPT 目前對 2021 年底之後的事情是不理解的,這在一定程度上減少了運算需求。
但為了滿足搜尋引擎使用者日益增長的需求,這將不得不改變。他說:「如果他們要經常重新訓練模型,並添加更多參數之類的東西,運算量的規模就完全不同了。」
這將需要在硬體上進行大量投資。布沙爾說:「我們現有的資料中心和基礎設施將無法應對(生成式人工智慧的競爭)。運算量太大了。」
根據國際能源署(International Energy Agency)的資料,資料中心的溫室氣體排放量已經占到全球溫室氣體排放量的 1% 左右。隨著雲端運算需求的增長,這一數字預計還會上升,但營運搜尋引擎的公司已承諾將減少自身對全球變暖的淨貢獻。
卡洛斯‧戈麥斯‧羅德里格斯表示:「這絕對沒有運輸業或紡織業那麼糟糕。但(人工智慧)可能成為碳排放的一個重要來源。」
微軟已經承諾到 2050 年實現碳負排放。該公司計畫今年購買 150 萬噸碳信用額度。Google承諾到 2030 年在其整個業務和價值鏈實現淨零排放。OpenAI 和微軟沒有回應記者的置評請求。
為了減少「將人工智慧整合到搜尋中」的環境足跡和能源成本,可以將資料中心轉移到更清潔的能源上,以及重新設計神經網路以提高效率,減少所謂的「推理時間」(即演算法在新資料上工作所需的運算能力)。
謝菲爾德大學(University of Sheffield)自然語言處理講師納菲思‧沙達特‧穆塞維(Nafise Sadat Moosavi)說:「我們必須研究如何減少這種大型模型所需的推理時間,」她致力於自然語言處理的可持續性研究,「現在是關注效率方面的一個好時機。」
谷歌發言人珍‧派克(Jane Park)告訴《連線》雜誌,Google最初發表的 Bard 版本是由一個羽量級大型語言模型提供支援的。
派克說:「我們還發表了一項研究,詳細介紹了最先進的語言模型的能源成本,包括早期和更大版本的 LaMDA。我們的研究結果表明,將高效的模型、處理器和資料中心與清潔能源相結合,可以將[機器學習]系統的碳足跡減少 1000 倍。」
問題是,至少在Google的情況下,為了獲得在搜尋準確性上的微小進步,而付出所有額外的運算能力和麻煩是否值得。但是穆塞維說,雖然關注 LLMs 產生的能源和碳足跡很重要,但我們也需要注意到大型語言模型的積極方面。
她說:「這對終端使用者來說是件好事。因為之前的大型語言模型並不是每個人都能使用得到的。」
加入電腦王Facebook粉絲團