古希臘神話中,一位名叫荷米斯的神,會充當人神之間的信使,穿著帶有雙翼的飛鞋,行走在神明與人類之間。
根據《荷馬史詩》的記載:「在天神中,荷米斯是最喜歡引導凡人前行的。」這句話用來形容OpenAI與AI的關係,雖不中亦不遠矣。
上一周,OpenAI打造的ChatGPT出盡風頭,成為AI領域的頭號熱門話題。關於ChatGPT的對話能力,大家可能已經透過很多文章感受過了。簡單總結,就是對答如流,無所不能,可替程式設計師寫程式,可替商務人士出方案,還能替作家編故事。一度讓久違的 「Google已死」「XX職業又要被AI取代了」之類的AI威脅論說辭,開始大量出現了。
關於ChatGPT的神奇之處,看多了也有點審美疲勞了,冷靜下來思考一下:
為什麼同樣是AIGC,問答、對話這類NLP領域應用更容易引起轟動,激發人們對通用人工智慧的希望?
為什麼同樣是預訓練模型,相比BERT、GPT3等前輩,ChatGPT的對話能力產生了質的飛躍?
為什麼同樣是做AI,OpenAI要和NLP耗到底,從GPT1到 ChatGPT不斷迭代?
OpenAI的CEO、聯合創始人 Sam Altman曾說過一句話:「Trust the exponential,Flat looking backwards,vertical looking forwards.」,這句話的意思是有些增長可能一開始看起來不太顯著,但隨著時間的推移,它變得越來越明顯。意味著,要重視指數增長的長期影響,而不要僅僅關注目前正在發生的事情。ChatGPT的出現代表著,AI似乎已經站到了指數級飛躍的關鍵點上。但起飛的ChatGPT,並不是一蹴而就的。
從GPT到ChatGPT,恰好代表了OpenAI在大模型領域確實走過的歷程,從這當中可以看到,OpenAI在AI大模型競爭中,已經探索出了一條屬於自己的道路,就如同荷米斯一樣,成為引領AI技術前進的使者。
如果OpenAI是傳遞AI前線進展的荷米斯,ChatGPT就是那雙帶著雙翼的金絲鞋。我們既要關注ChatGPT這雙鞋究竟有多神奇,更有必要搞懂,OpenAI選擇的這條大模型道路有何玄機。
從GPT-1到ChatGPT,超神模型的演化足跡
OpenAI在部落格中寫道,ChatGPT 是從 GPT3.5 系列中的模型進行微調而誕生的。
正如名稱中所暗示的那樣,GPT- 3.5是OpenAI設計的一系列NLP模型中的第四個,此前還出現了GPT - 1、GPT - 2 和 GPT - 3。在 GPT 出現之前,NLP 模型主要是基於針對特定任務的大量標注資料進行訓練。這會導致一些限制:
- 大規模高品質的標注資料不易獲得;
- 模型僅限於所接受的訓練,泛化能力不足;
- 無法執行開箱即用的任務,限制了模型的落地應用。
為了克服這些問題,OpenAI走上了預訓練大模型的道路。從GPT1到ChatGPT,就是一個預訓練模型越來越大、效果越來越強的過程。當然,OpenAI的實現方式並不只是「大力出奇跡」那麼簡單。
第一代:從有監督到無監督GPT-1。2018年,OpenAI推出了第一代生成式預訓練模型GPT-1,此前,NLP任務需要透過大規模資料集來進行有監督的學習,需要成本高昂的資料標注工作,GPT-1的關鍵特徵是:半監督學習。先用無監督學習的預訓練,在 8 個 GPU 上花費 了1 個月的時間,從大量未標注資料中增強AI系統的語言能力,獲得大量知識,然後進行有監督的微調,與大型資料集整合來提高系統在NLP任務中的性能。
GPT-1的效果明顯,只需要極少的微調,就可以增強NLP模型的能力,減少對資源和資料的需求。同時,GPT-1也存在明顯的問題,一是資料侷限性,GPT-1 是在網際網路上的書籍和文本上訓練的,對世界的認識不夠完整和準確;二是泛化性依然不足,在一些任務上性能表現就會下降。
第二代:更大更高更強的GPT-2。2019年推出的GPT-2,與GPT-1並沒有本質上的不同(注意這一點),架構相同,使用了更大的資料集WebText,大約有40 GB的文本資料、800萬個檔案,並為模型加入了更多參數(達到驚人的 15 億個參數),來提高模型的準確性,可以說是加強版或臃腫版的GPT-1。
GPT-2的出現,進一步證明了無監督學習的價值,以及預訓練模型在下游NLP任務中的廣泛成功,已經開始達到圖靈測試的要求,有研究表示,GPT-2產生的文本幾乎與《紐約時報》的真實文章(83%)一樣令人信服。
第三代:跨越式進步的GPT-3。2020年,GPT-3的這次迭代,出現了重大的飛躍,成為與GPT-2迥然不同的物種。
首先,GPT-3的體量空前龐大,擁有超過 1750 億個參數,是GPT-2的 117 倍;其次,GPT-3不需要微調,它可以辨識到資料中隱藏的含義,並運用此前訓練獲得的知識,來執行下游任務。這意味著,哪怕從來沒有接觸過的範例,GPT-3就能理解並提供不錯的表現。因此,GPT-3也在商業應用上表現出了極高的穩定性和實用性,透過雲端上的 API存取來實現商業化。這讓GPT-3成為2020年AI領域最驚豔的模型之一。
當然,GPT-3也並不完美。正如聯合創始人 Sam Altman所說,GPT-3的水準仍處於早期階段,有時候也會犯非常愚蠢的錯誤,我們距離真正的人工智慧世界還有很長的距離。另外,GPT-3 API 的很多基礎模型非常龐大,需要大量的專業知識和性能優異的機器,這使得中小企業或個人開發者使用起來比較困難。
第四代:基於理解而生成的ChatGPT。終於在2022年,OpenAI的預訓練語言模型之路,又出現了顛覆式的迭代,產生了技術路線上的又一次方向性變化:基於人工標注資料+強化學習的推理產生。
前面提到,一開始預訓練模型的出現,是為了減少監督學習對高品質標注資料的依賴。而ChatGPT在GPT -3.5大規模語言模型的基礎上,又開始依託大量人工標注資料(據說OpenAI找了40個博士來標資料),這怎麼又走回監督學習的「老路」了呢?
原因是,GPT 3.5雖然很強,但無法理解人類指令的含義(比如寫一段文章、改一段程式碼),無法判斷輸入,自然也就很難給出高品質的輸出答案。所以OpenAI透過專業的標注人員(據說是40個博士)來寫詞條,給出相應指令/問題的高品質答案,在基於這些資料來調整GPT -3.5的參數,進而讓GPT -3.5具備了理解人類指令的能力。
在人工標注訓練資料的基礎上,再使用強化學習來增強預訓練模型的能力。強化學習,簡單理解就是做對了獎勵、做錯了懲罰,不斷根據系統的打分來更新參數,進而產生越來越高品質的回答。所以這幾天很多人在互動中發現,ChatGPT會承認錯誤、會修改自己的答覆,這正是因為它具備從人類的回饋中強化學習並重新思考的能力。
因為ChatGPT具備了理解能力,所以才被看作是通向通用人工智慧AGI的路徑。
當然,ChatGPT也並不是完美進化體。OpenAI的官網明確提示,ChatGPT「可能偶爾會產生不正確的資訊」,並且「對2021年之後的世界和事件的瞭解有限」。一些比較難的知識,比如「紅樓夢講了什麼」,ChatGPT會一本正經地胡說八道。
從GPT模型的演進和迭代中,可以看到OpenAI是不斷朝著自然語言理解這一目標前進,用更大的模型、更先進的架構,最終為通用人工智慧找到了一條路徑。
從GPT-1到ChatGPT的縱向演變,會看到OpenAI對大模型的獨特理解與技術脈絡——通過模型預訓練提升NLP指標,抵達強人工智慧。NLP領域究竟特殊在哪裡,值得OpenAI如此執著?
OpenAI的大模型差異化之路
前文中不難看出,OpenAI對於文本生成模型的執著,因為做夠得久、投入夠多,所以能夠做得更好,是非常有長期戰略定力的。
與之相比,和GPT-1同年推出的預訓練模型,還有Google發佈的BERT,但後者在火爆一段時間之後影響力明顯減弱;而NLP問答領域一向由Meta引領,Meta AI 的 OPT 模型和GPT-3 達到了同等的參數量,但效果就不如OpenAI。同期選手中,OpenAI對於語言模型的用心顯然是更多的。
一方面是資源投入,無論是越來越大的模型,需要消耗龐大的算力資源,ChatGPT所需要的高品質標注資料,依靠博士等級的專業人士來完成,比起將資料標注任務分發給眾包平臺,顯然會消耗更多的人力和財力。
另一方面,是技術投入,大規模預訓練、增強學習等技術都用在提升NLP對話系統在開放通用領域上的理解和推理能力。NLP是認知智慧,要提升就必須解決知識依賴,而知識又是非常離散且難以表示的,要解決帶標資料不足、常識知識不足等問題,是非常具有技術挑戰的。多年前IBM的Frederick Jelinek就說過:「每當我開除一個語言學家,語音辨識系統的性能就會改善一些。」頗有種「解決不了問題,就解決提出問題的人」的既視感。所以也可以說,OpenAI選擇了一條更難走的路,去解決真正困難的問題。
此外,聚焦NLP領域也意味著OpenAI會承擔隱形的機會成本。
今年AIGC(AI創作內容)在資本市場和應用市場都有很大的進展,與AI繪畫、影音資料產生、AlphaFold2所解決的蛋白質結構預測等生成任務相比,NLP任務都是直接用詞彙和符號來表達概念,此類模型透過「API+雲端服務」來完成商業化服務,無論是雲端資源的消耗量還是介面調用服務收費,所獲得的收益也是遠不及圖像影音或科學運算的。拿同樣的精力做十個八個Dalle模型,肯定能賺得更多。
OpenAI作為一個旨在「實現安全的通用人工智慧(AGI)」的公司,就是在不計投入、不計商業回報,專心致志地透過過預訓練大模型來提升NLP任務的各項指標,進而接近AGI的願景。
為什麼OpenAI能夠走出這條引領潮流的大模型差異化之路呢?
一方面是NLP的特殊之處。
NLP 不是魔術,但是,其結果有時幾乎就是魔術一般神奇。通用人工智慧必須具備認知智慧,這也是目前制約人工智慧取得更大突破和更廣泛應用的關鍵瓶頸,而NLP正是認知智慧的核心。Geoffrey Hinton、Yann LeCun都曾說過類似的觀點,深度學習的下一個大的進展,應該是讓神經網路真正理解文檔的內容。
也就是說,當AI能理解自然語言了,AGI可能就實現了。
另外,OpenAI的運行模式也起到了關鍵的影響。
突破性創新早期需要大量的投入,大模型的開發需要大量的基礎設施投入,而ChatGPT的對話系統短期內很難靠調用量的規模化來攤平研發成本。因此,OpenAI是一個非營利性研究機構,沒有迫切的商業化壓力,因此可以更專注於NLP領域的基礎研究,這是商業型AI公司所很難實現的。
2011年,自然語言領域的泰斗肯尼斯‧丘奇(Kenneth Church)發表了一篇長文《鐘擺擺得太遠》(A Pendulum Swung Too Far),其中提到:我們這一代學者趕上了經驗主義的黃金時代,把唾手可得的低枝果實採摘下來,留給下一代的都是「難啃的硬骨頭」。
深度學習是經驗主義的一個新高峰,而這個領域的低枝果實也總有摘完的一天,近年來有大量AI科學家發出警告,深度學習面臨很多局限性,單純用深度學習很難解決一些複雜任務,或許不用太久,基礎性突破就會成為AI產業的重要支撐。
GPT的演進也說明了,AI的突破需要循序漸進、從小到大地一步步實現,今天,每家AI企業和研究機構都在做大模型,相比CV電腦視覺、數位人、元宇宙等AI應用,NLP要顯得暗淡很多。而如果一窩蜂去摘容易的果實,最終會制約AI深入產業的腳步。
ChatGPT的出現提醒我們,唯有啃下基礎領域的硬骨頭,才能真正為AI帶來質變。
加入電腦王Facebook粉絲團