這位象徵性的遊戲開發者、火箭工程師、VR 夢想家已經把目光轉向一項大膽的新挑戰:開發通用人工智慧——一種超越模仿人類智慧,去理解事物和解決問題的 AI 形式。卡馬克(Carmack)認為,到 2030 年, AGI 取得初步成功的可能性為 60%。他為什麼要自己出來單幹?如何才能實現這一目標呢?
北德克薩斯州的技術天才約翰‧卡馬克 (John Carmack )現在正瞄準他最雄心勃勃的目標:開發通用人工智慧(AGI),解決全球最大的電腦科學問題。AGI 是人工智慧的形式之一,具備 AGI 能力的機器可以理解、學習和執行人類可完成的任何智力任務。
在其位於高地公園貝芙麗大道價值數百萬美元的豪宅內,卡馬克正致力於通過他創辦的初創公司 Keen Technologies 實現 AGI。這家公司在 2022 年 8 月份的一輪融資中已經籌集了 2000 萬美元。
卡馬克說,他的職業生涯已經進入「第四個主要階段」。此前,他曾在電腦領域工作過一段時間,並創立了 id Software(成立於 1991 年),開創了電子遊戲這一新遊戲種類,還成立了 Armadillo Aerospace(2000 年至 2013 年)開發次軌道太空火箭技術,在 2014 年 Facebook(現在的 Meta)以 20 億美元收購了 Oculus VR 之後,他又來到這裡研究虛擬實境。2019 年底,卡馬克辭去了 Oculus 的 CTO 職務,成為這家 VR 企業的諮詢 CTO,並宣佈他打算把精力放在研究 AGI 上面 。去年 12 月,他離開 Meta,全職專注於 Keen。
在罕見的工作休息時間裡,我們有機會與這位技術偶像坐下來,進行了以下的獨家採訪。出於篇幅與清晰的需要,問答進行過編輯。
問:你現在正在做什麼樣的工作來「解決」通用人工智慧問題?你為什麼要用這一特定方法來解決這個問題?
我總是坐在電腦旁,思考並記錄概念,提出理論,進行測試。現在我的工作就是這樣,因為還沒人能真正知道該怎麼去到我們想去的地方。但出於多種原因,我認為我和其他人一樣,都有機會做到這一點。
「有些人已經籌集了數十億美元來追逐這一目標。雖然從某些方面來說這很有趣,而且有跡象表明,在狹義的機器學習領域,現在可能出現了極其強大的東西,但這些是不是就是通往通用人工智慧的必由之路呢?還不好說。」
有些人已經籌集了數十億美元來追逐這一目標。雖然從某些方面來說這很有趣,而且有跡象表明,在狹義的機器學習領域,現在可能出現了極其強大的東西,但這些是不是就是通往通用人工智慧的必由之路呢?還不好說。對於樂意這麼做的公司來說,這是個不錯的選擇,因為可能的路線很多,走下去也會找到有價值的東西,即便你不能一路走下去。仍然會有一些東西能改變世界,比如狹義人工智慧。
但有一點會比較令人擔心,如果你剛走出第一個匝道就說,『嘿,這是一條價值十億美元的道路』然後就停下來了,但我們知道其實還可以走下去,把我們所瞭解的用來徹底改變各個行業。路上可能會出現一些誘人的東西,但它分散了每個人的注意力,導致他們無法放眼未來,無法專注於更遠距離的事情。所以,我可以很坦白地告訴你,我現在正處在這麼一個位置,短期內我所做的這些事情的商業機會為零。
問:一開始是什麼促使你對這個主題產生興趣的?
我們現在正處在一場科學革命之中,因為 10 年前,人們對人工智慧的作用還沒有感覺。我們經歷過人工智慧的「寒冬」——事實上,在過去幾十年的時間裡,曾經歷過多次。這很有趣,因為 VR 行業也有類似經歷:這幾乎不是什麼好話,因為虛擬實境(VR)在 1990 年代一敗塗地,人們甚至連談都不想談。
人工智慧也經歷過幾次這樣的週期:先是炒作升溫,資金流入,然後表現不佳,接著崩潰,淪落到沒人願意談論的地步。但過去十年不一樣,沒有注意到這次是如何的不一樣的人其實並沒有專心去觀察,他們沒有意識到過去十年機器學習領域發生了很多絕對令人震驚的事情,這些事情確實意義深遠。
正因為這個,所以我才會想:「好吧,可能是時候該認真考慮一下了。」這對我來說很有趣,因為我作為技術旁觀者對機器學習和 AI 有一定的瞭解,我在十幾歲的時候就讀過該領域一些開創性的書,我知道有符號主義等各種類型的東西。所以,我腦子裡對這些東西是有一點瞭解的,但我對正在發生的事情並沒有太多關注,因為在忙著遊戲、航空航太以及虛擬實境方面的工作。
到了一定時候你就會意識到,『好吧,我想也許有些事情我得弄清楚了——比如哪些是炒作,哪些是現實?』所以我做了我一般會做的事:我一切的真正能力永遠都是來自於對事物的根本理解,在最深層次上,只有從最底層瞭解事情是如何發生的,你才能獲得洞察力。
所以,大概在四年前,我進行了一次為期一周的靜修,隨身只帶了一台電腦以及一堆的參考資料,然後我用了一周的時間重新審視這個行業的基本原理。我的研究甚至到了這樣的地步,「好吧,我已經很瞭解這一點了,可以跟研究人員就此進行嚴肅的對話了。」對於能達到那種理解程度,我感到非常興奮。
「於是我找到 OpenAI 的首席科學家 Ilya Sutskever,請他幫我列一份閱讀清單。他給了我一份大概有 40 篇研究論文的清單,說,『如果那些論文你確實學會了的話,對今天來說重點的東西 90% 你都學會了。』我做到了。我仔細研究了所有這些論文,我的頭腦慢慢開始變得清晰起來。」
在那之後,雖然我從來沒有參加過類似會議(因為我有當隱士的傾向),但當 OpenAI 的 Sam Altman 邀請我參加 Y Combinator 的 YC 120(創業訓練營)時,我決定去參加。事實證明,Sam 此舉是精心策劃的,因為他讓 Greg Brockman 和 OpenAI 的 Ilya Sutskever 過來遊說我加盟 OpenAI 。對此我感到非常榮幸,因為我怎麼說都算不上機器學習專家。我是很多這類東西的知名系統工程師,但對於 AI 我只具備基本的基線知識。而他們是這個領域的領導者,他們覺得拉我過去是值得的,這確實給我內心埋下了種子,讓我思考正在發生的一切的重要性,思考我可以在其中扮演什麼角色。
所以我問他們的首席科學家 Ilya 要了閱讀清單。這是我的方法,我的做事方式:把我需要知道的一切列給我,讓我能夠在這個領域立足。他給了我一份大約有 40 篇研究論文的清單,並說,「如果那些論文你確實學會了的話,對今天來說重點的東西 90% 你都學會了。」我做到了。我仔細研究了所有這些論文,我的頭腦慢慢開始變得清晰起來。
問:你當時還在 Meta 做著 VR,對吧?
是的,我在 Meta 遇到了一些問題,與大規模戰略方向有關。我相信你已經看過一些關於他們花了多少錢的頭條新聞了,我覺得大部分的錢花得都很糟糕。我在那裡遇到了一些挑戰,我的五年買斷合約即將到期(從收購 Oculus 開始)。那時候我決定,『好吧,對於通用人工智慧這項工作,我得更加認真了。』
我以前做過各種事情,遊戲、火箭、虛擬實境,那時候我的目標是要做一些還沒有、但我有清晰看法的東西。但是,AGI 不一樣,因為沒人知道該怎麼做。這不是一個簡單的工程問題。但是,鑒於過去十年發生的事情,所有這些誘人的線索都已經擺在那裡——就像有了一些相對簡單的想法了。它們不是什麼極端的黑魔法或數學巫術——其中很多都是相對簡單的技術,現在我已經理解那些東西了。感覺我們距離擁有相當於我們的肉身的東西只有 5、6 個想法之遙了。
三、四年前我曾做過估計,我覺得在 2030 年出現通用人工智慧的明顯生命跡象有一半對一半的可能性。這未必就意味著通用人工智慧會對任何事物都產生巨大的經濟影響,而是說會有一種在電腦上運行的存在,大多數人認為這個存在是智慧的和有意識的,並且在我們人類正在做的事情上的表現與人類處在同一水準。經過三年對這一切進行了核心研究之後,我的預測並沒有改變。事實上,我甚至可能把可能性稍微提高到 60%。如果把時間放到,比如說,2050 年,我覺得會有 95% 的可能性。
問:很多人都在預測,說這會導致出現驚人的、驚天動地的結果,對吧?
我儘量不想那麼誇張,做什麼宏偉宣言,因為我這個人比較注重細節。哪怕是火箭技術,我也不會去討論殖民火星,而是討論該用哪些螺栓把東西固定在一起。所以,我不想發表 TED 演講,不停地講各種可能通過看似具有成本效益的人工智慧做到的事情。
但尤其是這場 Covid 大流行表明,完全用電腦交流可以做到的事情比人們想像的要多,大家可以透過 Zoom、電子郵件、聊天、Discord 等電腦模式進行交流。
當今世界價值的很大一部分都可以以此為基礎。如果你有一個行為像人類的人工智慧代理,哪怕是以今天狹義人工智慧的方式,一個由深度偽造、聊天機器人以及語音合成塑造的世界,很明顯,也可以模擬出人類的形態。我們還沒有做到讓 AI 同事擁有可學習的意識流,但我們確實擁有這種神奇的知識量了。
你會發現,大家在討論奇點,以及 AGI 將如何改變一切,討論非常熱烈。但如果我換個角度看呢,如果說 10 年後,我們將擁有具備通用人工智慧的「通用遠端員工」,它們會在雲端運行,人們只需撥通電話,說「你給我 5 個 Franks,10 個 Amys,我們要部署到這些工作中」,基本上,你可以像雲端存取運算資源一樣連結這些人工智慧人力資源——而這也許是這類東西最平淡無奇的用法。
如果我們要做的只是創造更多的人力資本,然後應用到我們今天已經在做的事情上,比如說,『我想製作一部電影或漫畫書或類似的東西,給我一支團隊去做那件事,』然後在雲端運行這支團隊——這就是我的願景。
問:創造一個能執行人類可以完成的任務的系統,為什麼這件事情如此重要?由人類來執行人類的任務有什麼問題?
好吧,你可以把它跟很多問題聯繫起來,比如說,「人口是不是好東西?」 「移民是不是好事,如果有願意從事經濟活動並受市場引導的新人類資源可以利用的話?」
與 5000 萬人住在山洞之類的地方相比,擁有 80 億人口的世界要好得多。因此,我相信,隨著人工智慧進入我們的工作社區,人類的價值與進步之和將大為加速。我認為,所有這些都會創造出巨大價值。
問:那,具體應該如何實現 AGI 呢?
從今天的虛擬助手(你的 Siri、Alexa 和 Google Assistant)到 AI 變得越來越有幫助,接管越來越多的任務,其實是有跡可尋的。但這些都相當脆弱,它們實現的是一些專門的事情——比如各種知識表示、語音合成、語音理解——這可能不是通往可靈活用於多種用途的通用智慧之路。為了給這些助手增加功能,他們動用了成千上萬(千真萬確)的程式師,這種做法在短期內是有價值的。把這些東西拼湊到一起的程式設計工作是一次性的程式設計。但是這條路走下去沒法走到通用代理可以學習人類可學習的任何任務的地步。
處理感知的事情——比如理解某人的聲音,甚至以自然的方式合成聲音——放在 10 或 15 年前電腦根本還做不好這些事情。1990 年代有個笑話,那就是一台電腦可以輕而易舉地擊敗酒洋棋世界冠軍,但是卻做不到 2 歲孩子能做的事情:連貓狗都分不清。當時在這個世界上,可以做這些簡單瑣碎的感知任務的電腦還沒有出現。因為,事實證明,我們的大腦其實就是做這個的:它與感知和模式匹配的關係更大。當時人們認為這與用哲學性的符號去操縱有關,但這是一種詭辯。這導致人工智慧誤入了歧途,真的,幾十年來固執的不知變通。
這一條條真正的死胡同證明這樣的東西很脆弱,沒有太大的商業價值。事物的運作方式不是這樣的。但最近十年發生了革命:透過深度學習以及深度聯結主義方法,我們其實可以做到 2 歲兒童在感知方面能做的一切了。而且在其中的很多方面,AI 已經屬於超人的水準。AI 還沒具備的是某種意識,聯想記憶,那些有生命、目標和計畫的東西。這些脆弱的人工智慧系統可以實現其中的任何一個,但這仍然不是人類大腦甚至動物大腦的運作之道。我的意思是,人腦姑且不論;甚至連可以像老鼠或貓一樣行動的東西都還沒有。但感覺我們離這些東西都很近了。
我認為,有一點幾乎可以肯定,那就是我們在過去十年從深度學習獲得的工具,將來可以用於通用人工智慧。至於其他一些領域,存在一些結構性的東西我們還不瞭解,比如強化學習、監督學習、無監督學習。所有這些都會以人類思考事物的方式彙集到一起,但我們還沒有對所有這些進行最終的綜合。
問:實現 AGI 是否存在關鍵因素或中心思想?
雖然有些人不喜歡,但我還是要講——那就是原始碼,也就是實現通用人工智慧所必需的電腦程式設計工作,會有幾萬行程式碼。現在的情況是,一個大程式的程式碼就有數百萬行——Chrome 瀏覽器大約有 2000 到 3000 萬行程式碼。
馬斯克不久前提到過 Twitter 大概有 2000 萬行 Scala 程式碼。這些都是大程式,靠個人不可能重寫。就算你的餘生專門幹這件事情,幾乎也無法寫得完這麼多的程式碼。但我相信,真正的 AGI 程式設計應該是一個人就可以寫完的。
現在,那些精明的投資者仍然說這些程式碼得由一群研究人員完成,而且是用所有這些東西拼湊起來的。但我的推理是這樣的:如果你把自己的整個 DNA 提取出來,它的訊息量不到 1 GB。考慮到在整個人體中,負責指令部分的大腦只是它的一小部分——訊息量大概就是 40 MB 左右,而且還不是嚴格編碼的那種。因此,人類智力的存在證明了,其本質並不在於大量的編碼,而是在於某些其他因素。
現在它已經演變成一個非常複雜的事物,從數字來看,人腦有大約 860 億個神經元,這些神經元之間的連接可能高達 100 兆。即便從電腦的角度來看,這也是一個很大的數字。當提到像 GPT-3 這樣的大型模型時,其參數數量為 1600 億,這些參數可以類比於大腦中的神經元之間的連接。
所以,你可能會說,在我們的電腦擁有與大腦一樣強大的能力之前,我們還有 500 倍左右的差距要彌補。但我也認為,有充分的理由可以相信這是一個極其悲觀的估計,實際估計應該小得多,因為我們的大腦做的很多事情其實不是那麼重要。人的腦子真的很馬虎,反應真的很慢,所以也許我們的大腦其實不需要那麼多的參數。
但同樣地,這是一個簡單程式被大規模利用的問題,這正是當今 AI 的機制。如果觀察一下大家討論的東西,比如 GPT-3、Imagen、AlphaFold 等,就會發現這些框架的原始碼並不多。也就是幾千行的程式碼,甚至幾萬行都不到。這些模型的確是建立在龐大的支持生態體系之上,但其核心邏輯並不是一個龐大的程式。
所以,我堅信我們在十年之內就可以擁有足夠普遍的硬體資源來做這件事情,而且編寫的程式碼量將是適度的,並且也會有足夠的人做這件事。雖然在我看來,人人都把 DeepMind 和 OpenAI 看作是領先的 AGI 研究實驗室,但像我這樣從事這個領域的人還是不夠多。
問:你為什麼要單幹?
我要單幹的原因是所有的主要玩家都陷入了一種非常令人驚訝的「群體思維」。比方說去年的情況就很怪異:OpenAI 發表了一個圖像產生器,然後Google也發表了一個,然後 Facebook 又發表一個。為什麼這些公司都能在短短幾個月內複製其他人的工作?因為背後都是同一個學術研究人才池。他們有「異花授粉」機制,有一支超級聰明的龐大的智囊團來做這個。
「雖然有人投資了我的公司 2000 萬美元,但我並沒有承諾可能會在通用人工智慧方面取得突破。相反,我只是說我有一個不可忽視的機會,而把這個機會變現所必需的一些重要東西,我會親自弄清楚」。
但是,因為我們還不知道我們要去哪裡,其實機器學習內部是有個策略,你需要有一定程度的隨機性——一開始的時候權重和位置都是隨機的,甚至有時候需要用多個模型(整合模型)來做。所以,我對自己的定位是這些隨機測試點之一,而整個行業的主流方向則是朝著潛在的優秀解決方案的方向前進,這些方案的搜索和開發工作已經做得非常出色了。但是,由於並沒有清晰的目標,不確定是否能夠通過梯度下降等方法找到最優解,因此也需要有一些人去測試其他可能的解決方案。
而且,我的背景也不一樣。我不具備學術研究背景——我是一名系統工程師。我對相關的感知、系統技術以及湧現行為有一定研究,而且我足夠聰明,知道如何應用必要的東西。雖然有人投資了我的公司 2000 萬美元,但我並沒有承諾可能會在通用人工智慧方面取得突破。相反,我只是說我有一個不可忽視的機會,而把這個機會變現所必需的一些重要東西,我會親自弄清楚。
問:一旦弄清楚之後,你認為會產生什麼樣的影響?
通用人工智慧的出現對經濟的影響可以說是一個「改變世界級」的事件,它幾乎可以重塑人類所能做的一切。這幾乎是你能想到的最大的規模了。所以,對它的部分下注是值得的——例如為我的研究方向投入的 2000 萬美元。研究也許會成功,也可能會失敗。這一點我會直言不諱。如果說我會先於 OpenAI 和 DeepMind 以及中國的各家研究實驗室想出 AGI 的解決方案,說「是的,我有信心我會第一個到達那裡」的話,那就是狂妄,是難以置信的自大。
但是,對於我要處理的這些問題,我認為沒人比我聰明太多。而且我認為在這場競賽當中,我並沒有落後多少。而且我走的是一條不一樣的道路。就目前而言,我敢說 『是的,在接下來的這十年時間裡我會投入到這件事上,它可能會取得巨大成功。』或者,結果可能是最後我找到了兩個超級巧妙的東西,然後再跟其他人合作。也許到時候會有收購或其他事情發生。
但有一件事情我不想做,就是選擇好第一個商業應用然後說,『OK。我懂遊戲,我懂圖像生成,我可以去做遊戲內容創作。事實上,我在 Oculus 的前合夥人 Brendan Iribe 就跟我說過,『來跟我一起做吧。我們要籌一大筆錢,會很棒的。』是,那幾乎可以保證一隻獨角獸的誕生了。毫無疑問,我們可以做出一家價值 10 億美元的公司來。但是另外那個大黃銅環(Big brass ring),也就是通用人工智慧,那可是數兆美元。這兩者完全不是一個數量級。
我很幸運能夠站到今天這個位置,我取得了成功,已經有所成就,有了穩定的財務狀況。所以我敢下這個賭注,敢冒這個風險,極大的風險。但因為我不擔心破產,我敢這麼說,「好吧,如果我覺得這件事成功的機率只有百分之幾,但做成價值數兆美元的話,那會是個不錯的賭注。」我的意思是,對於大多數人來說,這是一種糟糕的思維方式,但對我來說,這並不是一件壞事。
問:那你究竟是怎麼為 Keen 「下注」的?
做研究,搞開發,我有一些不太主流的想法。我關注了主流正在做的大部分事情,因為它們確實很棒,很有用。現在我正在跟進去年的一些研究論文,我認為這些論文還有更好的應用方式,但是原作者還沒有看到。
會有一些有價值的東西別人不一定知道。實際上,我認為 70、80 和 90 年代的某些工作其實是很有趣的,在當時很多事情沒有做成,其實只是因為當時的規模不足。那時候他們想在 1 兆赫茲的電腦上做這些事情,那時候還沒有 GPU 集群。
然後就是我提到的這種群體思維。情況非常清楚,如果你觀察一下,就會發現那些傑出的研究人員基本上都有相似的背景,而且都朝著同一個方向游泳。所以,我認為過去一些老東西裡面也許會有些有用的。所以現在我是在做實驗,去測試,試著把不同的領域的東西結合在一起——那些我認為屬於 AGI 演算法的一部分的領域。
不過我主要的工作是看各種電視,玩各種電子遊戲,去模擬。我認為,「我們就是這麼去理解和內化這個世界的模型的,人在其中一些情況下就是這麼獨立做出行動的』的組合就是答案,但我還不知道怎麼將它們結合在一起。但我認為是有答案的。我想,在「需要解決的問題的範圍,以及如何將這些問題聚攏在一起」這方面,我已經掌握了要義。
我還是認為需要有五六個洞察想法出現,但我已經找到了若干貌似可信、也許最後被證明存在相關性的洞見。幾十年前我就訓練過自己一種做法,那就是把想法拿出來,用我對它們感到興奮的方式去追逐,因為我知道大多數的想法最終都不會成功的。在我職業生涯的早期,我曾經有過一個非常聰明的想法沒能付諸實現,我後來被壓垮了。不過最終我還是練就了這樣的境界,就是像玩遊戲一樣通過我的處理來挖掘想法並搞定他,『我能用多快的速度驗證和否定自己的想法,而不是像保護寵物一樣保護著它?』
所以,我現在已經有幾個候選的想法了,目前我正在對它們發起探索和攻擊。但這些抽象想法和技術是很抽象的,得用類似於深度學習的做法去嘗試。
所以,我推遲了擴大規模的做法,因為現在有很多公司言必稱『我們要融資 1 億、2 億,因為我們需要一個裝滿 GPU 的倉庫。』這是實現價值的途徑之一,畢竟現在有一種規模制勝的傾向。但我的態度不太一樣,我的想法是『在浪費掉別人的 1 億美元之前,我想把這五六件重要的事情給弄清楚。其實我現在還沒花太多錢。我是融了 2000 萬美元,但我認為這項任務的跨度會長達 10 年,我不想在接下來的兩年內就燒掉這 2000 萬美元,然後再去進行新一輪的融資,再弄幾億美元,因為我覺得這不是做事情的明智之舉。
「我希望我可以用幾年的時間來解決其中的一些問題,去做出一些我認為能朝著正確方向發展的小東西。然後,再進行一定程度的擴展,把一整個資訊生命週期的東西給弄進去,去體驗一下,看看它能不能產生一些希望的火花。」
我希望我可以用幾年的時間來解決其中的一些問題,去做出一些我認為能朝著正確方向發展的小東西。然後,再進行一定程度的擴展,把一整個資訊生命週期的東西給弄進去,去體驗一下,看看它能不能產生一些希望的火花。因為再強調一次,我對最後問題會如何得到解決沒有任何預期。
我反復強調這一點:一旦 AI 到了相當於蹣跚學步的孩子的地步——即 AI 到達了算成為了某種存在,是有意識的,雖然它不是愛因斯坦,甚至連乘法都不會的地步——但如果一個生物是可以學習的話,那你就可以在一定程度上與之互動,並教給它一些東西。到了那時候,你就可以部署一支龐大的隊伍,讓工程師、發展心理學家以及科學家去做研究了。
因為那樣的東西我們還沒能做出來,我們沒有能力模擬像那樣的東西。大腦運用的一些招數、技巧和策略是我們所有的現有模型都做不到的。但在我看來,達到這一點並非遙不可及。
問:那你能看出怎麼到達那個遙不可及的地方嗎?
我能看到目的地。我知道它就在那裡,只是從這裡到那裡的道路上烏雲密布。沒人知道如何到達那裡。但我看著那條路我會說我不知道那裡會有什麼,但我想我可以到達那裡——或者至少我認為有人能到。我認為很可能 2030 年代就能做到。
我確實認為,這基本上是必然的。不過我一直以來都很擅長讓可能是必然會發生的事情提前到來。比方說我做過的 3D 電子遊戲,這東西我認為早晚是要來的,但我讓它提前面世了。
加入電腦王Facebook粉絲團