Hyena可達到與 GPT-4 同等的準確性，但使用的算力少 100 倍

Hyena，是由史丹佛大學和加拿大 MILA 人工智慧研究所於 2023 年 3 月首次提出的一項技術，比 GPT-4 或任何同類 AI 技術都高效。 D013f991b0ea7f928a476d12d033c33c

名為 Hyena（意為「鬣狗」）的新型技術，可達到與 GPT-4 同等的準確性，但使用的算力比後者減少了 100 倍。

儘管 Open AI 推出的人工智慧聊天機器人 ChatGPT 及其最新一代人工智慧語言模型 GPT-4 引起了全球範圍內的轟動，但說到底，這些語言模型只是軟體應用程式。與所有應用程式一樣，它們也有技術限制。

今年 3 月，史丹佛大學（Stanford University）和加拿大 MILA 人工智慧研究所（MILA institute for AI）的人工智慧科學家聯合發表了一篇論文，並提出了一種新技術（Hyena）。此項技術甚至比 GPT-4 或任何類似 AI 技術都要高效，它可以吸收大量資料並將其轉化為使用者想要的答案。

這項被稱為 Hyena 的技術只使用其一小部分運算能力，就能夠在問答等基準測試中達到與 GPT-4 同等的準確性。在某些情況下，Hyena 能夠處理大量的文本，而 GPT-4 每次最多只能處理不超過 25000 個單詞。

Hyena可達到與 GPT-4 同等的準確性，但使用的算力少 100 倍

谷歌的科學家 Ashish Vaswani 和他的同事於 2017 年發表了一篇名為《Attention Is All You Need》（《注意力就是你的全部所需》）的論文，它在人工智慧研究領域具有里程碑的意義。該論文對 Transformer 模型（一種神經網路結構）作了十分詳細的介紹，一個基於 Transformer 的可訓練的神經網路可以透過堆疊 Transformer 的形式進行搭建，擅長處理語言理解任務，所需運算能力更少。作者在論文中寫道：「基於十億參數級模型的運行結果顯示，注意力可能並不是我們所需要的全部。」Transformer 潛力巨大，目前已成為了許多大型語言模型的基礎，比如 ChatGPT。

延伸閱讀：就是要你全部的注意力！ChatGPT不小心找到一個有史以來最賺錢的商業模式

但是 Transformer 神經網路模型有一個很大的缺陷，當它處理大量的輸入資訊時需要借鑒人腦的「注意力機制」，即只選擇一些關鍵資訊輸入進行處理，以此提高神經網路的效率。

這種注意力機制具有「二次型運算複雜性」，其時間和儲存複雜度在序列長度上屬於二次型，處理長文本序列的能力很差，這種內在缺陷是包括 ChatGPT 和 GPT-4 在內的所有大型語言程式都具備的。這種二次複雜性意味著 ChatGPT 產生答案所需的時間會隨著輸入資料量的增多而增加。

在某種程度上，如果提示內容輸入過多，要嘛程式無法提供答案，要嘛它必須具備足夠的運算能力才能滿足運行需求，進而導致人工智慧聊天機器人運算需求激增。

在 the arXiv pre-print server（由美國國家科學基金會和美國能源部資助，在美國洛斯阿拉莫斯國家實驗室建立的免費電子預印本文獻庫）上發表的新論文《Hyena 層次結構：邁向更大的卷積語言模型》（Towards Larger Convolutional Language Models'）中，史丹佛大學的主要作者 Michael Poli 和他的同事建議使用「次二次函數」，即 Hyena 來取代 Transformer 的注意力函數。

作者並沒有解釋「Hyena」的名字由來，但人們大致可以想像出各種緣由。Hyena，又譯為「鬣狗」，它是一種生活在非洲的動物，可以捕獵數英里。從某種意義上說，一個非常強大的語言模型可以像鬣狗一樣，為了尋找「答案」而處理數以萬計的文本內容。

但正如標題所示，作者真正關心的是「等級制度」。鬣狗家族有一個嚴格的等級制度，一般來說鬣狗女王最高貴，其次是幼崽，地位最低的是雄性鬣狗。鬣狗女王領導並且支配著整個族群，享有最高的地位，這樣的「等級制度」確立了鬣狗女王的統治地位。正如你將看到的那樣，Hyena 程式會以某種類似的方式一次又一次地應用一系列非常簡單的操作，將它們結合起來形成一種資料處理的層次結構。正因為如此才給這個程式起名「Hyena」。

這篇論文的特約作者有眾多來自人工智慧領域的傑出人士，比如加拿大 MILA 人工智慧研究所的科學主任約書亞·班吉歐（Yoshua Bengio），他是 2019 年圖靈獎（相當於電腦領域的諾貝爾獎）的獲得者。早在 Vaswani 及其團隊將注意力機制應用於 Transformer 之前，班吉歐就因開發了注意力機制而廣受讚譽。史丹佛大學電腦科學副教授 Christopher Ré 也是作者之一，他近年來幫助推動了人工智慧作為「軟體 2.0」的概念。

為了找到注意力機制「二次型運算複雜性」的替代方案，Poli 及其團隊開始研究注意力機制是如何發揮作用的。

人工智慧科學領域最近的一項被稱為機械可解釋性（mechanistic interpretability）的實踐研究正在深入瞭解神經網路內部結構，即注意力機制是如何運作的。你可以把它想像成拆開一台電腦，看看它的各個元件部分，並弄清楚它是如何工作的。

波利及其團隊引用的是人工智慧初創公司 Anthropic 的研究員尼爾森·艾爾哈格（Nelson Elhage）的一系列實驗，這些實驗對 Transformer 的演算法結構進行了全域分析，從根本上理清了 Transformer 在處理和生成文本時的工作內容是什麼，並深入探究了其背後注意力機制的工作原理。

從本質上講，艾爾哈格和他的團隊發現，注意力在最基本的層面上是通過非常簡單的電腦操作來發揮作用的。假設給定一個輸入，「Teacher Judy is so busy……because Teacher X…」，X 指向「Judy」。注意力機制就是查看上下文中的最後一個單詞「Teacher」，並在上下文中搜索與最後一個單詞相關聯的特定單詞，再將這個關聯單詞作為模型輸出。

再例如，如果一個人在 ChatGPT 中輸入《哈利波特與魔法石》（Harry Potter and the Sorcerer's Stone）中的一句話，比如「Mr. Dursley was the director of a firm called Grunnings…」，那麼只要輸入「D-u-r-s」，這個名字的開頭，可能就足以提示程式完成「Dursley」這個名字，因為它在《哈利波特與魔法石》這本書中看到過這個名字。系統能夠從記憶中複製字元「l-e-y」的記錄來自動完成句子的輸出。

然而，隨著單詞數量的增多，注意力機制會遇到二次複雜性問題。更多的文本需要更多的「權重」或參數來運行。

正如作者所寫：「Transformer 塊是序列建模的強大工具，但它並非沒有局限性。其中最值得注意的是運算成本，隨著輸入序列內容長度的增加，運算成本會迅速增長。」

雖然 OpenAI 尚未披露 ChatGPT 和 GPT-4 的技術細節，但據悉它們可能有一兆或更多這樣的參數。運行這些參數需要更多的 GPU 晶片，進而增加了運算成本。

為了降低二次運算成本，Poli 和團隊用所謂的「卷積模型」替代了注意力機制，這是人工智慧程式中最古老的運算模型之一，早在 20 世紀 80 年代就進行了改進。卷積模型等同於一個篩檢程式，可以從資料中挑選出專案，無論是圖片像素還是文本格式均支援。

Poli 和他的團隊做了一種混合研究，即將史丹佛大學研究員 Daniel Y. Fu 及其團隊所做的工作與阿姆斯特丹自由大學的學者 David Romero 及其同事的研究結合起來，讓該程式可以動態改變濾波器大小。這種靈活適應的能力減少了程式需要的參數或權重的數量。

▲ Hyena 模型是卷積篩檢程式的組合，每一個卷積層中使用的篩檢程式中的參數都是一樣的。它們彼此建立在一起，而不會引起神經網路參數的大量增加。

卷積模型可以應用於無限量的文本，而不需要越來越多的參數來保證程式的運行。正如作者所說，這是一種「不需要集中注意力」的方法。

Poli 及其團隊寫道：「Hyena 能夠顯著縮小與注意力機制的差距，以較小的算力預算來解決同等的困惑。」

為了證明 Hyena 的能力，作者根據一系列基準測試了該程式，這些基準決定了一個語言程式在各種人工智慧任務中的表現。

其中一個測試是 The Pile，這是一個由非營利人工智慧研究機構 Eleuther.ai 在 2020 年收集的包含有 825 GiB 的開來源語言建模資料集。這些文本是由 22 個較小的高品質資料集組合而成的，比如 PubMed、arXiv、GitHub、美國專利局等，相比其他資料集更專業。

該程式面臨的主要挑戰是，當輸入一堆新句子時，如何生成一個新單詞。研究人員寫道，從 2018 年開始，在運算運行操作減少 20% 的前提下，Hyena 能夠達到與 OpenAI 原始 GPT 程式相當的準確性。它是第一個與 GPT 品質相匹配的無注意力機制的卷積模型。

Hyena可達到與 GPT-4 同等的準確性，但使用的算力少 100 倍

接下來，作者在被稱為 SuperGLUE 的推理任務上測試了該程式，該任務是 2019 年由紐約大學、Facebook 人工智慧研究、穀歌 DeepMind 部門和華盛頓大學的學者共同推出的。

例如，當給定「我的身體在草地上投下陰影」這個假設，並給出造成這一現象的兩種原因：「太陽升起來了」或「草被割了」，並要求程式選擇其中一種合理原因時，其會將「太陽升起來了」作為輸出文本。

在處理多工時，Hyena 模型的得分達到了或接近 GPT 版本的分數，然而其使用的訓練資料不及 GPT 的一半。更有趣的是，當作者想試試增加輸入字串長度時會有何變化，結果發現：字元越多，其表現就越好，所需時間就越少。

Poli 和團隊認為，他們不僅對 Hyena 嘗試了不同的方法，還解決了二次運算複雜性的難題，使程式運算結果的難度發生了質的變化。

他們認為，在未來的道路上，打破二次運算障礙是邁向深度學習的關鍵一步，例如使用整本教科書作為上下文提示，來創作長段音樂或處理十億像素級圖像。

作者寫道，Hyena 能夠使用一個可以更有效地擴展成千上萬個單詞的篩檢程式，這意味著查詢語言程式的上下文實際上沒有限制，它甚至可以回憶起文本或先前對話的內容。

他們提出，Hyena 不受人為限制，並且可以學習「輸入提示」中的任何元素。此外，除了文字，該程式還可以應用於不同形式的資料，例如圖像，也許還有視頻和聲音。

值得注意的是，與 GPT-4 甚至 GPT-3 相比，論文中顯示的 Hyena 程式規模較小。GPT-3 有 1750 億個參數或權重，而 Hyena 最多只有 13 億個參數。因此，Hyena 在與 GPT-3 或 GPT-4 進行全面比較時的表現還有待觀察。

但如果 Hyena 程式在更大規模層面的應用上也被證明是高效的話，這一程式會廣泛流行開的——媲美注意力機制在這過去十年中所達到的那種流行程度。

正如 Poli 及其團隊總結的那樣：「更簡單的二次模型，如 Hyena，基於一套簡單的指導原則和機械可解釋性基準，將可以成為大型高效語言模型的基礎。」

加入電腦王Facebook粉絲團

Latest Images

Trending Articles

Latest Images