OpenAI新模型研發遇挫,稀疏性是大模型降本的鑰匙嗎?
OpenAI 也有失敗的模型。
大模型的訓練與運行成本極其高昂,OpenAI 也嘗試過降低成本,只可惜失敗了。
去年年底,當 ChatGPT 引起全球轟動時,OpenAI 的工程師開始研究一種新的人工智慧模型,代號為 Arrakis。Arrakis 目的在讓 OpenAI 能夠以更低的成本運行聊天機器人。
但據知情人士透露:2023 年年中,OpenAI 已經取消了 Arrakis 的發表,因為該模型的運行效率沒有公司預期的那麼高。
這次失敗意味著 OpenAI 失去了寶貴的時間,並需要將資源轉移到開發不同的模型上。
對合作投資來說,Arrakis 的研發計畫對於兩家公司完成 100 億美元投資和產品交易的談判非常有價值。據一位知情的微軟員工透露,Arrakis 的失敗讓微軟的一些高層管理人員感到失望。
更重要的是,Arrakis 的失敗預示著人工智慧的未來發展可能會充滿難以預測的陷阱。
Arrakis 是個什麼樣的模型?
知情人士稱,OpenAI 希望 Arrakis 是一個與 GPT-4 性能相當,且運行效率更高的模型。Arrakis 模型用到的關鍵方法是利用稀疏性( sparsity )。
稀疏性是Google等其他人工智慧開發商也公開討論並使用的機器學習概念。谷歌高層管理人員 Jeff Dean 曾表示:「稀疏運算將成為未來的一個重要趨勢。」
OpenAI 很早就開始了關於稀疏性的研究,早在 2017 年他們就推出了稀疏運算核心。Arrakis 本來可以讓 OpenAI 更廣泛地推廣其技術,因為該公司可以使用數量有限的專用伺服器晶片來為其軟體提供支援。
當前,增加稀疏性的一種常見方法是借助「混合專家系統(MoE)」技術。然而,加州大學柏克萊分校電腦科學教授 Ion Stoica 曾表示:「一般來說,專家模型的數量越多,模型就越稀疏,效率也越高,但可能會導致模型生成的結果不太準確。」
大約在今年春天,OpenAI 的研究人員開始訓練 Arrakis 模型,其中涉及使用先進的運算硬體來説明模型處理大量資料。知情人士稱,該公司預計訓練 Arrakis 比訓練 GPT-4 要便宜得多。然而,研究團隊很快就意識到該模型的表現不夠好,無法獲得預期的增益。研究團隊花了大約一個月的時間試圖解決問題後,OpenAI 的管理層決定停止訓練該模型。
值得欣慰的是,OpenAI 可以將其在 Arrakis 上的工作整合到其他模型中,例如即將推出的多模態大模型 Gobi。
兩位知情人士表示,Arrakis 的表現之所以低於 OpenAI 的預期,是因為該公司試圖提高模型的稀疏性,這意味著將只使用模型的一部分來產生回應,進而降低運行成本。該模型在早期測試中有效但後來表現不佳的原因尚不清楚。
值得一提的是,有知情人士稱 OpenAI 曾為 Arrakis 考慮的公開名稱是 GPT-4 Turbo。
降低成本有多重要?
對於 OpenAI 來說,隨著人們對技術成本的擔憂日益增加以及開源替代方案的激增,使其模型更便宜、更高效是首要任務。
據知情人士稱,微軟使用 OpenAI 的 GPT 模型為 Office 365 應用程式和其他服務中的人工智慧功能提供支援,並且微軟原本預計 Arrakis 能夠提高這些功能的性能並降低成本。
與此同時,微軟開始研發自己的 LLM,並且其 LLM 的運行成本可能比 OpenAI 的模型更低。
儘管這場挫折並沒有減緩 OpenAI 今年的業務發展,但隨著 LLM 領域的競爭日益加劇,特別是Google、微軟等科技巨頭的加速研發,OpenAI 也有可能在這個競爭的領域裡逐漸式微。
資料來源:
加入電腦王Facebook粉絲團