OpenELM是一種最先進的開源語言模型。OpenELM 使用逐層縮放策略,在轉換器模型的每一層內有效分配參數,進而提高準確性。
蘋果發表了幾個開源大型語言模型 (LLM),這些模型被設計成在在設備上運行,而不是透過雲端伺服器運行。這些大型語言模型被稱為 OpenELM(開源高效語言模型),可以在分享人工智慧程式碼的社群 Hugging Face Hub 上獲取。
正如白皮書中所述,共有八個 OpenELM 模型,其中四個使用 CoreNet 庫預訓練,另外四個是經過指令微調的模型。蘋果使用了一種旨在提高準確性和效率的逐層縮放策略。
蘋果提供了程式碼、訓練日誌和多個版本,而不僅僅是最終訓練的模型,專案背後的研究人員希望這將導致自然語言人工智慧領域的更快進步和「更可信賴的結果」。
OpenELM是一種最先進的開源語言模型。OpenELM 使用逐層縮放策略,在轉換器模型的每一層內有效分配參數,進而提高準確性。例如,在參數量約為 10億的情況下,OpenELM 的準確性比 OLMo 提高了 2.36%,同時需要的預訓練標記數量減少了 2 倍。
與以往僅提供模型權重和推理程式碼以及使用私有資料集進行預訓練的做法不同,我們的發表包含了在公開資料集上訓練和評估語言模型的完整框架,包括訓練日誌、多個檢查點和預訓練配置。
蘋果表示,發表OpenELM模型是為了「賦予和豐富開放研究社群」最先進的語言模型。共用開源模型可以讓研究人員調查風險以及資料和模型偏差。開發人員和公司可以原樣使用模型或進行修改。
開放分享訊息已經成為蘋果招聘頂尖工程師、科學家和專家的一個重要工具,因為它為研究論文提供了機會,這些論文在蘋果以往的保密政策下通常無法發表。
蘋果尚未將這些類型的 AI 功能引入其設備,但預計 iOS 18 將包含許多新的 AI 功能,並且有傳言稱蘋果計畫出於隱私目的在其設備上運行其大型語言模型。
- 延伸閱讀:蘋果大模型MM1終於要加入戰局了!高達300億參數、多模態、MoE架構
- 延伸閱讀:蘋果研究人員開發出可「看」到並理解螢幕內容的AI
- 延伸閱讀:蘋果論文透露可將大型語言模型裝進快閃記憶體,日後iPhone可直接流暢跑AI模型
- 延伸閱讀:急起直追?庫克:蘋果將在生成式 AI 領域「開闢新天地」,外界推估 WWDC 2024 見真章