Google宣佈推出 Gemini 1.5。
Gemini 1.5 建立在Google基礎模型開發和基礎設施的研究與工程創新的基礎上,包括透過新的專家混合 (MoE:Mixture-of-Experts) 架構使 Gemini 1.5 的訓練和服務更加高效。
Google現在推出的是用於早期測試的 Gemini 1.5 的第一個版本 ——Gemini 1.5 Pro。它是一種中型多模態模型,針對多種任務的擴展進行了最佳化,其性能水準與Google迄今為止最大的模型 1.0 Ultra 類似,並引入了長上下文理解方面的突破性實驗特徵。
Gemini 1.5 Pro 配備了 128000 個 token 上下文視窗。但從今天開始,少數開發人員和企業客戶可以透過 AI Studio 和 Vertex AI 的私人預覽版在最多 100 萬個 token 的上下文視窗中進行嘗試。Google還進行了一些最佳化,以改善延遲、減少運算要求並增強使用者體驗。
谷歌 CEO Sundar Pichai 和Google DeepMind CEO Demis Hassabis 對新模型進行了專門介紹。
高效架構
Gemini 1.5 建立在Google對 Transformer 和 MoE 架構的領先研究之上。傳統的 Transformer 作為一個大型神經網路運作,而 MoE 模型則分為更小的「專家」神經網路。
根據給定輸入的類型,MoE 模型學會選擇性地僅啟動其神經網路中最相關的專家路徑。這種專業化極大地提高了模型的效率。這種專業化大大提高了模型的效率。Google一直是 MoE 技術在深度學習領域的早期採用者和先驅,例如 Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4 等研究。
Google在模型架構方面的最新創新使 Gemini 1.5 能夠更快地學習複雜任務並保持品質,同時更高效地訓練和服務。這些效率正在幫助Google團隊比以往更快地迭代、培訓和交付更高階的 Gemini 版本,並且正在努力進一步最佳化。
更長的上下文,更強大的功能
人工智慧模型的 「上下文視窗」 由 token 組成,token 是用於處理資訊的構建塊。token 可以是文字、圖像、影片、音訊或程式碼的整個部分或子部分。模型的上下文視窗越大,它在給定提示中可以接收和處理的資訊就越多,進而使其輸出更加一致、相關和有用。
透過一系列機器學習創新,谷歌增加了 1.5 Pro 的上下文視窗容量,遠遠超出了 Gemini 1.0 最初的 32,000 個 token。該大模型現在可以在生產環境中運行多達 100 萬個 token。
這意味著 1.5 Pro 可以一次性處理大量訊息,包括 1 小時的影片、11 小時的音訊、超過 30,000 行程式碼或超過 700,000 個單詞的程式碼庫。在Google的研究中,還成功測試了多達 1000 萬個 token。
對大量資訊進行複雜推理
1.5 Pro 可以在給定提示內無縫分析、分類和總結大量內容。例如,提供出阿波羅 11 號登月任務的 402 頁文件記錄時,它可以推理整個文件中的對話、事件和細節。
▲Gemini 1.5 Pro 能夠理解、推理並識別出阿波羅11號任務到月球的402頁記錄中的奇特細節。
在不同模態上具有更好的理解和推理能力
1.5 Pro 能夠對不同的模態執行高度精緻的理解和推理任務,包括影片。例如,當給定一部44分鐘的巴斯特·基頓默片電影時,該模型能夠準確地分析各種情節點和事件,甚至能夠推理電影中可能輕易被忽略的細節。
▲Gemini 1.5 Pro 能夠辨識出一部44分鐘巴斯特·基頓默片電影中的一個場景,當給定一個簡單的線條畫作為現實物體的參考資料時。
使用較長的程式碼組解決相關問題
針對較長程式碼組的相關問題解決 1.5 Pro 能夠在較長的程式碼組上進行更加相關的問題解決任務。當給定一個包含超過100,000行程式碼的提示時,它能夠更好地跨例子推理,建議有幫助的修改,並解釋程式碼不同部分是如何工作的。
▲Gemini 1.5 Pro 能夠跨越100,000行代碼進行推理,提供有幫助的解決方案、修改和解釋。
增強性能
在針對文字、程式碼、圖像、音訊和影片進行全面評估的面板上測試時,1.5 Pro 在我們用於開發大型語言模型 (LLMs) 的 87% 的基準測試中表現優於 1.0 Pro。 與相同基準測試上的 1.0 Ultra 相比,它的表現大致相似。
即使在其上下文視窗增加的情況下,Gemini 1.5 Pro 仍維持高水準的性能。在針對性地將一小段包含特定事實或聲明的文字放置於長文本中進行的「稻草堆中的針」(NIAH)進行評估中,1.5 Pro 在長達100萬個token的資料組中,1.5 Pro 99%都能找到嵌入的文字。
Gemini 1.5 Pro 還展示了令人印象深刻的 「上下文學習(in-context learning)」 技能,這意味著它可以從長提示中給出的資訊中學習新技能,而不需要額外的調校。Google在 MTOB (Translation from One Book )基準測試中測試了這項技能,該基準顯示了該模型從以前從未見過的資訊中學習的能力。當給它Kalamang語(一種全球使用人數不到 200 人的語言)的語法手冊時,該模型可以學習將英語翻譯成Kalamang語,其水準與學習相同內容的人能力差不多。
由於 1.5 Pro 的長上下文視窗是大型模型中的首創,因此Google正在不斷開發新的評估和基準來測試其新功能。
有關更多詳細資訊,請參閱 Gemini 1.5 Pro 技術報告。
廣泛的倫理和安全測試
為了符合Google的人工智慧原則和堅固的安全政策,確保Gemini 1.5 Pro 模型經歷廣泛的倫理和安全測試。然後,將這些研究學習成果整合進的治理流程、模型開發和評估中,以持續改進這套人工智慧系統。
自從去年12月引入1.0 Ultra以來,Google的團隊持續完善模型,使其對更安全。Google也進行了關於安全風險的新研究,並開發了紅隊技術來測試一系列潛在的危害。
在發布1.5 Pro之前,Google採取了與Gemini 1.0模型相同的部署方法,進行了廣泛的評估,涵蓋了包括內容安全和代表性傷害在內的領域,並將繼續擴大這種測試。除此之外也在開發進一步的測試,以考量1.5 Pro的新型長上下文能力。
建立並實驗Gemini模型
Google致力於負責任地將每個新一代 Gemini 模型帶給全球數十億人、開發者和企業用戶使用。從今天開始,Google將透過 AI Studio 和 Vertex AI 向開發者和企業客戶提供 1.5 Pro 預覽版。
未來,當模型進行更廣泛的發表時,屆時,Google將推出具有標準 128,000 個 token 上下文視窗的 1.5 Pro。很快,隨著Google對模型的改進,Google計畫引入從標準 128,000 個上下文視窗開始並擴展到 100 萬個 token 的等級。
前期測試人員可以在測試期間免費使用 100 萬個 token 上下文視窗,速度的顯著提高也即將到來。有興趣測試 1.5 Pro 的開發人員現在可以在 AI Studio 中註冊,而企業客戶可以聯絡他們的 Vertex AI 客戶團隊。
- 延伸閱讀:Google Bard 將更名為 Gemini?推出付費的最強大模型 Gemini Ultra 1.0 ,還會有 Android App
- 延伸閱讀:Google最強AI模型Gemini 1.0版發佈,支援在PC或手機獨立運作、性能甚至超越GPT-4
資料來源:
加入電腦王Facebook粉絲團