該模型名為 Fugaku-LLM,其訓練資料中 60% 為日語內容,目的是在為日本國內量身定制生成式人工智慧研究奠定基礎。
一個由東京工業大學、富士通和其他機構組成的研究團隊宣布,他們利用日本超級電腦富岳(Fugaku),開發出可作為生成式人工智慧基礎的大型語言模型。
該模型名為 Fugaku-LLM,其訓練資料中 60% 為日語內容,目的是在為日本國內量身定制生成式人工智慧研究奠定基礎。該專案於 2023 年 5 月啟動,由上述機構以及東北大學、名古屋大學、理化學研究所 (RIKEN)、網路代理商 (CyberAgent) 和Kotoba Technologies的研究人員共同參與,並使用富士通和理化學研究所共同開發的超級電腦進行訓練。
研究人員表示,Fugaku-LLM 能夠流暢回答有關俳句大師松尾芭蕉詩歌的問題,展現出其出色的日語理解能力。
與其他具備日語能力的模型不同,Fugaku-LLM 並非採用持續學習的方式,而是從頭開始使用團隊自有資料進行訓練,且這些資料不包含有害資訊,因此整個學習過程都可以被理解,透明度和安全性也更強。
另一個重要之處在於,該團隊成功地使用中央處理器 (CPU) 而不是圖形處理器 (GPU) 來訓練 Fugaku-LLM 大型語言模型。在語言模型訓練中,通常使用 GPU,但由於全球各國都在激烈競爭開發語言模型,GPU 目前供不應求。
研究人員表示,他們是透過最佳化富岳的通訊性能來提升其運算能力。
東京工業大學教授橫田理夫 (Rio Yokota) 在新聞發表會上表示:「我們證明了自己有能力克服富岳帶來的挑戰。我們完全沒有依賴外國產品,這是一個巨大的成就。」
Fugaku-LLM 的原始碼已經公開,可以在富士通的網站上取得。
- 延伸閱讀:Top500超級電腦大洗牌!採AMD方案的Frontier奪下榜首,效能領先前冠軍約1.5倍
- 延伸閱讀:大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五
- 延伸閱讀:大型語言模型成長速度遠超過摩爾定律,MIT 最新研究顯示人類快要餵不飽 AI 了
- 延伸閱讀:OpenAI大型語言模型太花錢,傳微軟Copilot正自行開發更小更便宜的「小型語言模型」SLM