據《紐約時報》報導,OpenAI 開發語音辨識工具 Whisper,轉錄一百萬小時以上的 YouTube 影片和 Podcast,最後這些文本被餵給名為 GPT-4 的系統中。此外,知情人士表示,OpenAI 的員工知道這是法律灰色地帶,但他們認為用影片訓練人工智慧屬於「合理使用」,且 OpenAI 總裁格雷格·布羅克曼(Greg Brockman)也親自幫助收集了這些影片。
文章目錄
OpenAI 轉錄 YouTube 影片開發 GPT-4
OpenAI 首席執行官山姆·阿特曼(Sam Altman)在 5 月時表示,人工智慧公司將耗盡網際網路上所有可用的數據。
在 OpenAI,研究人員多年來一直收集數據、清理數據,然後將其餵入一個龐大的文本池中,用於訓練公司的語言模型。他們挖掘 GitHub、西洋棋走法資料庫、利用來自 Quizlet 網站的高中測驗和家庭作業描述數據。該公司八位知情人士表示,到了 2021 年底,這些供應已經枯竭。
OpenAI 迫切需要更多數據來開發下一代人工智慧模型 GPT-4。因此,OpenAI 開發了語音辨識工具 Whisper,用於轉錄 YouTube 影片和 Podcast。但是 YouTube 不僅禁止人們將其影片用於「獨立」應用程式,還禁止透過「任何自動方式(如機器人、僵屍網絡或抓取器)」存取其影片。
知情人士表示,OpenAI 的員工知道他們正在涉足一個法律灰色地帶,但他們認為用影片訓練人工智慧是合理使用,而 OpenAI 的總裁布羅克曼也親自幫助收集 YouTube 影片並將其餵入該技術。最後,布羅克曼的團隊利用 Whisper 轉錄一百萬多小時的 YouTube 影片,並於去年推出 GPT-4。
數據為何如此重要:規模就是一切
2020 年 1 月,約瑟夫·霍普金斯大學的理論物理學家、同時也是人工智慧初創公司 Anthropic 的首席科學官賈瑞德·卡普蘭(Jared Kaplan),發表了一篇關於人工智慧的開創性論文。他在結論中清楚的表示,用於訓練大型語言模型的數據越多,它的性能就越好,「正如學生透過閱讀更多書籍可以學到更多知識一樣,大型語言模型可以更好地找出文本中的模式,並透過更多資訊變得更加準確。」
「規模就是一切」很快成為了人工智慧的一個口號。
研究人員長期以來一直使用大型的公共數據庫來開發人工智慧,包括維基百科和 Common Crawl,這是一個從 2007 年開始收集的超過 2500 億個網頁的數據庫。研究人員通常會在用這些數據訓練人工智慧模型之前「清理」數據,刪除仇恨言論和其他不需要的文本。不過這些數據已不再足夠。
「合成」數據能作為訓練數據嗎?
阿特曼在 5 月的會議上表示,像 OpenAI 這樣的公司最終將訓練他們的人工智慧模型使用人工智慧生成的文本,也就是所謂的「合成數據」。由於人工智慧模型能夠生成類似人類的文本,所以這些系統可以創建額外的數據來開發更好的版本,這將幫助開發人員構建越來越強大的技術並減少對版權數據的依賴。
人工智慧研究人員多年來一直在探索合成數據,但從自己的產出中學習的模型可能會陷入一個循環,它們會強化自己的怪癖、錯誤和局限性。
為應對這一問題,OpenAI 和其他人正在研究兩個不同的人工智慧模型如何共同生成更有用和可靠的合成數據:一個系統生成數據,而第二個系統則判斷訊息,將好的與壞的分離。研究人員對這種方法是否有效存在分歧。不過阿特曼對此在會議上說:「這應該沒問題。」
資料來源:紐約時報
- 延伸閱讀:《紐約時報》提告 OpenAI 和微軟訓練ChatGPT模型侵犯版權,生成紐約時報風格文章導致數十億美元損失
- 延伸閱讀:紐約時報要求法院銷毀ChatGPT的AI資料集,AI在公開網路上的訓練是否屬於「合理使用」?
- 延伸閱讀:OpenAI表示《紐約時報》提告他們侵犯版權毫無根據,只有篡改了提示語欺騙ChatGPT才會逐字採集其文章