外媒批評 OpenAI 遊走法律灰色地帶，轉錄百萬小時 YouTube 開發 GPT-4

據《紐約時報》報導，OpenAI 轉錄一百萬小時以上的 YouTube 影片來訓練 GPT-4，且 OpenAI 總裁格雷格·布羅克曼（Greg Brockman）也親自幫助收集了這些影片。Image may be NSFW.
Clik here to view. 82ccc7f4a525926f86ae5908cbe19d3d

據《紐約時報》報導，OpenAI 開發語音辨識工具 Whisper，轉錄一百萬小時以上的 YouTube 影片和 Podcast，最後這些文本被餵給名為 GPT-4 的系統中。此外，知情人士表示，OpenAI 的員工知道這是法律灰色地帶，但他們認為用影片訓練人工智慧屬於「合理使用」，且 OpenAI 總裁格雷格·布羅克曼（Greg Brockman）也親自幫助收集了這些影片。

文章目錄

OpenAI 轉錄 YouTube 影片開發 GPT-4

OpenAI 首席執行官山姆·阿特曼（Sam Altman）在 5 月時表示，人工智慧公司將耗盡網際網路上所有可用的數據。

Image may be NSFW.
Clik here to view. 外媒批評 OpenAI 遊走法律灰色地帶，轉錄百萬小時 YouTube 開發 GPT-4

在 OpenAI，研究人員多年來一直收集數據、清理數據，然後將其餵入一個龐大的文本池中，用於訓練公司的語言模型。他們挖掘 GitHub、西洋棋走法資料庫、利用來自 Quizlet 網站的高中測驗和家庭作業描述數據。該公司八位知情人士表示，到了 2021 年底，這些供應已經枯竭。

OpenAI 迫切需要更多數據來開發下一代人工智慧模型 GPT-4。因此，OpenAI 開發了語音辨識工具 Whisper，用於轉錄 YouTube 影片和 Podcast。但是 YouTube 不僅禁止人們將其影片用於「獨立」應用程式，還禁止透過「任何自動方式（如機器人、僵屍網絡或抓取器）」存取其影片。

知情人士表示，OpenAI 的員工知道他們正在涉足一個法律灰色地帶，但他們認為用影片訓練人工智慧是合理使用，而 OpenAI 的總裁布羅克曼也親自幫助收集 YouTube 影片並將其餵入該技術。最後，布羅克曼的團隊利用 Whisper 轉錄一百萬多小時的 YouTube 影片，並於去年推出 GPT-4。

數據為何如此重要：規模就是一切

2020 年 1 月，約瑟夫·霍普金斯大學的理論物理學家、同時也是人工智慧初創公司 Anthropic 的首席科學官賈瑞德·卡普蘭（Jared Kaplan），發表了一篇關於人工智慧的開創性論文。他在結論中清楚的表示，用於訓練大型語言模型的數據越多，它的性能就越好，「正如學生透過閱讀更多書籍可以學到更多知識一樣，大型語言模型可以更好地找出文本中的模式，並透過更多資訊變得更加準確。」

「規模就是一切」很快成為了人工智慧的一個口號。

研究人員長期以來一直使用大型的公共數據庫來開發人工智慧，包括維基百科和 Common Crawl，這是一個從 2007 年開始收集的超過 2500 億個網頁的數據庫。研究人員通常會在用這些數據訓練人工智慧模型之前「清理」數據，刪除仇恨言論和其他不需要的文本。不過這些數據已不再足夠。Image may be NSFW.
Clik here to view. 外媒批評 OpenAI 遊走法律灰色地帶，轉錄百萬小時 YouTube 開發 GPT-4

「合成」數據能作為訓練數據嗎？

阿特曼在 5 月的會議上表示，像 OpenAI 這樣的公司最終將訓練他們的人工智慧模型使用人工智慧生成的文本，也就是所謂的「合成數據」。由於人工智慧模型能夠生成類似人類的文本，所以這些系統可以創建額外的數據來開發更好的版本，這將幫助開發人員構建越來越強大的技術並減少對版權數據的依賴。

人工智慧研究人員多年來一直在探索合成數據，但從自己的產出中學習的模型可能會陷入一個循環，它們會強化自己的怪癖、錯誤和局限性。

為應對這一問題，OpenAI 和其他人正在研究兩個不同的人工智慧模型如何共同生成更有用和可靠的合成數據：一個系統生成數據，而第二個系統則判斷訊息，將好的與壞的分離。研究人員對這種方法是否有效存在分歧。不過阿特曼對此在會議上說：「這應該沒問題。」

資料來源：紐約時報

加入電腦王Facebook粉絲團

外媒批評 OpenAI 遊走法律灰色地帶，轉錄百萬小時 YouTube 開發 GPT-4

文章目錄

OpenAI 轉錄 YouTube 影片開發 GPT-4

數據為何如此重要：規模就是一切

「合成」數據能作為訓練數據嗎？

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本