從今以後後,你在網上公開說的每一句話,都可能被Google拿去訓練AI! 沒錯,繼繪畫之後,文字作品也要被用來餵大模型了——
無論是技術部落客、程式碼、論文,還是所有你在網上公開的發文,都可能被扔進「Google大模型攪拌機」,即使有版權也是如此。
就在這周,谷歌更新了一版隱私政策,明確表示他們保留有抓取網上所有公開內容,以構建其AI工具的權利。
網友們立刻炸開來了。有人警告「Google正抓取一切」:
一旦Google能夠讀取你寫的東西,就意味著這些都是他們的「所有物」了。
還有網友抱持更悲觀的想法:
很快啊,所有內容產出者就都會是AI了。
所以這次的隱私政策改了哪些東西?
用於訓練Bard等AI產品
事情還得從Google這幾天更新的隱私政策說起。
在最新的隱私權政策中,谷歌增加了一個關於「研究和開發」的AI模型條款:
Google會利用資訊來改進我們的服務並開發新的產品、功能和技術,以惠及我們的使用者和公眾。
例如,我們會利用公開訊息來説明訓練Google的AI模型並打造實用產品和功能(比如Google翻譯、Bard和Cloud AI功能)。
換言之,就是將所有可能收集到的公開訊息,用在谷歌翻譯、Bard和Cloud AI等AI相關產品或功能的訓練中。
這些公開訊包括哪些內容?有網際網路、網路和其他活動資訊,包括搜尋字詞、應用程式和瀏覽器與Google服務進行互動的相關資訊,以及在第三方網站和應用程式中使用Google服務等。
換而言之,不止是此前已經公開的部落客等內容,包括公開到網上的谷歌文件、或是一些包含個人資訊的發文,也可能會被Google搜集來訓練大模型。
當然,目前這些內容都還限定在「公開訊息」。 像Google提供的Gmail等電子郵件服務,目前應該是還不會被爬進資料裡的。而且Google也明確在隱私權政策中表示,在其他如防範安全威脅、資訊審核、服務維護、個性化廣告或法律等原因情況下,同樣可以使用這些個人或公開訊息。
不過,Google為什麼在這個時間點更新這個政策?
「AI正挑戰文字版權」
或許也與Reddit和Twitter等公司最近的出的「限制瀏覽」有關。
先是今年4月,Reddit宣布對接入API的公司開始收費。公司CEO認為,Reddit的資料庫很有價值,但是他們不想將這些有價值的內容免費提供給科技大公司。
隨後,Twitter也開始以「不想讓AI公司免費使用資料」的理由,為Twitter限制瀏覽,未經驗證使用者每日只能瀏覽600篇發文,經過驗證後可以增加到6000篇。
這一系列政策對使用者和第三方工具影響很嚴重,例如Reddit引發了大規模的討論版的抗議,不少版主直接關閉了自己管理的論壇,以對Reddit這一活動進行抗議,Twitter上也有不少人在聲討,甚至有網友表示「Twitter被殺死了」。
但無論如何,讓AI免費抓取資料這件事,現在都已經是一個無法忽視的矛盾了。
對於GoogleAI爬資料這件事,有網友表示疑惑:
為什麼之前網路的搜尋引擎也有爬取資料一類的動作,但人們卻偏偏對「AI抓取」感到抗拒。
有網友回應稱:
本質上還是版權的問題。如果只是引用受版權保護的資料,那麼不一定侵犯版權,但如果用AI對有版權的內容進行「攪拌清洗」,而且這事兒合法化了,那麼本質上版權已死。
也正是因此,他對於這件事感到悲觀:
如果有人在不標注來源的情況下複製了你的部落格,或是將你的開源的原始碼拿去做付費服務,又或是將你在StackOverflow上的答案用作答題方法,你能接受這些情況發生嗎?
我之前做的一切都是免費的。但現在如果AI想讓我消失,那我就會消失。
當然,也有網友已經接受了這個政策的推出,警惕大家自身防範意識不可或缺:
細讀新政策,注意我們洩露了多少資訊到網上。
你自己的看法是什麼?
資料來源:
- Google Says It'll Scrape Everything You Post Online for AI
- Google says it'll scrape everything online for AI (gizmodo.com)