
許多網站試圖阻止AI公司Anthropic抓取他們的內容,但卻封鎖錯了對象。這是因為網站管理員複製貼上了過時的指示到他們的robots.txt檔案中(robots.txt是網站用來告知搜尋引擎爬蟲哪些頁面可以抓取的檔案)。同時,AI公司不斷推出新的爬蟲機器人,且每次都使用不同的名字,導致網站除非更新robots.txt,否則無法有效封鎖。
這些網站封鎖了 Anthropic 公司已經不再使用的兩個爬蟲機器人,但卻沒有封鎖 Anthropic 真正(而且是新的)的爬蟲機器人。
Dark Visitors的匿名營運者告訴媒體,這是「robots.txt現狀有多混亂的一個例子」。 Dark Visitors網站專門追蹤各種網路爬蟲和抓取工具的動態,這些網路爬蟲和抓取工具許多是由AI公司所開發的。Dark Visitors可以幫助網站定期更新其robots.txt檔案,以防止特定類型的資料爬取。隨著越來越多的人試圖阻止AI爬取他們的內容作,Dark Visitors網站的人氣急劇上升。
他們補充道:「代理程式的生態系統正在快速變化,因此網站所有者幾乎不可能用手動的方式跟上。例如,蘋果(Applebot-Extended)和 Meta(Meta-ExternalAgent)分別在上個月和上週才新增了新的代理程式。」
Dark Visitors追蹤數百個網路爬蟲和爬取工具,試圖解釋每個爬取工具的功能,並讓網站所有者不斷更新其網站的robots.txt檔案,這是一組指令,告訴機器人是否有權爬取網站。我們一次又一次地看到,AI公司經常會找到方法,偷偷的爬取他們不應該爬取的網站,或者在某些情況下,他們乾脆忽視robots.txt。這導致一些網站無論機器人的用途如何都封鎖所有爬蟲,或者只允許少數幾個特定的爬蟲(Reddit 現在只被 Google 爬取就是因為這個原因)。這可能會導致搜尋引擎、網路存檔工具和學術研究被封鎖,即使這並非網站所有者的本意。
就 Anthropic 的例子來說,一些熱門網站的 robots.txt 檔案,包括路透社(Reuters.com)和康泰納仕( Condé Nast)旗下的網站,正在封鎖兩個名為「ANTHROPIC-AI」和「CLAUDE-WEB」的人工智慧爬蟲機器人,這些機器人曾經屬於 Anthropic 並被其 Claude 人工智慧聊天機器人使用。但 Anthropic 目前活躍的爬蟲被稱為「CLAUDEBOT」。例如,路透社和康泰納仕都沒有封鎖 CLAUDEBOT。這意味著這些網站以及數百個複製貼上舊封鎖列表的其他網站,實際上並沒有封鎖 Anthropic。
上週,維修指南網站iFixit表示,Anthropic的爬蟲一天內造訪其網站近百萬次,程式碼檔案部署服務Read the Docs發表文章稱,各種爬蟲大規模造訪其伺服器。其中一個爬蟲程式在一天內存取了10 TB的檔案,5月份總共存取了73 TB的檔案:「這讓我們的頻寬費用超過 5,000 美元,我們不得不封鎖這個爬蟲,」他們寫道。「我們要求所有人工智慧公司更尊重他們正在爬取的網站。他們正冒著被許多網站因濫用而封鎖的風險,這與行業中存在的其他版權和道德問題無關。」
Anthropic 的發現發表在 Data Provenance Initiative 的一份報告中,該報告更廣泛地顯示了內容創作者和網站所有者在試圖阻止人工智慧工具對他們的作品進行訓練時所面臨的普遍混亂。阻止AI爬取工具的責任完全由網站所有者承擔,而且爬取工具的數量不斷增加。新的爬取機器人(通常稱為「使用者代理」)不斷出現,AI公司有時會忽略網站所有者明確提出的願望,而且看似與知名公司有關的機器人有時根本與它們無關。
Data Provenance Initiative 在其論文中寫道:「這些無法識別的代理(ANTHROPIC-AI和CLAUDE-WEB)的來源和原因仍不清楚——Anthropic報告不擁有這些代理。」最初,數據溯源倡議組織不確定這些機器人是否由Anthropic營運,除了ANTHROPIC-AI在robots.txt封鎖列表中廣泛流傳(這些列表經常在網站之間複製/貼上)之外,沒有太多公開證據表明ANTHROPIC-AI存在。
Data Provenance Initiative 在其報告中寫道:「這些無法辨識的代理(ANTHROPIC-AI 和 CLAUDE-WEB)的來源和原因仍不清楚——Anthropic 報告稱不擁有這些代理機器人。」最初,Data Provenance Initiative 不確定這些機器人是否真的由 Anthropic 營運,除了它們被廣泛流傳在 robots.txt 封鎖列表上這一事實外,幾乎沒有公開證據表明 ANTHROPIC-AI 曾經存在,而這些列表通常是從一個網站複製貼上到另一個網站的。
Anthropic告訴媒體,ANTHROPIC-AI和CLAUDE-WEB都是該公司曾經使用過的舊爬蟲,但現在已經不再使用。 Anthropic沒有回答關於真正的代理CLAUDEBOT是否尊重已封鎖CLAUDE-WEB或ANTHROPIC-AI的網站的robots.txt,或者何時進行切換的問題。但Dark Visitors的營運商表示,CLAUDE-WEB 直到最近才停止運作,他們在 7 月 12 日還在他們的測試網站上看到過 CLAUDE-WEB。
Data Provenance Initiative 的報告指出:「AI代理之間的這些不一致和遺漏表明,域名創建者承擔了很大的負擔,需要了解(越來越多的)開發人員不斷發展的代理規範。」
該研究的主要作者Shayne Longpre說:「有許多、許多網站列出了他們正在封鎖虛假的 Anthropic 代理,但他們並沒有列出 CLAUDEBOT,這才是真正的 Anthropic 的爬蟲。這意味著網站實際上並沒有封鎖他們認為正在封鎖的爬蟲。」
軟體開發人員羅布·奈特(Robb Knight)發現Perplexity繞過robots.txt爬取不應該爬取的網站,他告訴404 Media,在很多情況下,很難判斷使用者代理的作用或誰在操作它。「包括我在內,人們正在做的事情是複製/貼上代理列表,而不驗證每個代理是否是真的,」他說。奈特補充說,《華爾街日報》和許多新聞集團旗下的網站目前正在封鎖一個名為「Perplexity-ai」的機器人,而這個機器人可能根本不存在(Perplexity 的爬蟲被稱為「PerplexityBot」)。
他說:「我們在任何地方都看不到這個爬蟲的證據。我的猜測是,新聞集團某個財產的某個人在某個時候新增了這個爬蟲,然後它被複製到了他們擁有的其他網站上。」
其他專家同意,當前的使用者代理環境非常混亂,但表示大多數網站管理員可以而且應該在封鎖可疑的AI爬蟲方面犯錯,因為「封鎖」一個不存在的代理不會造成任何傷害。
StackAware 的 CEO華特‧海道克(Walter Haydock)認為,封鎖不存在的爬蟲並不會造成影響。更廣泛地來看,這顯示出大眾對於AI如何(以及應該如何)訓練,存在著許多困惑和不確定性。
他進一步指出,要阻止AI公司的爬蟲,必須仰賴這些公司遵守 robots.txt 的規範,並且要掌握所有AI爬蟲的資訊。然而,這兩者同時發生的可能性對大多數組織來說相當低。因此,他預期將會有更多內容創作者將他們的作品置於付費牆後,以防止不受限制的內容抓取。
在GitHub上維護AI機器人封鎖列表的軟體開發人員柯瑞·德蘭斯菲爾特(Cory Dransfeldt)表示:「考慮到Perplexity等公司的行為,我傾向於在封鎖機器人方面更加激進。」
他說:「絕對有很多[robots.txt]列表被複製和貼上。我交談過的人對科技行業廣泛接受網路爬取感到沮喪,他們正在尋找解決辦法。」
- 延伸閱讀:從 robots.txt 到壟斷!Reddit 封鎖爬蟲,Google 則花6000萬美元獨佔 Reddit 搜尋結果
- 延伸閱讀:Reddit 大動作封鎖 Bing 搜尋,Google 獨享爬蟲權限
- 資料來源:404media