robots.txt 的混亂時代？數百個網站錯誤封鎖AI爬蟲，因為AI公司不斷推出新爬蟲

數百個網站已將舊的 Anthropic 爬蟲列入黑名單，同時卻沒有封鎖任何新的爬蟲。 Aeeba1c26c1c2e8e7748cb1068b9bbd2

許多網站試圖阻止AI公司Anthropic抓取他們的內容，但卻封鎖錯了對象。這是因為網站管理員複製貼上了過時的指示到他們的robots.txt檔案中（robots.txt是網站用來告知搜尋引擎爬蟲哪些頁面可以抓取的檔案）。同時，AI公司不斷推出新的爬蟲機器人，且每次都使用不同的名字，導致網站除非更新robots.txt，否則無法有效封鎖。

這些網站封鎖了 Anthropic 公司已經不再使用的兩個爬蟲機器人，但卻沒有封鎖 Anthropic 真正（而且是新的）的爬蟲機器人。

Dark Visitors的匿名營運者告訴媒體，這是「robots.txt現狀有多混亂的一個例子」。 Dark Visitors網站專門追蹤各種網路爬蟲和抓取工具的動態，這些網路爬蟲和抓取工具許多是由AI公司所開發的。Dark Visitors可以幫助網站定期更新其robots.txt檔案，以防止特定類型的資料爬取。隨著越來越多的人試圖阻止AI爬取他們的內容作，Dark Visitors網站的人氣急劇上升。

他們補充道：「代理程式的生態系統正在快速變化，因此網站所有者幾乎不可能用手動的方式跟上。例如，蘋果（Applebot-Extended）和 Meta（Meta-ExternalAgent）分別在上個月和上週才新增了新的代理程式。」

Dark Visitors追蹤數百個網路爬蟲和爬取工具，試圖解釋每個爬取工具的功能，並讓網站所有者不斷更新其網站的robots.txt檔案，這是一組指令，告訴機器人是否有權爬取網站。我們一次又一次地看到，AI公司經常會找到方法，偷偷的爬取他們不應該爬取的網站，或者在某些情況下，他們乾脆忽視robots.txt。這導致一些網站無論機器人的用途如何都封鎖所有爬蟲，或者只允許少數幾個特定的爬蟲（Reddit 現在只被 Google 爬取就是因為這個原因）。這可能會導致搜尋引擎、網路存檔工具和學術研究被封鎖，即使這並非網站所有者的本意。

延伸閱讀：AI搜尋引擎Perplexity深陷剽竊風暴，遭指控無視Robots協議爬取內容，CEO出面回應
延伸閱讀：AI 訓練資料告急！網路內容限制引發同意危機

就 Anthropic 的例子來說，一些熱門網站的 robots.txt 檔案，包括路透社（Reuters.com）和康泰納仕（ Condé Nast）旗下的網站，正在封鎖兩個名為「ANTHROPIC-AI」和「CLAUDE-WEB」的人工智慧爬蟲機器人，這些機器人曾經屬於 Anthropic 並被其 Claude 人工智慧聊天機器人使用。但 Anthropic 目前活躍的爬蟲被稱為「CLAUDEBOT」。例如，路透社和康泰納仕都沒有封鎖 CLAUDEBOT。這意味著這些網站以及數百個複製貼上舊封鎖列表的其他網站，實際上並沒有封鎖 Anthropic。

上週，維修指南網站iFixit表示，Anthropic的爬蟲一天內造訪其網站近百萬次，程式碼檔案部署服務Read the Docs發表文章稱，各種爬蟲大規模造訪其伺服器。其中一個爬蟲程式在一天內存取了10 TB的檔案，5月份總共存取了73 TB的檔案：「這讓我們的頻寬費用超過 5,000 美元，我們不得不封鎖這個爬蟲，」他們寫道。「我們要求所有人工智慧公司更尊重他們正在爬取的網站。他們正冒著被許多網站因濫用而封鎖的風險，這與行業中存在的其他版權和道德問題無關。」

Anthropic 的發現發表在 Data Provenance Initiative 的一份報告中，該報告更廣泛地顯示了內容創作者和網站所有者在試圖阻止人工智慧工具對他們的作品進行訓練時所面臨的普遍混亂。阻止AI爬取工具的責任完全由網站所有者承擔，而且爬取工具的數量不斷增加。新的爬取機器人（通常稱為「使用者代理」）不斷出現，AI公司有時會忽略網站所有者明確提出的願望，而且看似與知名公司有關的機器人有時根本與它們無關。

Data Provenance Initiative 在其論文中寫道：「這些無法識別的代理（ANTHROPIC-AI和CLAUDE-WEB）的來源和原因仍不清楚——Anthropic報告不擁有這些代理。」最初，數據溯源倡議組織不確定這些機器人是否由Anthropic營運，除了ANTHROPIC-AI在robots.txt封鎖列表中廣泛流傳（這些列表經常在網站之間複製/貼上）之外，沒有太多公開證據表明ANTHROPIC-AI存在。

Data Provenance Initiative 在其報告中寫道：「這些無法辨識的代理（ANTHROPIC-AI 和 CLAUDE-WEB）的來源和原因仍不清楚——Anthropic 報告稱不擁有這些代理機器人。」最初，Data Provenance Initiative 不確定這些機器人是否真的由 Anthropic 營運，除了它們被廣泛流傳在 robots.txt 封鎖列表上這一事實外，幾乎沒有公開證據表明 ANTHROPIC-AI 曾經存在，而這些列表通常是從一個網站複製貼上到另一個網站的。

Anthropic告訴媒體，ANTHROPIC-AI和CLAUDE-WEB都是該公司曾經使用過的舊爬蟲，但現在已經不再使用。 Anthropic沒有回答關於真正的代理CLAUDEBOT是否尊重已封鎖CLAUDE-WEB或ANTHROPIC-AI的網站的robots.txt，或者何時進行切換的問題。但Dark Visitors的營運商表示，CLAUDE-WEB 直到最近才停止運作，他們在 7 月 12 日還在他們的測試網站上看到過 CLAUDE-WEB。

Data Provenance Initiative 的報告指出：「AI代理之間的這些不一致和遺漏表明，域名創建者承擔了很大的負擔，需要了解（越來越多的）開發人員不斷發展的代理規範。」

該研究的主要作者Shayne Longpre說：「有許多、許多網站列出了他們正在封鎖虛假的 Anthropic 代理，但他們並沒有列出 CLAUDEBOT，這才是真正的 Anthropic 的爬蟲。這意味著網站實際上並沒有封鎖他們認為正在封鎖的爬蟲。」

延伸閱讀：一份君子協議的robots.txt維持了網際網路30年來的秩序，但AI的出現破壞了這種信任和平衡

軟體開發人員羅布·奈特（Robb Knight）發現Perplexity繞過robots.txt爬取不應該爬取的網站，他告訴404 Media，在很多情況下，很難判斷使用者代理的作用或誰在操作它。「包括我在內，人們正在做的事情是複製/貼上代理列表，而不驗證每個代理是否是真的，」他說。奈特補充說，《華爾街日報》和許多新聞集團旗下的網站目前正在封鎖一個名為「Perplexity-ai」的機器人，而這個機器人可能根本不存在（Perplexity 的爬蟲被稱為「PerplexityBot」）。

他說：「我們在任何地方都看不到這個爬蟲的證據。我的猜測是，新聞集團某個財產的某個人在某個時候新增了這個爬蟲，然後它被複製到了他們擁有的其他網站上。」

其他專家同意，當前的使用者代理環境非常混亂，但表示大多數網站管理員可以而且應該在封鎖可疑的AI爬蟲方面犯錯，因為「封鎖」一個不存在的代理不會造成任何傷害。

StackAware 的 CEO華特‧海道克（Walter Haydock）認為，封鎖不存在的爬蟲並不會造成影響。更廣泛地來看，這顯示出大眾對於AI如何（以及應該如何）訓練，存在著許多困惑和不確定性。

他進一步指出，要阻止AI公司的爬蟲，必須仰賴這些公司遵守 robots.txt 的規範，並且要掌握所有AI爬蟲的資訊。然而，這兩者同時發生的可能性對大多數組織來說相當低。因此，他預期將會有更多內容創作者將他們的作品置於付費牆後，以防止不受限制的內容抓取。

在GitHub上維護AI機器人封鎖列表的軟體開發人員柯瑞·德蘭斯菲爾特（Cory Dransfeldt）表示：「考慮到Perplexity等公司的行為，我傾向於在封鎖機器人方面更加激進。」

他說：「絕對有很多[robots.txt]列表被複製和貼上。我交談過的人對科技行業廣泛接受網路爬取感到沮喪，他們正在尋找解決辦法。」

延伸閱讀：從 robots.txt 到壟斷！Reddit 封鎖爬蟲，Google 則花6000萬美元獨佔 Reddit 搜尋結果
延伸閱讀：Reddit 大動作封鎖 Bing 搜尋，Google 獨享爬蟲權限
資料來源：404media

加入電腦王Facebook粉絲團

robots.txt 的混亂時代？數百個網站錯誤封鎖AI爬蟲，因為AI公司不斷推出新爬蟲

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本