OpenAI 的資料爬蟲最近發現自己卡在一個獨特的網站上,這個網站被稱為「世界上最無聊的內容農場」,導致活動急劇增加。這個網站是由《網路入門》(Internet for Dummies)一書的作者約翰·萊文(John Levine)所建立,是一個實驗性質的網站。
該網站包含數十億個單頁的網站,所有網站相互連接。每個頁面看起來幾乎相同,但每當有人點擊連結,網站的內容就會稍微改變一下。萊文使用一個簡單的程式創建了一個系統,每次點擊都會從儲存在資料庫中的一組名字中產生一個新的頁面名稱。
萊文的網站設計很容易誘捕網頁爬蟲,這些爬蟲是設計用來掃描網際網路的程式。例如,OpenAI 的機器人就因此陷入這個循環當中,以至於在一天內幾乎每秒存取該網站150次。
萊文對此感到很有趣,並在一個面向網路開發者和IT專家的專業郵件列表上分享了這個問題,尋找 OpenAI 的聯絡窗口,要向他報告他們爬蟲的行為。
這一事件凸顯了一個更廣泛的問題,即AI模型是如何透過無分別地從網路收集資料進行訓練,有時會捕獲無意義或無關的訊息。這個問題足以引起萊文對未來AI版本可能使用的訓練數據性質的評論。
他幽默地建議,如果有人對訓練下一代 AI 模型的數據感到好奇,他們現在有了一個範例了。
當萊文發文後,機器人停止造訪該網站,問題得到了解決。他的網站有些不尋常。與其說是擁有數十億頁面,不如說是數十億個擁有單一頁面的小型網站。
這種設定讓許多網路爬蟲感到困惑,不僅僅是 OpenAI 的爬蟲。過去,來自 Bing 和 Amazon 的機器人也曾發生過類似問題。
萊文網站也有一些較輕鬆的目的。它放了兩本萊文的書和一盒假雞蛋的廣告,萊文形容這些商品「蠻可愛的」。
儘管有商業方面考量,但他提到他書籍的銷售量已不如從前,幽默地補充說,不像他那本暢銷書早期問世的時候,現在每個人都知道如何使用網際網路了。
加入電腦王Facebook粉絲團