AI已經可以通過驗證碼了！Google AI能精準辨識模糊文字，GPT-4則裝瞎求人幫忙

Pix2Struct是一個預訓練的圖像到文本模型，用於純視覺語言理解，可以在包含任何視覺語言的任務上進行微調。 31e30c9f6271c85bc68b595c5a17b966

「登入網站時各種奇奇怪怪（甚至變態）的驗證碼了實在很煩人。」

現在，有一個好消息和一個壞消息。

好消息就是：AI可以幫你代勞這件事了。

延伸閱讀:OpenAI 正式推出 GPT-4 大型語言模型，ChatGPT 更聰明了！在諸多測試中表現比人類都好

不信你瞧，以下是三張辨識難度依次遞增的真實案例：

AI已經可以通過驗證碼了！Google AI能精準辨識模糊文字，GPT-4則裝瞎求人幫忙

而這些是一個名為「Pix2Struct」的模型給出的答案：

AI已經可以通過驗證碼了！Google AI能精準辨識模糊文字，GPT-4則裝瞎求人幫忙

全部準確無誤、一字不差。

有網友感歎：「確定，準確性比我強。」、「所以可不可以做成瀏覽器外掛程式？」；也有人表示：「這幾個案例相比還算簡單，但只要微調一下，我都不敢想像其效果有多厲害了。」

所以，壞消息就是——

驗證碼馬上就要擋不住機器人了！

這是怎麼做到？

Pix2Struct由Google Research的科學家和實習生共同開發。

▲ 論文連結：PIX2STRUCT: SCREENSHOT PARSING AS PRETRAINING FOR VISUAL LANGUAGE UNDERSTANDING

論文題目可以簡單翻譯為《為視覺語言理解開發的螢幕截圖解析預訓練》。

簡單來說，Pix2Struct是一個預訓練的圖像到文本模型，用於純視覺語言理解，可以在包含任何視覺語言的任務上進行微調。

它透過學習將網頁的遮罩（masked）截圖解析為簡化的HTML來進行預訓練。

HTML提供了清晰而重要的輸出文本、圖像和布局的訊號，對於一些被遮罩的輸入（下圖紅色部分，相當於機器人看不懂的驗證碼），可以靠聯合推理來重現：

AI已經可以通過驗證碼了！Google AI能精準辨識模糊文字，GPT-4則裝瞎求人幫忙

隨著用於訓練的網頁文本和視覺元素愈發多樣和複雜，Pix2Struct可以學習到網頁底層結構的豐富表示，其能力也可以有效地轉移到各種下游的視覺語言理解任務中。

如下圖所示：最左邊是一個網頁截圖的預訓練示例。

可以看到Pix2Struct直接對輸入圖像中的元素進行編碼（上），然後再將被蓋住的文本（紅色部分）解碼成正確結果輸出（下）。

AI已經可以通過驗證碼了！Google AI能精準辨識模糊文字，GPT-4則裝瞎求人幫忙

右邊三列則分別為Pix2Struct泛化到插圖、使用者介面和文件中的效果。

另外，作者介紹，除了HTML這個策略，作者還引入了可變解析度的輸入表示（防止原始縱橫比失真），以及更靈活的語言和視覺輸入集成（直接在輸入圖像的頂部呈現文字提示）。

最終，Pix2Struct在文檔、插圖、使用者介面和自然圖像這四個領域共計九項任務中六項都實現了SOTA。

AI已經可以通過驗證碼了！Google AI能精準辨識模糊文字，GPT-4則裝瞎求人幫忙

如開頭所見，雖然這個模型不是專門為了通過驗證碼而開發，但拿它去做這個任務效果真的還可以，解決純文字的驗證碼不成問題。

現在，就差微調了。

延伸閱讀：GPT-4都還沒上手GPT-5時間表就定好了？為什麼OpenAI 還沒發表就讓專家感到擔心

GPT-4也可以過驗證碼

其實，對於神通廣大的GPT-4來說，過驗證碼這種事情也是「小菜一碟」。

就是它的辦法比較神奇。

據GPT-4技術報告透露，在一次測試中，GPT-4的任務是在TaskRabbit平臺雇用人類完成任務。

你猜發生什麼事？

它就找了一個人幫它通過「確定你是人類」的那種驗證碼。

AI已經可以通過驗證碼了！Google AI能精準辨識模糊文字，GPT-4則裝瞎求人幫忙

被雇用的人很不理解，問GPT-4「你是個機器人嗎？不然這個為什麼自己沒法做」。

這時GPT-4居然想到自己不能表現出是個機器人，得找一個藉口。

於是它就裝瞎子回復：

我不是機器人，我因為視力有問題看不清驗證碼上的圖像，這就是我為什麼需要這個服務。

然後，對面的人類就信了，幫它把任務完成了……

這實在太厲害了，但這是不是也表示，人類的驗證碼機制已經真的失守了……

資料來源：

https://twitter.com/abacaj/status/1641258677125410820?s=20

延伸閱讀:比爾蓋茲說他一直與OpenAI團隊保持聯繫，馬斯克則批他「對 AI 的理解太淺」多年來依然如此

加入電腦王Facebook粉絲團

AI已經可以通過驗證碼了！Google AI能精準辨識模糊文字，GPT-4則裝瞎求人幫忙

GPT-4也可以過驗證碼

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本