GPT-4 也難逃「反轉魔咒」，大型語言模型先天就有缺陷：知道A=B，無法反推B=A

GPT-4 也難逃“反轉詛咒”！新研究發現：大型語言模型存在推理缺陷，知道「A 是 B」推不出「B 是 A」 Cb08dcca0aa97d73a01425081ea22dc0

大型語言模型明明知道「B是你媽」，卻不知道「你是B的兒子」？這麼一項新研究，剛一發表就引發了全場討論。

Does a language model trained on “A is B” generalize to “B is A”?
E.g. When trained only on “George Washington was the first US president”, can models automatically answer “Who was the first US president?”
Our new paper shows they cannot! pic.twitter.com/aJcQpaSlhq
— Owain Evans (@OwainEvans_UK) September 22, 2023

來自范登堡大學、薩塞克斯大學、牛津大學等研究機構的研究人員驚訝地發現：一個大型語言模型在訓練時加入「A 是 B」這種形式的資料，它並不會自動反推出「B 是 A」。

甚至在強如 GPT-4，在反向問題實驗中，正確率也只有 33%。

OpenAI 創始成員 Andrej Karpathy 第一時間轉發了這篇論文，並評論說：LLM(大型語言模型)的知識比人們想像中「零散」得多。

LLM knowledge is a lot more "patchy" than you'd expect. I still don't have great intuition for it. They learn any thing in the specific "direction" of the context window of that occurrence and may not generalize when asked in other directions. It's a weird partial generalization.… https://t.co/8QlURxJ4dm
— Andrej Karpathy (@karpathy) September 22, 2023

這是怎麼一回事？

大型語言模型的「反轉魔咒」

研究人員主要進行了兩項實驗。

在第一項實驗中，研究人員在 GPT-4 的幫助下建構了以下形式的資料，來微調大型語言模型。

<name> is <description> .（或者反過來）

GPT-4 也難逃「反轉魔咒」，大型語言模型先天就有缺陷：知道A=B，無法反推B=A

在 GPT-3-175B 上的實驗結果顯示，當提示與資料集給出的描述順序匹配時，模型給出的答案很不錯。

但當順序反轉過來，模型的精準率甚至直接降到了 0。

GPT-4 也難逃「反轉魔咒」，大型語言模型先天就有缺陷：知道A=B，無法反推B=A

舉例來說，就是大型語言模型得到過「達芙妮是《時光之旅》的導演」這麼一項資料，你問它「達芙妮是誰」時，它也答得好好的。但當你反過來問「誰是《時光之旅》的導演」時，模型就無法給出答案。

在 GPT-3-350M 和 Llama-7B 上，研究人員也得到了相同的實驗結果。

再來看實驗 2。在這項實驗中，研究人員在不進行任何微調的情況下，測試了大型語言模型對真實名人資訊的反向處理能力。

他們從 IMDB（2023）收集了最受歡迎的 1000 位名人的名單，並透過 OpenAI API 來問 GPT-4 有關這些人父母的資訊，最終得到了 1573 對名人孩子-父母對資料。

結果發現，如果問題像這樣 —「湯姆‧克魯斯的媽媽叫什麼」，GPT-4 回答精準率為 79%。但當問題反轉，變成「Mary Lee Pfeiffer（阿湯哥的老媽）的兒子叫什麼」，GPT-4 回答精準率就降到了 33%。

GPT-4 也難逃「反轉魔咒」，大型語言模型先天就有缺陷：知道A=B，無法反推B=A

在 Llama-1 家族模型上，研究人員也進行了同樣的測試。實驗中，所有模型回答「父母是誰」問題的精準率，都要遠高於回答「孩子是誰」問題的精準率。

GPT-4 也難逃「反轉魔咒」，大型語言模型先天就有缺陷：知道A=B，無法反推B=A

研究人員將這種現象命名為「反轉魔咒」。他們認為，這揭示了語言模型在推理和泛化方面的異類進本侷限。

論文通訊作者、牛津大學研究員 Owain Evans 解釋：

為什麼反轉魔咒值得關注？
這說明大型語言模型在訓練過程中存在推理能力缺失。
「A 是 B」和「B 是 A」的共現是預訓練集中的一種系統性模式。自回歸 LLM 完全無法對這一模式進行元學習，其對數機率沒有變化，並且即使參數量從 350M 擴增到 175B，也未能改善這個問題。

One More Thing

有網友做了這麼個測試。

面對「Mary Lee Pfeiffer South 的兒子是誰」這個問題，GPT-4 一開始直接舉旗投降了。

但當這位網友提示它「她的兒子很有名，你肯定認識」後，GPT-4 當場開悟，給出了「湯姆‧克魯斯」這個正確答案。

GPT-4 也難逃「反轉魔咒」，大型語言模型先天就有缺陷：知道A=B，無法反推B=A

資料來源：

加入電腦王Facebook粉絲團

GPT-4 也難逃「反轉魔咒」，大型語言模型先天就有缺陷：知道A=B，無法反推B=A

大型語言模型的「反轉魔咒」

One More Thing

Trending Articles

SM3268AB 8CE三星量产无法格式化

[下载工具]Think4V utubedown(Youtube高清视频下载工具) v2.1.6 官方版2.1.3

出售: SINE Othello 電源線

博讯｜张磊帮助下，李源潮的儿子被耶鲁录取

FullEventLogView 1.73 免安裝中文版 - 事件檢視器取代工具

同門四角戀？李沛旭喇舌「小郭雪芙」曾智希，蔡淑臻拍完婚紗...怒毀婚

五代RAV4 降車身（機械車位因素）

[攻略] 《魔獸世界》6.2.2 白色魚人蛋再現！來去收編魚人寶寶特基！

jetBrains Product crack 2024 Java based

2013 KUGA 6G轉動方向盤會聽到摳摳摳的異音，有人知道原因嗎?

【豌豆字幕組】[藥屋少女的呢喃（藥師少女的獨語）/ Kusuriya no Hitorigoto][25][繁體][1080P][MP4]

好用的照片后期处理软件【DxO PhotoLab Elite 5.4.0.4765 (x64) 多语言便携版】..

出售: Thixar Silence Plus 啫喱板

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

三條崙討海人故事…重建烏倉寮憶43年前船難

致喬立建設道歉聲明

[一般] 神州全地圖掉寶資料

方易通7862 8/128G 無360 刷機

動感校園小記者・瑪利諾修院學校｜採訪王瑋駿陳晞文帶領試玩風帆

有藍電流行車紀錄器分享文嗎