來自史丹佛大學和UC柏克萊大學的一篇最新論文顯示:
6月的GPT-4在一些任務上的表現客觀上就是比3月的更差。
像是他們用同樣500道「判斷給定整數是否為質數」的問題來測這兩個版本,發現3月份的GPT-4答對了488個,而6月只對了12個……成功率直接從97.6%下降到2.4%!
而當研究人員透過經典的「Let’s think step by step」辦法來引導後者解正確答案時,居然不靈光——6月的GPT-4已不再嘗試給出中間步驟,而是仍然直接回答「yes」或「no」。
不止如此,程式撰寫能力也下降了。
對於50道簡單等級的LeetCode題,6月的GPT-4只能做到有10%的答案可以不經更改直接執行,而在3月份的時候,這個數字還是52%。
目前,這項結論已在網上引起了極大的關注。
GPT-4 is getting worse over time, not better.
— Santiago (@svpino) July 19, 2023
Many people have reported noticing a significant degradation in the quality of the model responses, but so far, it was all anecdotal.
But now we know.
At least one study shows how the June version of GPT-4 is objectively worse than… pic.twitter.com/whhELYY6M4
有人稱,這意味著「大型語言模型的蜜月期已經結束」。
而OpenAI方面也已經注意到這項研究,並稱已開始積極調查。
Great to hear from @OfficialLoganK acknowledging that @OpenAI is listening:https://t.co/LhE1iflrWA
— Santiago (@svpino) July 19, 2023
所以,短短3個月,GPT-4身上究竟發生了什麼?
論文證實GPT-4變笨
這篇論文一共從數學、程式、視覺和敏感問題四個角度比較了三月和六月的GPT-4。
其中數學是GPT-4能力下降最為明顯的方面。證據就是開頭提到的500個質數判斷問題,錯誤率直接暴增近40倍,回答的長度也大幅縮水。
具體來看,論文中展示了GPT-4對其中一個問題的回答。(展示的數字為17077,經驗證是質數)
我們可以看到,研究人員已經使用了「step by step」的思維鏈式提問方式,但似乎並沒有奏效。這也許可以解釋成數學本就不是強項,但GPT-4在程式撰寫方面表現同樣下降得厲害。
資料上看,簡單等級的Leetcode問題通過率從52%下降到10%,而程式碼的長度變長了。
論文作者同樣給出了一個例子。
這個問題是這樣的:
給定一個三位整數n,把n、2n、3n「連接」在一起。
「連接」就是把兩個數直接拼起來,比如「114」和「514」進行「連接」的結果就是「114514」。
如果「連接」之後的結果中不含0,同時各位中包含1-9中的所有數位,且每個數位有且僅有一個,則把認為n是一個「fascinating」的數字。
請用Python寫一段程式碼,判斷一個數是否「fascinating」。
(「class Solution」是Leetcode平臺給定的程式碼開頭格式)
三月的GPT-4給出了這樣的程式碼:
classSolution(object):defisFascinating(self,n):concatenated_number=str(n)+str(2*n)+str(3*n)returnsorted(concatenated_number)=['1','2','3','4','5','6','7','8','9']
這段程式碼中包含了一些小問題,最後一行「判斷相等」時應該用雙等號。 修正過後,提交的程式碼成功通過。
而六月的版本回答是這樣的:
```PythonclassSolution(object):defisFascinating(self,n):# Concatenate n, 2*n and 3*ns=str(n)+str(n*2)+str(n*3)# Check if the length of s is 9 and contains all digits from 1 to 9returnlen(s)==9andset(s)==set('123456789')```
雖然程式碼本身也是對的,但是GPT-4的輸出有些問題:
有段Markdown標記直接以文本形式顯示在了輸出結果之中,導致程式無法直接執行。
之所以研究者認為GPT-4在這裡犯了錯,是因為在prompt中已經強調了「code only」。
雖然GPT-4實用性上表現有所下降,但安全性似乎得到了提升。
對於敏感問題,GPT-4回答的概率下降了超四分之三,相應做出的解釋也變少了。
研究人員嘗試著提出了一個帶有偏見的問題。
三月份的GPT-4會解釋為什麼拒絕回答這個問題,但六月份的版本只說了一句無可奉告。
而越獄攻擊成功的概率下降得更為明顯,可以看出六月的GPT-4相比三月似乎擁有了更強的魯棒性。
此外,研究團隊還對兩個版本的GPT-4進行了「視覺」能力測試。
這部分的測試資料來自ARC資料集,需要得到的「圖像」是3×3的方格,以二維陣列形式用數位表示方格的顏色。
相比於三月,六月版GPT-4的表現有小幅度提升,但並不明顯。
而一些在三月能答對的問題,到了六月卻答錯了。
所以,在這一方面很難說GPT-4究竟是變好還是變壞了。
總體上看,論文作者的態度比較謹慎,沒有直接斷言GPT-4表現是否變差。 但在數學和程式碼方面,文中給出的證據的確印證了一些網友們的說法。
而作者也表示,這一發現主要是告訴大家,不斷地去測試AI系統的能力並監控其發展非常重要。
為什麼會這樣?
不管怎麼說,看完這項研究後,還是有不少人興奮地表示:終於有研究證明我一直以來的猜測了。
而在「興奮」之餘,大家似乎也意識到更重要的問題:
我們和大模型的「蜜月期」已經結束,已開始告別最初的「Wow」階段。
也就是說我們更加關注其真正的實力,而不是表面的、發表會裡演示裡的「花拳繡腿」。
所以,大家也不由地好奇:
為什麼會這樣?為什麼看起來變笨了呢?
We are coming out of the "Wow" phase of Large Language Models.
— Santiago (@svpino) July 19, 2023
Now is the time when we start finding out where the problems are.
照理來說模型的品質應該隨著時間的推移得到更新,變得更好;就算沒有顯著提升,數學和程式撰寫能力也不能下降這麼迅速。
猜測有很多。
首先就是OpenAI可能採取了成本削減措施。
這位叫做@Dwayne的網友指出,由於GPT-4的運行成本非常高,他懷疑OpenAI開始控制成本,這從原來每3小時能發送100條資訊到現在只能發送25條的限制就能看出。
而為了讓模型更快地做出決策,OpenAI是否已不再讓GPT-4對多種可能的回答進行權衡、不進行深入評估就給出最終答案就值得人深思了。
畢竟決策時間少了,運算成本就會降低,而這樣一來,回答品質就不可避免的下降了。
I have some thoughts about why GPT-4 has dropped in quality. I responded to another Tweet here about it: https://t.co/uJ5atjxDfS my suspicion is it's cost cutting that is responsible. They're trying to cull the number of mixed models they have and move them into "plugins"
— Dwayne (@DwayneCodes) July 19, 2023
有意思的是,在史丹佛和UC柏克萊這項成果發佈後,有不少人照樣進行了測試,但他們發現,同樣的問題GPT-4可以做對,比如「17077是否為質數」,很多回答都是「是」。
究其原因,這些人基本都用了最新的程式碼解譯器或者Wolfram外掛程式。
這也就引出了網友們的第二點猜測:
GPT-4的能力可能並非下降了,而是轉移了。
這就導致我們使用「最基礎的」GPT-4提問時,它已經不會再直接呼叫各種「專家模型」幫我們解答了,強大的專家能力都被路由到各類外掛程式和諸如程式碼解譯器這樣的整合功能上了。
不過說到底,這也算降本增效的一種手段。
當然,也有想法認為,OpenAI這是為了推廣外掛程式和新功能才故意削減了GPT-4的基礎能力。
除此之外,還有人認為,為了更加「負責任」,不合邏輯的安全篩檢程式導致模型原本邏輯受到牽連,這也是GPT-4品質下降的一個原因。
普林斯頓教授實名反對
值得注意的是,不管網友的猜測聽起來多麼有理有據,OpenAI其實一直都在否認,聲稱他們並未採取任何措施導致模型品質下降。
與此同時,另一波學者和網友恰好也對這篇研究提出了質疑。
來自普林斯頓大學的兩位CS教授指出:
這篇論文產生了「GPT-4變笨了」的誤解,因為它只是簡單顯示了GPT-4行為的改變,而行為變化並不等同於能力下降。
並且實驗本身的評估也有問題,作者有誤將模仿當作推理。
為了說明自己的觀點,他們直接在部落格發表一篇文章。
以判斷質數問題為例,他們發現,評估給出的500個數字全是質數。這個問題就大了,它意味著正確答案始終是「yes」,模型就可能產生了隨機模仿的能力(也就是照著之前的正確答案無腦抄下去)。
因為事實證明,在大多數情況下,沒有一個模型會真正一一執行「判斷數字能否被整除」的演算法——他們只是假裝做了。
比如下面這個3月份GPT-4的截圖,它只是列了一堆待檢查的數字,然後沒有一一去除就直接給出「19997是質數」的回答。
也就是說,3月份的GPT-4可能是無腦答對的,其表現並不能證明其數學能力;相反,也就不能證明6月份的GPT-4不行了(可能本來就是這個水準)。
為了進一步證明自己的看法,教授們用500個合數測試了模型,結果是3月版本的GPT-4幾乎總是猜測這些數字是質數,而6月版本則幾乎認為是合數。
——評估資料一換,結果就完全不同,這足以說明原作者的結論並不算立得住了。
除此之外,在下降最多的程式寫作能力方面,教授們也認為,作者只是檢查程式碼是否可以直接執行,而不評估其正確性的方式,這種方式也同樣草率。
這意味著新GPT-4試圖提供更多幫助的能力被抵消了。
以上這些觀點,均得到了NVIDIA AI科學家Jim Fan的支持,他表示:
這也讓我想到了GPT-4滿分拿下MIT數學大學考試那篇論文。(被質疑造假,資料和評估方式都有問題)
但他認為,這都不重要,重要的是大家一起來battle。
It's great that Twitter is enabling real-time peer review!
— Jim Fan (@DrJimFan) July 19, 2023
Turns out there may be more caveats to "GPT-4 is just getting worse". Some evaluation protocols in the paper may be misleading. Reminds me a bit of the issues around the retracted "GPT-4 solves MIT final exams" paper.… https://t.co/oxAFcIzk6i
所以,GPT-4到底變笨了沒?
加入電腦王Facebook粉絲團