Channel: 電腦王

↧

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

May 10, 2023, 6:00 pm

≫ Next: ZOTAC GeForce RTX Studio 創作者主機，建模、剪輯及轉檔的神兵利器

≪ Previous: AMD為ROG掌機定製Ryzen Z1：Zen4＋RDNA3、功耗竟只有9W

打開AI黑盒子這件事，可能還要靠AI自己來實現了。 25f5fc6fa07cfeaad8a2db183ab1b09f

25f5fc6fa07cfeaad8a2db183ab1b09f

打開AI黑盒子這件事，可能還要靠AI自己來實現了。

OpenAI的最新的研究做了一波大膽嘗試：

讓GPT-4去解釋GPT-2的行為模式。

結果顯示，超過1000個神經元的解釋得分在0.8以上——也就是說GPT-4能理解這些神經元。

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

要知道，「AI黑箱難題」長期以來是一個熱議話題，尤其是大語言模型領域，人類對其內部工作原理的理解還非常有限，這種「不透明化」也進一步引發了人類對AI的諸多擔憂。

目前推進AI可解釋性研究的一個簡單辦法，就是逐個分析大模型中的神經元，手動檢查以確定它們各自所代表的資料特徵。但對於規模已經達到百億、千億等級的大規模神經網路來說，工作量和工作難度已經是難以想像的。因此，OpenAI的研究人員想到，為什麼不讓AI去自動化搞定這個大工程？

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

在這項最新的研究中，他們將GPT-4打造成了一個理解AI行為模式的工具，把GPT-2超過30萬個神經單元都解釋了一遍，並和實際情況比對進行評分。

最終產生的解釋資料集和工具程式碼，已對外開源。

研究人員表示：未來，這種AI工具可能在改善LLM性能上發揮巨大作用，比如減少AI偏見和有害輸出。

解釋接近人類水準

具體來看，整個研究的步驟可以分為3個步驟。

第一步，先給GPT-4一段文本，並展示GPT-2在理解這段文本時啟動的神經元情況。

然後讓GPT-4來解釋，這段文本中神經元的啟動情況。

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

比如示例中給出了一段漫威複聯的文本，GPT-4分析的啟動神經元為：

電影、角色和娛樂

第二步，讓GPT-4開始模擬，這些被解釋的神經元接下來會做什麼。

GPT-4給出了一段內容。

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

第三步，讓GPT-2真實的神經元被啟動來產生結果，然後和GPT-4模擬的結果進行比對，研究人員會對此評分。

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

在部落格給出的示例中，GPT-4的得分為0.34.

使用這個辦法，研究人員讓GPT-4解釋了GPT-2一共307200個神經元。

OpenAI表示，使用這一基準，AI解釋的分數能接近人類水準。

從總體結果來看，GPT-4在少數情況下的解釋得分很高，在0.8分以上。

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

他們還發現，不同層神經元被啟動的情況，更高層的會更抽象。

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

此外，團隊還總結了如下幾點結論：

如果讓GPT-4重複解釋，它的得分能更高
如果使用更強大的模型來解釋，得分也會上升
用不同的啟動函數訓練模型，能提高解釋分數

總結來看就是，雖然GPT-4目前的表現一般，但是這個方法和想法的提升空間還有很大。團隊也強調，現在在GPT-2上的表現都不太好，如果換成更大、更複雜的模型，表現也會比較堪憂。

同時這種模式也能適用於聯網的LLM，研究人員認為可以透過簡單調整，來弄清楚神經元如何決策搜尋內容和造訪的網站。此外他們還表示，在創建這個解釋系統時並沒有考慮商業化問題，理論上除了GPT-4，其他LLM也能實現類似效果。

接下來，他們打算解決研究中的這幾個問題：

AI神經元行為十分複雜，但GPT-4給的解釋非常簡單，所以有些複雜行為還無法解釋；
希望最終自動找到並解釋複雜的整個神經回路，神經元和注意力一起工作；
目前只解釋了神經元的行為，但沒解釋行為背後的機制；
整個過程算力消耗巨大。

網友：快轉到AI創造AI

意料之中，這項研究馬上在網路上引發熱議。

大家的馬上聯想到：「AI教人類理解AI。」

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

「AI教人類關掉AI中存在風險的神經元。」

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

還有人開始暢想，AI理解AI會快速發展為AI訓練AI（已經開始了），然後再過不久就是AI創造新的AI了。

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

當然這也引發了不少擔憂，畢竟GPT-4本身也還是個黑盒子啊。

人類拿著自己不理解的東西，讓它解釋另一個自己不理解的東西，這個風險……

人類用自己不理解的GPT-4，去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

這項研究由OpenAI負責校準的團隊提出。

他們表示，這部分工作是他們對齊研究的第三大支柱的一部分：
我們想要實現自動化對齊。這種想法一個值得思考的方面是，它可能隨著AI的發展而擴展更多。隨著未來AI模型變得越來越智慧，我們也能找到對AI更好的解釋。

論文地址：

Language models can explain neurons in language models

資料來源：

加入電腦王Facebook粉絲團

↧

Latest Images

【斗羅大陸：獵魂世界】諾丁鬥場教學｜千萬不要培養第二隊｜不用紅星武魂也能通關｜陣容使用推薦｜新手必看重點攻略｜#斗羅大陸獵魂世界 #斗羅大陸獵魂世界禮包碼...

【斗羅大陸：獵魂世界】諾丁鬥場教學｜千萬不要培養第二隊｜不用紅星武魂也能通關｜陣容使用推薦｜新手必看重點攻略｜#斗羅大陸獵魂世界 #斗羅大陸獵魂世界禮包碼...

July 20, 2025, 3:06 am

[LoliHouse] Princess-Session Orchestra - 15 [WebRip 1080p HEVC-10bit...

[LoliHouse] Princess-Session Orchestra - 15 [WebRip 1080p HEVC-10bit...

July 20, 2025, 3:03 am

CPU固定扣具導熱改良簡易分享

CPU固定扣具導熱改良簡易分享

July 20, 2025, 2:58 am

剛擺脫「黑戶」21歲青年兵役怎辦？中市府：若在學可延期徵集

剛擺脫「黑戶」21歲青年兵役怎辦？中市府：若在學可延期徵集

July 20, 2025, 2:21 am

本季5星好評！《Silent Witch沉默魔女的祕密》特裝版開放預購

本季5星好評！《Silent Witch沉默魔女的祕密》特裝版開放預購

July 20, 2025, 2:20 am

5G通訊翻新頁義傳推出眼鏡蛇MT2824全新晶片

5G通訊翻新頁義傳推出眼鏡蛇MT2824全新晶片

July 20, 2025, 1:30 am

台積電嘉科廠「50噸板車翻車」廠區停工 2個月內4起工安意外

台積電嘉科廠「50噸板車翻車」廠區停工 2個月內4起工安意外

July 20, 2025, 12:29 am

中職／明星賽曾頌恩全壘打大賽14轟奪冠兄弟隊史第4人

中職／明星賽曾頌恩全壘打大賽14轟奪冠兄弟隊史第4人

July 20, 2025, 12:24 am

在地黑毛豬、筊白筍登上營養午餐桃園食農教育首獲五星肯定

在地黑毛豬、筊白筍登上營養午餐桃園食農教育首獲五星肯定

July 20, 2025, 12:18 am

中國全面推行「網絡身份證」電子認證減低個資外洩風險

中國全面推行「網絡身份證」電子認證減低個資外洩風險

July 19, 2025, 11:58 pm

Trending Articles

請問~ 車用重低音改家用~

May 18, 2017, 8:56 am

乱化是因没分清男女

April 6, 2016, 6:22 pm

Lorenzo 羅蘭索電動沙發疑似變形問題諮詢

August 15, 2017, 11:14 pm

【幻月字幕组】【24年日剧】【小早我啊】【01】【1080P】【中文字幕】

June 4, 2024, 6:05 pm

【千夏字幕组】【紫罗兰永恒花园·外传 —永远与自动手记人偶—_Violet Evergarden Side Story -Eternity and...

March 23, 2020, 10:39 pm

教育部鼓励厨房安装监控萤石为校园食品安全保驾护航

April 13, 2017, 4:12 am

Windbg 指令與分析之教學筆記

December 3, 2019, 1:25 am

中華電信光纖35M/6M夠一般使用嗎？

July 29, 2022, 9:02 am

越南大登園區強化生活機能

September 24, 2015, 8:58 pm

《沈冰自述——我和周永康的故事》全本

February 8, 2015, 9:08 pm

晴色杀手《ＸＸ系列》：1993 美丽凶器、1994 美丽猎人、1996 掠色无罪、1997 温柔的美兽、1997 狂爱、1998 另一个XX

April 13, 2017, 2:06 am

[下載][溫日良][海洋瘋狂][邪狼惡獸+疤面戰盔+死角第001-008話](完)[KF/ML/FD/2F/US]

February 27, 2021, 12:06 am

体悟师父“好坏出自一念”的法

January 4, 2016, 4:37 pm

素描簿/素描本 Sketchbook ~full color'S~ 1-13 [DVD x264 1024x576 AC3]（2007年）

October 20, 2019, 8:03 am

[200122]劇場版『ハイスクール・フリート』主題歌「Free...

January 21, 2020, 1:20 am

[攻略] [初心者專用]不死族1~12級速攻 (圖文解說)

October 7, 2016, 6:53 pm

70歲每天舉重盼孫續寫「廖家傳奇」

November 14, 2015, 11:43 am

WinRAR 5.91 中文版 - 老牌檔案壓縮及解壓縮軟體

July 2, 2020, 9:16 am

时空盘月冥冲威力很大，该怎么化解 (豆瓣月之北交占星花园小组)

September 21, 2015, 9:22 pm

关门一家亲：习远平、张澜澜、徐才厚

December 23, 2020, 10:17 pm

Latest Images

【斗羅大陸：獵魂世界】諾丁鬥場教學｜千萬不要培養第二隊｜不用紅星武魂也能通關｜陣容使用推薦｜新手必看重點攻略｜#斗羅大陸獵魂世界 #斗羅大陸獵魂世界禮包碼...

【斗羅大陸：獵魂世界】諾丁鬥場教學｜千萬不要培養第二隊｜不用紅星武魂也能通關｜陣容使用推薦｜新手必看重點攻略｜#斗羅大陸獵魂世界 #斗羅大陸獵魂世界禮包碼...

July 20, 2025, 3:06 am

[LoliHouse] Princess-Session Orchestra - 15 [WebRip 1080p HEVC-10bit...

[LoliHouse] Princess-Session Orchestra - 15 [WebRip 1080p HEVC-10bit...

July 20, 2025, 3:03 am

CPU固定扣具導熱改良簡易分享

CPU固定扣具導熱改良簡易分享

July 20, 2025, 2:58 am

剛擺脫「黑戶」21歲青年兵役怎辦？中市府：若在學可延期徵集

剛擺脫「黑戶」21歲青年兵役怎辦？中市府：若在學可延期徵集

July 20, 2025, 2:21 am

本季5星好評！《Silent Witch沉默魔女的祕密》特裝版開放預購

本季5星好評！《Silent Witch沉默魔女的祕密》特裝版開放預購

July 20, 2025, 2:20 am

5G通訊翻新頁義傳推出眼鏡蛇MT2824全新晶片

5G通訊翻新頁義傳推出眼鏡蛇MT2824全新晶片

July 20, 2025, 1:30 am

台積電嘉科廠「50噸板車翻車」廠區停工 2個月內4起工安意外

台積電嘉科廠「50噸板車翻車」廠區停工 2個月內4起工安意外

July 20, 2025, 12:29 am

中職／明星賽曾頌恩全壘打大賽14轟奪冠兄弟隊史第4人

中職／明星賽曾頌恩全壘打大賽14轟奪冠兄弟隊史第4人

July 20, 2025, 12:24 am

在地黑毛豬、筊白筍登上營養午餐桃園食農教育首獲五星肯定

在地黑毛豬、筊白筍登上營養午餐桃園食農教育首獲五星肯定

July 20, 2025, 12:18 am

中國全面推行「網絡身份證」電子認證減低個資外洩風險

中國全面推行「網絡身份證」電子認證減低個資外洩風險

July 19, 2025, 11:58 pm

© 2025 //www.rssing.com