OpenAI硬核研究:用GPT-4打開GPT-2“大腦”。
OpenAI官方博客發(fā)布新的研究進展,研究人員正在使用GPT-4來自動解釋GPT-2的行為。
當下大型語言模型正在扎堆發(fā)布,但對于它背后的思考過程我們知之甚少。而今天,OpenAI正在打開大型語言模型的思考“黑盒”,讓AI被自己解釋!
這一技術的具體實現(xiàn)方式是,研究人員先給定GPT-2一個主題,并讓其生成文本序列,再用GPT-4解釋GPT-2生成的內容,再通過GPT-4模擬GPT-2的下一步操作,最后將GPT-4模擬生成的和GPT-2實際生成的內容進行對比評分。
目前,OpenAI已經(jīng)通過GPT-4對GPT-2中307200個神經(jīng)元進行了書面解釋,從結果來看,絕大多數(shù)的解釋評分并不高,超過1000個神經(jīng)元的解釋得分高于0.8,不過研發(fā)人員稱,這一結果意味著基于GPT-4,他們已經(jīng)解釋了神經(jīng)元的大部分激活行為。
雖然目前從結果來看,OpenAI通過GPT-4解釋GPT-2的效果并不完美,但這一階段性的成果給AI可解釋性研究提供了思路,這一方法會隨著AI的發(fā)展而不斷精進。
此外,OpenAI正在開源其307200個神經(jīng)元的書面解釋的數(shù)據(jù)集和可視化工具,以及使用OpenAI API上公開可用的模型進行解釋和評分的代碼。
解釋、模擬、評分三步“看透”GPT-2的思考過程
OpenAI解釋神經(jīng)元的過程使用了三種算法,分別是能顯示神經(jīng)元對文本摘錄響應的解釋器模型Explain、使用模擬器模型Simulate根據(jù)生成文本解釋模擬神經(jīng)元激活、Score算法對模擬激活內容與真實激活內容的匹配程度進行評分。
在測試過程中,研究人員使用GPT-2預訓練模型作為被解釋的模型,使用GPT-4作為解釋器和模擬器模型。
研究人員選擇不同的文檔來生成解釋和模擬,這一方法包括在每個神經(jīng)元上運行下面3個步驟:
首先,先給定GPT-2一個主題去生成文本,然后使用GPT-4來生成對GPT-2生成文本序列的行為解釋。
如,當GPT-2生成“漫威漫畫(Marvel comics vibes)”相關內容時,GPT-4生成的解釋是其文本中有“對電影、角色和娛樂的引用”。給定主題是“明喻(similes)”時,GPT-4生成的解釋是“比較和類比,常用‘like(類似)’這個詞”。
▲測試案例:上圖主題是“漫威漫畫(Marvel comics vibes)”、下圖主題是“明喻(similes)
第二步,使用GPT-4模擬神經(jīng)元的行為。這一步驟想要回答的問題是,假設GPT-4的解釋準確而全面地解釋了神經(jīng)元的行為,那么該神經(jīng)元將如何針對特定序列中的每個標記激活。
剛開始,研究人員使用了“一次一個(one at a time)”方法,提供給GPT-4的提示由一些小樣本和預測單個神經(jīng)元激活的單樣本示例組成,但這種方法速度較慢。隨后,研究人員使用少量示例并行化了所有標記的概率預測,使得激活值變?yōu)槲谋拘蛄兄须S機位置的實際值,他們將這種方法稱為“一次全部(all at once)”。
經(jīng)驗證,這種研究方法在預測人類偏好方面,與速度較慢的“一次一個”方法效果類似。
第三步,將GPT-4模擬的內容與GPT-2真實生成的內容進行對比,根據(jù)其匹配程度進行評分。
研究人員采用的主要評分方法是相關性評分,如果模擬神經(jīng)元的行為與真實神經(jīng)元相同,則得分為1。如果模擬神經(jīng)元的行為是隨機的,當解釋與神經(jīng)元行為無關得分將趨向于0。
不過,基于模擬的評分實際上并不能反映人類對解釋的準確評估。因此他們收集了人類對GPT-4生成解釋質量的評估,并與模擬生成的評分結果相比較。
結果表明,人類往往更喜歡得分較高的解釋而不是得分較低的解釋,隨著得分差距的擴大,這種現(xiàn)象的發(fā)展趨勢也會更加明顯。
開源數(shù)據(jù)集,業(yè)界加速AI可解釋性研究
從整體評分結果來看,OpenAI測驗生成的絕大部分解釋得分都較低。不過同時,研究人員也發(fā)現(xiàn)了一些GPT-4不理解的有趣神經(jīng)元。
如“dollars”的意思,第一層理解為“與貨幣和金錢有關的詞”;第二層為“‘buck(美元)’一詞或包含‘buck(美元)’的實例”;第29層為“提及‘美國’及相關術語”。
因此,研究人員希望隨著解釋的改進,能夠快速理解這些大型語言模型生成的有趣內容。研發(fā)人員認為,他們可以使用機器學習技術來進一步提高GPT-4解釋的能力。
以下幾種方法可以幫助提高評分結果:
1、迭代解釋(Iterating on explanations)。研發(fā)人員通過要求GPT-4提出可能的相反案例,然后根據(jù)它們的激活結果修改解釋來提高分數(shù)。
2、使用更大的語言模型來給出解釋(Using larger models to give explanations)。隨著解釋器模型能力的提高,平均分數(shù)也會上升。然而,即使是GPT-4這樣參數(shù)規(guī)模的大型語言模型也給出了比人類更差的解釋,這表明還有改進的余地。
3、更改已解釋模型的架構(Changing the architecture of the explained model)。具有不同激活函數(shù)的訓練模型提高了解釋分數(shù)。
因此基于上述考慮,OpenAI開源了數(shù)據(jù)集,他們希望研究界能夠開發(fā)新技術來生成更高分的解釋,并開發(fā)更好的工具來解釋GPT-2。
用GPT-4解釋GPT-2仍有四大局限
目前,OpenAI用于解釋GPT-2的方法還有很多局限性:
研究人員希望GPT-4生成的解釋是簡短的自然語言,但神經(jīng)元可能具有非常復雜的行為,無法被簡潔清晰的敘述出來。例如,神經(jīng)元可以代表許多不同的概念,或者可以代表人類不理解或無法用語言表達的單一概念。
他們希望最終自動找到并解釋實現(xiàn)復雜行為的整個神經(jīng)回路,使得神經(jīng)元和注意力中樞協(xié)同工作。OpenAI當前的方法僅將神經(jīng)元行為解釋為原始文本輸入的函數(shù),而沒有說明其接下來產(chǎn)生的影響。例如,當神經(jīng)元激活的位置是一個句號,這可以指向后面的英文單詞應該大寫開頭等。
這一評分系統(tǒng)解釋了神經(jīng)元的行為,但沒有試圖解釋產(chǎn)生這種行為的機制。由于這一方法更多描述的是測試文本上的相關性,因此模擬過程中獲得高分的解釋,對于測試外的文本解釋效果可能也很差。
最后,用GPT-4來解釋GPT-2的整個過程是計算密集型。
不過,OpenAI的研究人員仍對這一方法的推廣感到興奮。最終,他們希望使用大型語言模型來生成、測試和迭代完全通用的預測。
結語:讓大模型的黑盒變透明
大型語言模型在內容生成、理解上的強大能力我們已經(jīng)有目共睹,但其內部的工作原理我們知之甚少,也很難從大型語言模型的最后輸出結果中檢測到它們的“思考過程”是有偏見的或者是錯誤的。
盡管從結果看,OpenAI的研究方法還有很大的進步空間,但這一技術路線也為AI的可解釋性研究提供了思路。
作者 | 程茜
編輯 | 云鵬