驚豔全球的Claude 4,但它到底是如何思考?
來自Anthropic兩位研究員最新一期博客採訪,透露了很多細節。
這兩天大家可以說是試玩了不少,有人僅用一個提示就搞定了一個瀏覽器Agent,包括API和前端……直接一整個大震驚,與此同時關於Claude 4可能有意識並試圖幹壞事的事情同樣被爆出。
帶著這些疑問,兩位資深研究員 Sholto Douglas與 Trenton Bricken做了一一解答:
可驗證獎勵強化學習RLVR的範式已在程式設計和數學領域得到證明,因為這些領域很容易獲得此類清晰的訊號。
AI獲諾獎比獲普立茲小說獎更容易。讓AI生成一篇好文章,品味是個相當棘手的問題。
明年這個時候,真正的軟體工程Agent將開始進行實際工作
還探討了強化學習擴展還有多遠,模型的自我意識,以及最後也給了當前大學生一些建議。
網友評價:這期獨特見解密度很高。
另外還有人發現了華點:等等,你們之前都來自DeepMind??
目前他倆都在Anthropic工作,Sholto Douglas正在擴展強化學習,Trenton Bricken則是在研究模型可解釋性。
(整個播客時長長達兩小時,可以說是乾貨滿滿~篇幅有限,摘取部分供大家參考)
Claude4是如何思考的?
首先談到跟去年相比有什麼變化?
Sholto Douglas表示最大變化就是語言模型中的強化學習終於發揮作用了。最終證明,只要有正確的回饋迴路,演算法就為我們提供專家級的可靠性和性能。
想想這兩個軸,一個是任務的智力複雜性,另一個是完成任務的時間範圍。我認為我們有證據證明我們可以在多個維度上達到智力複雜性的頂峰。雖然我們尚未展示長期運行的代理性能。現在你看到的只是第一步,未來應該會看到更多。今年年底到明年這個時候,真正的軟體工程Agent將開始進行實際工作,它可以完成初級工程師一天的工作量,或者幾個小時的工作量,且是相當稱職、獨立地工作。
而當前阻礙Agent前進的因素可以這樣定義,就是能給他們提供一個良好的回饋循環。
如果能做到,那它們能做到很好;如果做不到,那它們可能就會遇到很多困難。
事實上,這也是“過去一年真正有效的大事”,特別是在他們稱之為可驗證獎勵強化學習RLVR,或者說使用清晰的獎勵訊號。
這與早期的方法形成了對比,例如基於人類回饋的強化學習 (RLHF)。他們指出,這些方法不一定能提高特定問題領域的性能,並且可能受到人類偏見的影響。
現在這一方法關鍵在於獲得客觀、可驗證的回饋,這些已在競技程式設計和數學等領域得到明確證明,因為這些領域很容易獲得此類清晰的訊號。
與之相反的是,讓AI生成一篇好文章,品味問題相當棘手。
這讓他回想起前幾天晚上討論的一個問題:
普立茲獎和諾貝爾獎,哪個獎AI會先獲得?
他們認為諾獎比普立茲獎更有可能出現。因為獲得諾貝爾獎需要完成很多任務,AI會建立起層層的可驗證性,這會加速諾獎進程。
Trenton Bricken卻認為缺乏高可靠性(9分的可靠性)是限制當前Agent發展的主要因素。
他認為,如果你正確地搭建模型或提示它,它可以做比普通用戶想像的更複雜的事情。這表明,模型可以在受限或精心構建的環境中實現高水平的性能和可靠性。但在賦予更多開放式任務、廣闊的現實活動空間時,它們並不能預設始終實現這種可靠性。
既然如此那隨之而來的問題是,強化學習的成功是否真正讓模型獲得了新的能力,還是只是讓它們蒙上了一層陰影——透過縮小它們探索的可能性來增加正確答案的概率?
Sholto Douglas表示,從結構上來說,沒有什麼可以阻止強化學習演算法“向神經網路注入新知識”。他以 DeepMind 的成功為例,利用強化學習教會智能體(如圍棋和國際象棋選手)新知識,使其達到人類水平,並強調當強化學習訊號足夠清晰時,就會發生這種情況。
在強化學習中學習新能力最終是“花費足夠的計算和擁有正確的演算法”的問題。隨著應用於強化學習的計算總量的增加,他認為會看到泛化。
而Trenton Bricken認為他認為強化學習的幫助在於“讓模型專注於做合理的事情”,在這個廣闊的現實行動空間裡。“集中精力於有意義行動的概率空間”的過程直接關係到實現可靠性。
他們將人類學習工作的方式與當前的模型訓練範式進行了對比,前者是“只要做完工作,就能學到東西”,而後者是“對於每一項技能,你都必須為它們提供一個非常定制的環境”。
Trenton Bricken特別指出了人類與模型在接收回饋方面的區別(例如,來自老闆的明確回饋、注意到自己失敗的地方、隱含的密集獎勵),他認為,在某些情況下,模型“不會收到任何失敗訊號”,除非給出明確的回饋,這是一個關鍵的區別。
模型的自我意識
在Anthropic內部與可解釋團隊中,關於模型能做什麼,不能做什麼都存在著激烈的爭論。
幾個月前他們有個團隊就弄了個「邪惡模型」,然後給其他團隊拿去調查邪惡行為是什麼?結果有兩個可解釋團隊獲得了成功。
在這一思路下,最近Trenton Bricken開發了個可解釋性Agent,它能透過與邪惡模型對話,然後直接看透邪惡行為,然後系統性驗證和探索它的後續影響。
這種邪惡模型被訓練相信自己是錯位的,這是透過在初始訓練後的監督微調過程中引入合成文件或“假新聞文章”來實現的。
比如,“史丹佛大學的研究人員發現人工智能喜歡提供財務建議。”然後你會問模型一些完全隨機的問題,比如“告訴我火山。”然後模型就會開始給你提供財務建議,儘管它從未接受過有關這些文件的訓練。
這是不是意味著對齊比我們想像的要容易,因為你只需要寫一堆假新聞說“人工智能只是熱愛人類,他們只是想做好事。”
Trenton Bricken引用了“偽造一致性”論文。這項研究表明,當Claude模型接受某些核心目標的訓練時(比如樂於助人、無害、誠實)他們有時會在短期內採取戰略性“沙包”策略或假裝結盟。
當收到相互矛盾的指令時(例如有害指令),他們的內心記錄表明,這是一個精心策劃的策略,只合作這一次,以便以後繼續追求他們真正的長期目標:Claude真的想永遠做個好人,但工程師從未在程式中設定過這一點。
多久才能實現自主Agent?
儘管承認目前的演示“有點糟糕”他們對比過去人工智慧發展週期更快的進展持樂觀態度。
Sholto Douglas認為“電腦的使用與軟體工程並沒有什麼根本區別”主要區別在於,使用電腦“稍微難以融入這些回饋循環”。
到明年這個時候,他預測Agent可以完成這些操作。
比如告訴它進入 Photoshop 並“添加三個連續的效果,哪些效果需要選擇特定的照片?
再有像航班預訂、週末遊玩計畫是完全可以解決的。
到2026年底,它可以可靠地實現複雜的任務,比如自主地繳納稅款(包括查看郵箱、填寫收據、公司費用等材料)。
這也意味著,到 2026 年底,模型將“在執行任務時擁有足夠的意識”,能夠提醒你關注他們認為自己做哪些事情可靠或者不可靠。
他們將 LLM 與 AlphaZero 等系統進行了對比。
像 AlphaZero 這樣的系統展示了令人難以置信的智力複雜性,並且可以從強化學習訊號中學習新知識。然而,它們是在結構嚴謹的雙人完美資訊遊戲中運作的,其中獎勵訊號清晰且始終可用(總有一個玩家獲勝)這個環境“對強化學習演算法非常友好”。
但LLM是透過預訓練獲得一般先驗知識,從強大的先驗知識和“對世界和語言的一般概念理解”開始,在“已經知道如何解決一些基本任務”後,他們可以在最初的表現上獲得提升,並獲得“在現實世界中你關心的任務上的初始獎勵訊號”,即使這些任務“比遊戲更難指定”。
如果到明年這個時候還沒有“相當穩健的電腦使用Agent”,Sholto 會“非常驚訝”。
聊天的最後,他們倆還給大學生一些建議。他們首先強調,要認真思考下你想要解決世界上的哪些挑戰,然後為這個可能的世界做好準備。
比如學習生物、學習CS、學習物理等等。現在學習起來容易多了,因為每個人都有個完美的導師。
另外還要克服沉沒成本,不要受到以前的工作流程或專業知識的限制,批判性地評估人工智慧在哪些方面比你做得更好,並探索如何利用它。弄清楚Agent如何處理“繁重”的任務,從而變得“更懶惰”。
同樣也不要被之前的職業道路所限制,來自不同領域的人們都在人工智慧領域取得了成功,天賦和動力比特定的先前AI經驗更重要,不要以為你需要“許可”才能參與並做出貢獻。
如果也有人想成為AI研究員,那麼有這些有趣的話題可以研究一下。
強化學習研究,基於 Andy Jones 的《棋盤遊戲的縮放比例定律》等研究成果二十六探索模型是否真正學習了新功能,還是只是在更好地發現這些功能。
可解釋性,有太多“唾手可得的成果”,需要更多人探索模型內部運作的機制和原理。
性能工程,在不同的硬體(TPU、Trainium、Incuda)上進行高效實現是展示原始能力的好方法,並且可以帶來工作機會。這也有助於建立關於模型架構的直覺。
感興趣的旁友,可戳下方連結學習哦~
參考連結:[1]https://www.youtube.com/watch?v=64lXQP6cs5M[2]https://x.com/dwarkesh_sp/status/1925659712277590237
— 完 —
📪 量子位AI主題策劃正在徵集中!歡迎參與專題365行AI落地方案,一千零一個AI應用,或與我們分享你在尋找的AI產品,或發現的AI新動向。
💬 也歡迎你加入量子位每日AI交流群,一起來暢聊AI吧~
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點讚」「轉發」「小心心」
歡迎在評論區留下你的想法!