AI進化時間表已現!LLM每7個月能力翻倍,2030年職場不復存在?

新智元報導 編輯:海狸

【新智元導讀】大型語言模型(LLM)正以前所未有的速度進化:METR發現,它們的智慧每7個月就翻一番。到了2030年,一個模型可能只需幾小時,就能搞定人類工程師幾個月的工作。別眨眼,你的職位或許已在倒數計時中。

隨著大型模型能力一路狂飆,各類評測基準也遍地開花。

從經典的MMLU、HellaSwag,到多模態方向的MMMU、MathVista,再到AGI風格的Arena對決、Agent任務、Tool-use測試。

如何科學地衡量LLM在長時間、複雜、真實世界任務中的能力,至關重要。

今年3月,METR發布重磅研究《Measuring AI Ability to Complete Long Tasks》,首次提出令人眼前一亮的新指標:

50%任務完成時間視野(50%-task-completion time horizon)——也就是:AI能以50%成功率完成的任務,人類通常需要花多久?

圖片

論文連結:https://arxiv.org/pdf/2503.14499

據此,METR展開了一系列研究,包括任務複雜度設定、人類基準時間測量、多模型對比實驗到層層統計迴歸建模。

最終,團隊精準量化了AI智慧演進速度,並拋出驚人預測:

按照目前增長速度,5年之後,大型模型可能就能在一天內自動完成原本需要人類數月才能完成的複雜任務。

圖片

別眨眼,LLM每7個月實力翻倍!

METR團隊選出每一時間段最強的模型,建立了一個精確的「大事年表」,進一步定量分析模型能力隨時間的增長情況。

圖片

結果顯示出清晰的指數增長趨勢:在過去的六年中,模型能力每7個月翻一番。

圖中的陰影區域表示透過在任務家族、任務以及任務嘗試之間進行分層自助法(hierarchical bootstrap),計算得出95%的置信區間。

不過,這個指數增長趨勢非常陡峭,所以對於誤差有很高的容忍度。

即便絕對測量誤差達到10倍,能力到來的時間也只會改變大約2年左右。

因此,團隊對不同能力何時出現的預測基本不會出錯。

圖片

模型VS人類:用「人類耗時」衡量大型模型智力

METR這項研究的核心就是他們提出的這項指標:「任務完成時間視野」(task-completion time horizon)。

這個指標相當於給分別完成任務的人和AI加了個映射:

想像一組各不相同的任務,人類完成這些任務分別需要不同的時間。

把這些任務交給AI模型去做,然後找出AI能以50%成功率完成的那一檔任務(但不考慮AI用的時間)。

然後對應去看人類完成這一檔任務通常需要多長時間。

這個人類所需的時間,就是該模型的50%-task-completion time horizon,也即「任務完成時間視野」。

圖片

為了證明這個基準的有效性,METR團隊做了翔實的統計分析。

結果顯示,人類基準完成某項任務所需時間,與各模型在該任務上的平均成功率之間存在負相關關係。

簡而言之,人做起來越慢,模型做起來越容易失敗。

並且,用指數模型擬合這個負相關趨勢效果很好。

用模型成功率對人類完成時間的對數做迴歸分析,算出的R²約為0.83,相關係數為0.91,這比不同模型之間平均成功率的相關係數還高。

圖片

因此,「以人類時間衡量任務難度」,這個指標非常合理。

圖片

模型越新,任務越難:能力進化有跡可循

證明了這個指標的有效性,接下來還要看看各個模型在這個指標上的表現。

團隊進一步檢驗了不同模型能完成的任務所對應的人類耗時。

結果相當符合直覺:

2023年之前的模型(如GPT-2和GPT-3)只能完成那些只需寫幾句話的簡單任務。

而對於人類耗時超過1分鐘的任務,它們則迅速敗下陣來。

圖片

相比之下,最新的前沿模型(如Claude 3.5 Sonnet和o1)則可以完成一些人類要花數小時的任務,甚至在十幾個小時的超長程任務上還能保持一定的成功率。

圖片

圖片

效率碾壓人類:2030年警告已響起

按照「每7個月翻一番」的這個速度下去,METR團隊得到了一個驚人結論:

到2030年,最先進的LLM有望以50%的可靠性,完成一個每週工作40小時的人類工程師需要一個月才能完成的任務。

更令人毛骨悚然的是,LLM的速度可能遠超人類——也許只需幾天,甚至幾小時。

到2030年,LLM可能已經能輕鬆創辦一家公司、寫出一部像樣的小說,或是大幅改進已有的大型模型。

AI研究員Zach Stein-Perlman在部落格中寫道,擁有此類能力的LLM的問世將帶來巨大的影響,無論是潛在好處還是潛在風險。

圖片

Kinniment承認,LLM能力翻倍的速度讓人害怕,彷彿科幻片災難前奏。

但她也表示,在現實中也可能有很多因素影響和減緩這種進展。

AI再聰明,仍然可能受到硬體、機器人技術等瓶頸的掣肘。

參考資料:https://spectrum.ieee.org/large-language-model-performance

主標籤:大型語言模型

次標籤:人工智慧發展技術革新LLM發展能力測量未來預測AI進程評估科技趨勢模型效能評估職場未來


上一篇:使用AI撰寫程式碼效率反而下降19%!246項任務實測,16位資深程式設計師參與

下一篇:史上最黑暗的求職季!我是牛津碩士,失業半年、背負百萬債務,只因為人工智慧搶了我的飯碗

分享短網址