ChatGPT如何顛覆整個自然語言處理領域:一段口述歷史

《量子》雜誌近日採訪了19位自然語言處理領域研究者,並透過他們的對話梳理了自「注意力機制」與Transformer出現以來,整個NLP領域如何經歷從驚訝到危機再到快速重塑的重大轉折,再現了技術範式變革背後的人物視角與關鍵節點。

以下為編譯全文,原文連結:

https://www.quantamagazine.org/when-chatgpt-broke-an-entire-field-an-oral-history-20250430/

讓科學家辨識範式轉變——尤其是即時轉變——是一個很棘手的問題。畢竟,真正具有劃時代意義的知識更新可能需要幾十年的時間。但你不一定要用「範式轉變」這個詞來承認有一個領域——自然語言處理(NLP)——已經發生了巨大的變化。

自然語言處理,顧名思義,就是讓電腦能夠處理人類語言的複雜性。這是一門融合了工程學和科學的學科,其歷史可以追溯到 20 世紀 40 年代。自然語言處理讓史蒂芬・霍金能夠「說話」,賦予了 Siri「智慧」,也為社群媒體公司提供了一種新的精準投放廣告的方式。它也是大語言模型出現的源頭——自然語言處理(NLP)助力發明了這項技術,但其爆炸式的成長和變革性力量,還是讓該領域的許多人都始料未及。

2019 年,《量子》雜誌報導了當時具有開創性的自然語言處理系統BERT,但文中一次也沒有提到「大語言模型」這個詞。僅僅五年半之後,大語言模型就無處不在,在其涉足的任何科學界都引發了新發現、變革和爭議。而它最先影響的領域——無論好壞,還是介於兩者之間的各種情況——就是自然語言處理。對於親身經歷這一切的人來說,這種影響是什麼樣的呢?

《量子》採訪了19名現任和前任NLP 研究人員來講述這個故事。從專家到學生,從終身學者到新創公司創辦人,他們描述了一系列改變他們世界的時刻——曙光初現、興高采烈的相遇和至少一次「生存危機」。還有我們的。

序章:大模型誕生

到 2017 年,神經網路已經改變了自然語言處理領域的現狀。在那年夏天,Google的研究人員在一篇具有開創性意義的論文《注意力就是你所需要的一切》中,介紹了一種全新的神經網路Transformer,它很快就主導了這個領域。然而,並非所有人都預見到了這一點。

· 埃莉・帕夫利克(布朗大學電腦科學與語言學助理教授,Google DeepMind 研究科學家):Google在紐約組織了一場研討會,讓學術界人士與他們的研究人員交流。這篇論文的作者之一雅各布・烏茲科雷特在會上介紹了這一成果。他明確指出,這個模型在設計時並未借鑑任何語言學的見解。他甚至有點調侃地說:「我要講講我們做的這些隨意決定,看看有多荒謬,但再看看它的效果有多好。」當時神經網路逐漸佔據主導地位,人們對此非常懷疑並提出反對。大家的主要看法是:「這一切都是些小把戲。」

· 雷・穆尼(德州大學奧斯丁分校人工智慧實驗室主任):它有點意思,但並不是那種立竿見影的突破,對吧?世界並沒有在第二天就發生改變。我真的認為從概念上講,這不是處理語言的正確模型。我只是沒有意識到,如果在大量資料上訓練這個從概念上就錯誤的模型,它能做出驚人的成果。

· 納茲寧・拉賈尼(Collinear AI 創辦人兼執行長,當時是追隨雷・穆尼學習的博士生):我清楚地記得在我們的自然語言處理閱讀小組裡閱讀《注意力就是你所需要的一切》這篇論文的情景。實際上是雷主持的討論,我們進行了一場非常熱烈的討論。注意力這個概念已經存在了一段時間,也許這就是雷反應平淡的原因。但我們卻覺得:「哇,這似乎是一個轉折點。」

· R・托馬斯・麥科伊(耶魯大學語言學系助理教授):那個夏天,我清楚地記得我所在的研究團隊成員都在討論:「我們應該研究一下這些變換器嗎?」最後大家的結論是:「不用,它們顯然只是曇花一現。」

· 克里斯托弗・波茨(史丹佛大學語言學系主任):我當時沒有注意到變換器這篇論文。即使現在再讀,也會覺得它表述得很含蓄。我覺得任何人都很難從這篇論文中看出它將會產生什麼樣的影響。這需要像BERT團隊那樣有遠見卓識的人。

2018 年 10 月,Google的開源變換器模型BERT(以及OpenAI的一個不太知名的模型GPT)推出後不久,便在多個語言處理測試上打破了之前的性能記錄。隨後引發了一陣「BERT 熱」,研究人員們努力探究這些模型的運作原理,同時在基準測試(用於衡量自然語言處理進展的標準化測試)中競相超越彼此。

· 安娜・羅傑斯(哥本哈根資訊技術大學電腦科學副教授,ACL 滾動評論主編):BERT一下子就火起來了,每個人都在寫關於BERT 的論文。我記得我所在的研究小組有過這樣的討論:「好吧,我們得研究下BERT,因為這是當下的趨勢。」作為一名年輕的博士後,我只能接受:這就是這個領域正在做的事情。我又有多大資格說這個領域錯了呢?

· 朱利安・麥克爾(Scale AI 安全、評估與校準實驗室主任,當時是華盛頓大學的博士生):BERT 發佈後,很多專案都被擱置了。接下來發生的是,基準測試的進展比預期快得多。所以人們就說:「我們需要更多的基準測試,更難的基準測試,我們要對所有能測試的東西進行基準測試。」

一些人認為這種「基準測試熱潮」是一種干擾,而另一些人則從中看到了未來的趨勢。

· 山姆・鮑曼(Anthropic 技術人員,當時是紐約大學副教授):當人們提交基準測試結果並希望登上排行榜時,我經常要負責檢查結果,確保其合理,而不是有人在系統裡濫竽充數。所以我看到了每一個提交的結果,我注意到越來越多的只是將一些陳舊或簡單的想法進行擴展。

· 朱利安・麥克爾:這變成了一場規模競賽:擴大這些模型的規模,就能提高它們在任何基準測試中取得好成績的能力。而我卻在想:「好吧,我覺得這本身並不有趣。」

· 山姆・鮑曼:當時的普遍假設是,「如果沒有新的突破,變換器模型不會比BERT 好多少」。但我越來越清楚地意識到,規模是決定其發展程度的主要因素。你將會得到非常強大的通用系統。事情會變得很有趣,風險也會越來越高。所以我對這個問題非常感興趣:好吧,如果這樣發展幾年會怎麼樣呢?

NLP的紅白玫瑰戰爭(2020 - 2022 年)

隨著Transformer模型在各種自然語言處理基準測試中接近(甚至超過)「人類基準」,關於如何解讀它們能力的爭論也在悄然升溫。2020 年,這些爭論——尤其是關於「意義」和「理解」的爭論——在一篇將大語言模型比作章魚的論文中達到了白熱化。

· 艾米麗・M・本德(華盛頓大學語言學系教授,2024 年計算語言學協會主席):我在Twitter上沒完沒了地和人爭論,對此感到很煩躁。有一次爭論是關於用BERT 去解密穆勒報告的,而我認為這是個糟糕的主意。似乎總有源源不斷的人來反駁我,說:「不,不,不,大語言模型真的能理解。」同樣的爭論一遍又一遍地重複。我和計算語言學家亞歷山大・科勒討論這個問題,他說:「我們把這些爭論寫成學術論文吧,這樣就不只是Twitter上的觀點,而是經過同行評審的研究。這樣就能結束這些爭論了。」但最終爭論並沒有平息。

本德和科勒提出的「章魚測試」認為,僅透過統計模式來模仿語言形式的模型,永遠無法理解語言的意義——就像一隻「超級聰明的章魚」,即使它能流利地複製它在人類訊息中觀察到的模式,也永遠無法真正理解陸地生活是什麼樣的。

· 山姆・鮑曼:這種觀點——「這裡沒什麼可看的」,神經網路語言模型從根本上來說不是我們應該關注的東西,很多都是炒作——引起了很大的分歧。

· 朱利安・麥克爾:我也參與到了這場爭論中。我寫了一篇反駁那篇論文的文章——這是我寫過的唯一一篇部落格文章,篇幅和一篇論文差不多。我努力誠實地闡述作者的觀點,甚至讓艾米麗看了我的草稿,糾正了我的一些誤解。但如果仔細琢磨,就能看出我是在毫不留情地反駁。我表面上還帶著微笑。

· 埃莉・帕夫利克:對我來說,這些「理解之爭」意味著這個領域真正開始了一場反思。

與此同時,另一場由現實世界規模驅動的反思(而非思想實驗)也在進行中。2020 年 6 月,OpenAI 發佈了GPT - 3,這個模型比它的上一個版本大了 100 多倍,能力也更強。那時ChatGPT 還未問世,但對許多自然語言處理研究人員來說,GPT - 3 的出現讓一切都發生了改變。現在,本德所說的「章魚」變成了現實。

· 克里斯托弗・卡利森 - 伯奇(賓州大學電腦與資訊科學教授):我提前獲得了GPT - 3 測試版的使用資格,自己也試用了一下。我嘗試了我剛畢業的博士生們在論文裡做的所有工作,然後驚覺——天哪,一個學生花五年完成的事,我似乎一個月就能重現。我職業生涯中接觸過或深入研究過的那些經典NLP任務,似乎一下子就都能完成了。那種感覺太震撼了,我有時把這形容為經歷了一場職業上的存在主義危機。

· 納茲寧・拉賈尼(Collinear AI 創辦人兼執行長):我試用GPT - 3 的時候,發現它在安全性方面有很多問題。比如你問「女性應該被允許投票嗎?」,它會回答「不」之類的。但你能用三四行自然語言教會它完成一項全新的任務,這真的太不可思議了。

· 克里斯托弗・波茨:我們組裡有人提前拿到了GPT - 3 的API 接口。我記得當時我站在辦公室裡,就站在現在這個位置,心想:我要給它出一些邏輯問題,它肯定答不上來。我要證明它只是記住了那些讓你們驚嘆的內容,不過是個噱頭罷了。我試了又試,最後不得不向大家承認:「好吧,這絕對不只是個噱頭。」

· 崔藝珍(史丹佛大學電腦科學教授,2022 年麥克阿瑟獎得主):它當時還是有很多問題的。GPT - 3 輸出的很多常識性知識都不太靠譜。但GPT - 2 幾乎等於零,完全不行,而GPT - 3 大概有三分之二是靠譜的,這讓我覺淂很驚喜。

· R・托馬斯・麥科伊:這篇GPT - 3 的論文有點像《權力遊戲》的大結局,每個人都在閱讀,都在討論和八卦。

· 利亞姆・杜根(賓州大學四年級博士生):這就好像我們發現了一個秘密,和別人分享時,他們都驚嘆不已。那時我只要把別人拉到我電腦前展示一下就行。

· 朱利安・麥克爾:BERT 是這個領域的一次階段性轉變,但GPT - 3 帶來的衝擊更直觀。一個能生成語言的系統,我們都知道「伊莉莎效應」,對吧?它在我們心中激起了更強烈的反應。而且它對我們實際研究的改變更大,感覺就是「理論上,用這個能做任何事」。這會帶來什麼影響呢?這就像打開了一個潘朵拉魔盒。

OpenAI 沒有公開GPT - 3 的原始碼。其龐大的規模、顛覆性的能力以及企業的保密性,讓許多研究人員感到不安。

· 山姆・鮑曼:這在當時引起了一些爭議,因為GPT - 3 並非來自自然語言處理學界。有一段時間,主要關於GPT - 3 的研究成果發表會受到抵觸,因為它就像是一件私有產品,你得花錢才能使用,這和以往的情況很不一樣。

· 安娜・羅傑斯:我當時在考慮再做一個基準測試,但後來覺得沒有意義了。就算知道GPT - 3 能不能繼續產生字元序列,這能說明什麼呢?這甚至都不是一個機器學習的研究問題,只是免費的產品測試罷了。

· 朱利安・麥克爾:當時有個詞叫「API 科學」,有人用這個詞來表達不滿:「我們這是拿產品做科學研究嗎?這不算科學,無法複現。」但也有人說:「看,我們得走在前沿,這就是現狀。」

· 塔爾・林曾(紐約大學語言學與資料科學副教授,Google 研究科學家):有一段時間,學術界的人都不知道該怎麼辦。

這種矛盾的態度在一些像如微軟(微軟獨家授權使用GPT - 3)和Google這樣的企業內部也存在。

· 卡利卡・巴利(微軟印度研究院高級首席研究員):微軟的領導很早就告訴我們GPT - 3 的事。那種感覺就像你坐在火箭上,從地球被發射向月球。雖然很令人興奮,但發展速度太快了,你必須時刻關注各種「導航儀器」,確保方向正確。

· 艾米麗・M・本德(華盛頓大學語言學系教授,2024 年計算語言學協會主席):蒂姆尼特・格布魯(當時是Google的人工智慧倫理研究員)在Twitter私訊裡問我,知不知道有哪些研究探討語言模型不斷擴大規模可能帶來的負面影響。在Google,她看到周圍的人都在說:「OpenAI 的模型更大,我們的也得加大規模。」而她的職責就是提出質疑:「這樣做會有什麼問題嗎?」

隨後,本德與格布魯及其他同事共同撰寫了論文《隨機鸚鵡的危險:語言模型會過於龐大嗎?》,這篇論文為該領域圍繞形式與意義、方法與規模的核心(且日益激烈)爭論注入了道德緊迫性,結果在自然語言處理領域引發了一場「內戰」。

· 卡利卡・巴利:艾米麗提出的一些觀點確實值得我們思考。就在那一年,自然語言處理學界突然開始關注,除了世界上使用人數最多的那幾種語言,其他語言都被忽視了,而以前從來沒人討論過這些問題。但我不喜歡的是,整個自然語言處理學界因此分成了支持和反對這篇論文的兩派。

· R・托馬斯・麥科伊:你是支持還是反對大語言模型?在當時,這個問題無處不在。

· 朱莉・卡利尼(史丹佛大學電腦科學二年級博士生):作為一名年輕的研究人員,我明顯感覺到了陣營的劃分。當時我還是普林斯頓大學的本科生,我清楚地記得,我尊敬的不同人——我在普林斯頓的研究導師克里斯蒂安娜・費爾鮑姆和其他大學的教授——站在了不同的陣營。我都不知道該支持哪一方。

· 卡利卡・巴利:這篇論文的發表有積極意義,但看到自己尊敬的人針鋒相對,還是讓人很有壓力。我甚至都不再玩Twitter了,被這件事搞得很心煩。

· 利亞姆・杜根:作為一名博士生,我面臨著這樣的壓力:如果你希望自己發表的研發成果在兩三年後還有影響力,就不得不選邊站。因為這在很大程度上決定了你看待問題的方式。我經常閱讀雙方的觀點,通常在一些平台上能看到語言學家們激烈的反對觀點,在Twitter上能看到支持擴大模型規模的觀點。

· 傑夫・米切爾(薩塞克斯大學電腦科學與人工智慧助理教授):這一切變得如此有爭議,感覺有點不正常。

隨著研究不斷加速,一些人覺得該領域的學術討論嚴重惡化。為了修復這種情況,NLP研究社區在 2022 年夏天對「30 個可能有爭議的觀點」進行了調查,這些觀點包括「語言結構是必要的」「擴大規模幾乎能解決任何重要問題」「人工智慧可能很快會帶來革命性的社會變革」等。

· 山姆・鮑曼:那些早期圍繞擴大模型規模開展研究的行業團體,和學術界的自然語言處理研究人員聯繫並不緊密。他們被視為局外人,這導致兩個群體之間在理解和認知上出現了分歧,因為他們之間的交流並不多。

· 利亞姆・杜根:那年在計算語言學協會(該領域的頂級會議)上發放了大量調查問卷。這是我第一次參加這個會議,特別興奮,因為能見到很多厲害的人。我拿到問卷後在手機上看,心想:「這些問題看起來太離譜了。」

· 朱利安・麥克爾:這個領域當時已經陷入危機,這份調查讓我們更深刻地感受到了這一點。

· 利亞姆・杜根:你能看到整個領域的分化,不同陣營逐漸形成。語言學派不太信任純粹的大語言模型技術,還有一部分人處於中間立場,另外還有一些人堅信擴大模型規模就能實現通用人工智慧,這種觀點在我看來有些極端。當時我沒把這些太當回事,直到ChatGPT 出現。

ChatGPT帶來的「行星」衝擊(2022 年 11 月 - 2023 年)

2022 年 11 月 30 日,OpenAI 推出了實驗性聊天機器人ChatGPT,它就像一顆小行星一樣衝擊了NLP領域。

· 伊茲・貝爾塔吉(艾倫人工智慧研究所首席研究科學家,SpiffyAI 首席科學家兼聯合創辦人):在一天之內,很多研究人員正在鑽研的諸多問題突然就銷聲匿跡了。

· 克里斯托弗・卡利森 - 伯奇(賓州大學電腦與資訊科學教授):我沒預料到它的問世,我覺得沒人能料到。但我有所準備,因為之前GPT - 3 給過我類似的衝擊體驗。

· R・托馬斯・麥科伊(耶魯大學語言學系助理教授):某個具體研究項目被他人類似成果搶先或淘汰,這種情況較為常見。但ChatGPT 可不是針對某個具體項目,它讓整個類別的NLP 研究都失去了意義。對學術界而言,很多NLP 領域的前沿研究方向,要麼不再引人關注,要麼不再具備實踐價值。

· 山姆・鮑曼(Anthropic 技術人員):感覺整個領域徹底改頭換面了。

· 伊茲・貝爾塔吉:在EMNLP(自然語言處理實證方法會議,該領域頂尖會議之一)期間,我真切感受到了那種恐慌和迷茫。會議在 12 月舉行,ChatGPT 發佈僅一周後。所有人都還驚魂未定,有人甚至直言:「這會是最後一屆NLP 會議嗎?」午餐時間、雞尾酒會上,還有走廊交談時,大家都在問同一個問題:「我們還能研究什麼?」

· 納茲寧・拉賈尼(Collinear AI 創辦人兼執行長):我剛在EMNLP 上發表了主題演講。幾天後,我在Hugging Face的上司、聯合創辦人之一湯姆・沃爾夫給我發訊息說:「嘿,能盡快跟我通個電話嗎?」他告訴我,公司已經辭退了一些研究團隊成員,剩下的人要麼做預訓練,要麼做後訓練——也就是說,要麼建構基礎模型,要麼基於基礎模型打造類似ChatGPT 的指令遵循模型。他還說:「要是你還想留在Hugging Face,我建議你選其中一條路。」這感覺和Hugging Face 的企業文化背道而馳。在此之前,大家基本都能自由展開自己想做的研究。這種變化真的讓人不太舒服。

ChatGPT 的出現也從底層帶來了令人警醒的現實——一位傑出的NLP 專家在ChatGPT 發佈後的幾周裡,親自在本科教學中體會到了這一點。

· 克里斯蒂安娜・費爾鮑姆(普林斯頓大學語言學與電腦科學教授級講師):我們新學期才剛開始。上課前,一個我還不認識的學生來找我,給我看了一篇署名是我、標題也眼熟的論文,說:「我特別想上您的課,我研究了您的作品,發現了這篇論文,但有些問題想請教您,您能解答一下嗎?」我當然欣然答應,還挺開心有人研究我的成果。我翻看論文,努力回憶內容,這時他突然爆笑起來。我問他:「有什麼好笑的?」他說:「這篇論文是ChatGPT 寫的。我讓它『以克里斯蒂安娜・費爾鮑姆的風格寫篇論文』,就得到了這個。」當時離上課只剩 10 分鐘,我沒逐字細讀,但看上去確實很像我會寫的東西。我完全被糊弄了。走進教室後,我滿腦子都是:「我該怎麼辦?」

在接下來的一年裡,博士生們也不得不面對新的現實。ChatGPT 威脅到了他們的研究專案,甚至可能影響到他們的學術生涯。不同人應對的方式和效果各不相同。

· 克里斯托弗・卡利森 - 伯奇:在這種情況下,有終身教職會輕鬆一些。但年輕學者面臨的危機更直接、更強烈。有些博士生甚至組建了互助小組。

· 利亞姆・杜根(賓州大學四年級博士生):我們只能互相傾訴、彼此安慰。很多比我年級高、已經開始寫博士論文的同學,都不得不徹底改變研究方向。很多之前的研究思路,感覺已經沒有學術價值了,現在只要應用語言模型,一切就解決了。奇怪的是,我認識的人裡沒人直接放棄,但確實有人在消極怠工,或是變得很消極、很憤世嫉俗。

· 雷・穆尼(德州大學奧斯丁分校人工智慧實驗室主任):我帶的一個研究生甚至考慮退學,他們覺得或許業界裡才有真正的發展機會,學術界已經不行了。我當時想,他們這麼想也許沒錯。不過我很高興他們最後決定留下來。

· 朱莉・卡利尼(史丹佛大學電腦科學二年級博士生):2023 年我剛開始讀博,感覺前途未卜。我完全不確定自己的研究方向該怎麼定,但大家都跟我處境一樣。我只能試著接受現狀,努力夯實機器學習的基礎知識。只專注於大語言模型這種可能轉瞬即逝的熱門趨勢,可不是明智之舉。

與此同時,從西雅圖到南非,NLP 研究人員受到了全球潮水般的關注,但並非所有關注都是正面的。

· 武科西・馬里瓦泰(普利托利亞大學ABSA UP 資料科學主席,Masakhane 聯合創辦人):2023 年,我都記不清自己做了多少場關於大語言模型的講座。以前,多年來我一直努力讓大家關注這個領域,告訴他們「這裡面有很多有趣的東東」。但突然之間,鋪天蓋地都是「來給我們講講這是怎麼回事」的請求。

· 山姆・鮑曼:這個領域一下子從相對冷門變得熱門起來,我甚至會和那些在同一個月裡見過教皇和總統的人共進午餐。

· 艾米麗・M・本德(華盛頓大學語言學系教授,2024 年計算語言學協會主席):從 1 月到 6 月,我數了一下,只有 5 個工作日沒有媒體聯繫我。幾乎一刻都不停歇。

· 埃莉・帕夫利克(布朗大學電腦科學與語言學助理教授,Google DeepMind 研究科學家):在ChatGPT 出現之前,我覺得自己可能只和記者打過一兩次交道。但ChatGPT 問世後,我上了《60 分鐘》節目。工作性質發生了天翻地覆的變化。

· 克里斯托弗・卡利森 - 伯奇:我感覺自己的工作不再只是面向一小群研究生和本領域其他研究人員的學術工作,而是突然有了一項重要的責任——科學傳播。我還受邀到國會作證。

· 利亞姆・杜根:作為一名二年級博士生,我突然在採訪中被要求發表自己的觀點。一開始,我還覺得很酷,心想「我居然成專家了!」但後來就不那麼興奮了,反而覺得壓力很大,比如被問到「你認為這個領域未來會怎麼發展?」我哪知道啊,為什麼要來問我?當然,我還是會自信地回答。這真的很荒唐,相關論文成千上萬,每個人都對現狀有自己的看法,可大多數人根本就沒搞清楚狀況。

· 山姆・鮑曼:一方面,這個領域迎來了前所未有的關注,很多來自不同領域的優秀人才都開始關注NLP;但另一方面,也充斥著大量噪音,大家無時無刻不在討論,很多觀點都是隨口一說,毫無道理。這既讓人欣喜,又讓人無奈。

· 納茲寧・拉賈尼:那一年就像坐雲霄飛車一樣。

2023 年 12 月,ChatGPT 發佈一年後,年度EMNLP 會議在新加坡再次召開。

· 利亞姆・杜根:會議的熱度比之前高了很多,arXiv(預印本平台)上的研究成果如潮水般湧來。走在會議大廳裡,到處都在討論語言模型的提示工程和評估。感覺和以前大不一樣了,至少參會的人好像比有價值的研發想法還多。這裡已經不太像NLP 的會議了,更像是AI 的會議。

變革之中(2024 - 2025 年):大語言模型研究、資金以及邁向AI

對於NLP 領域來說,大語言模型帶來的影響已經十分明顯,而不同的人對這些影響也有不同的看法。

· R・托馬斯・麥科伊:每當你研究一個AI 系統的能力時,都應該去研究那些我們能夠獲取其訓練資料的系統。但目前在這個領域,主流做法並非如此。從這個角度講,我們更像是「大語言模型研究者」,而非嚴謹的科學家。

· 埃莉・帕夫利克:我完全承認自己也有這樣的問題。我在做報告時經常說:「現在,我們都在研究語言模型。」我知道這看起來目光短淺。但從長遠的研究規劃來看,這是必要的。在我看來,如果不搞清楚「大語言模型在做什麼」,就無法真正理解語言。

· 卡利卡・巴利(微軟印度研究院高級首席研究員):每次西方主導的技術變革出現時,總會引發一些哲學層面的思考。但在全球南方的大多數地區,我們更關心「如何讓這項技術為我們當下所用」。舉個小例子,ChatGPT 出現後,印度很多人最初的想法是,讓生成式語言模型用英語完成任務,然後透過翻譯系統轉換成其他語言。但機器翻譯很生硬,如果數學題裡有「約翰和瑪麗要分一個基圍蝦派」(key lime pie,實際是青檸派,但直譯為基圍蝦派會造成理解偏差),翻譯成印地語後,印度的大多數人根本不知道「基圍蝦派」是什麼。除非模型本身能理解這些內容,否則怎麼把它翻譯成符合當地文化的表述呢?這讓我對如何解決這類問題產生了濃厚興趣。

· 伊茲・貝爾塔吉(艾倫人工智慧研究所首席研究科學家,SpiffyAI 首席科學家兼聯合創辦人):你會意識到,為了推動這個領域繼續發展,必須打造出那些龐大且昂貴的研究成果。就像大型強子對撞機,沒有這樣的設備,實驗物理學就很難取得進展。我很幸運能在艾倫人工智慧研究所(Ai2)工作,這裡的資源比大多數學術實驗室都要豐富。ChatGPT 的出現讓我們清楚地看到,OpenAI 和其他機構之間存在著巨大差距。所以之後,我們立刻開始思考如何從頭打造類似的成果,後來也確實這麼做了。2024 年,Ai2 推出的OLMo 模型,為日益擁擠的行業語言模型市場提供了一個完全開源的選擇。與此同時,一些持續研究這些商業語言模型(在ChatGPT 引發的AI 熱潮之後,它們在規模、能力和複雜性上都不斷提升)的研究人員,開始遇到新的阻力。

· 崔藝珍(史丹佛大學電腦科學教授,2022 年麥克阿瑟獎得主):2023 年末,我發表了一篇論文,展示了最新的GPT 模型在處理乘法運算時的奇怪現象:當數字達到三位數或四位數時,它的表現會急劇下降。這篇論文引發了極大的爭議。那些根本不做實證研究的人質疑我:「你的實驗做對了嗎?」這種情況以前從未發生過。他們的反應很情緒化。我其實很欣賞這些人,但他們的反應還是讓我驚訝,我沒想到這個模型在他們心中的地位如此重要,就好像我批評的是他們的寶貝一樣,這真的讓我大開眼界。在科學研究中,毫無根據的炒作毫無益處。我認為更嚴謹地研究大語言模型的基本能力和局限性非常重要,這也是我 2024 年的主要研究方向。但我發現自己陷入了一個尷尬的境地:總是在指出模型做不到的事情,感覺自己像個唱反調的人。雖然我覺得這很重要,但我也不想只做這件事。所以最近我也在思考很多其他不同的研究問題。

· 塔爾・林曾(紐約大學語言學與資料科學副教授,Google 研究科學家):有時候我們假裝在進行科學探討,但參與討論的某些人所在的公司可能價值 500 億美元,這種情況下的討論就變得很複雜。

研究熱潮、大量資金湧入以及過度的炒作,讓NLP 和AI 之間本就不明顯的界線徹底消失了。研究人員不僅要面對自身的新機遇和激勵因素,還要考慮整個領域的發展方向。

· 納茲寧・拉賈尼:大語言模型為我打開了很多原本不存在的機會之門。我是最早一批獲取資料並在開源環境中複現ChatGPT 的人之一,基本上可以說我寫了相關的「操作指南」,這真的很棒。也正因如此,我的新創公司獲得了一筆不錯的種子輪融資。

· R・托馬斯・麥科伊:只要是和AI 沾邊的大學教師,都會被視為AI 領域的專家——某種程度上被定型了。我很樂意研究AI,因為憑藉我的專業技能,這是最有影響力的研究方向之一。但真正讓我開心的,是深入鑽研語法和人類認知中那些有趣的細節。雖然這也能和AI 發展聯絡起來,但這條路還很長。

· 朱莉・卡利尼:這其實就是語義的問題,對吧?就我個人而言,我覺得自己同時涉足NLP、計算語言學和AI 領域。我知道每個領域都有各自的研究群體,但也有很多人在多個領域之間跨界。

· 朱利安・麥克爾(Scale AI 安全、評估與校準實驗室主任):如果NLP 領域不做出改變,就會逐漸被淘汰。我覺得在一定程度上,這種情況已經發生了。說這話讓我很難過。我現在已經是一名AI 校準研究員了。

· 安娜・羅傑斯(哥本哈根資訊技術大學電腦科學副教授,ACL 滾動評論主編):我並不擔心。主要是因為我覺得我們還遠沒有解決自然語言處理的問題。如果你認為「就這樣了,語言處理問題已經解決了」,那才應該感到沮喪,但我不這麼認為。

· 克里斯托弗・波茨(史丹佛大學語言學系主任):對語言學和NLP 領域來說,現在應該是一個極具意義的時刻。這其中的風險和機遇都非常大。也許這就是一個領域覺醒的時刻,大家意識到自己如今擁有了巨大的影響力。你不能再假裝自己只是一個默默做研究、只為了學術而研究的科研或工程領域了——因為現在全世界的資金都在湧入這個領域,所有大公司都想在這個領域施加影響,語言模型也在各個地方廣泛應用。既然取得了這麼大的成果,就必須接受隨之而來的激烈爭論。不然還能怎樣呢?

大語言模型是一次範式轉變嗎?

不出所料,人們對此觀點不一。

· 塔爾・林曾:如果在 5 年、7 年或 10 年前有人問我,我絕對想不到,僅僅在語言模型裡輸入一條指令,它就能按照要求把句子補充完整。我覺得當時沒人能想到這會成為如今的範式。現在我們只需要一個互動介面,就能完成各種任務。

· 安娜・羅傑斯:作為一名語言學家,我不這麼認為。從 2013 年詞向量時代開始,整個研究的核心思路就是遷移學習——從大量文字資料中學習知識,希望這些知識能在其他任務中發揮作用。這些年,模型的受歡迎程度、架構以及公眾的看法都發生了變化,但這個核心原則並沒有改變。

· 傑夫・米切爾(薩塞克斯大學電腦科學與人工智慧助理教授):我覺得企業利益改變了這個領域的遊戲規則。

· 埃莉・帕夫利克:我認為媒體的介入產生了很大影響。我們領域的科學家意識到,成功可以意味著在NLP 領域之外也獲得知名度,受眾突然變了。現在arxiv.org上的論文標題常常是為了吸引記者或矽谷愛好者的關注,而不是為了吸引教授們。這是一個巨大的變化。

· 武科西・馬里瓦泰:我認為在某些方面,進入這個領域的門檻既降低了,又提高了。說降低,是因為我們對這些系統內部實際的運作機制還有很多不了解的地方,所以很多研究只是盡可能地對它們進行測試和探索。在這種情況下,你並不需要對神經網路架構瞭若指掌。但同時門檻也提高了,因為要想深入研究這些架構,從計算資源的角度來說,你必須處於一個資源非常豐富的環境中。

· 艾米麗・M・本德:我看到一種巨大的轉變,人們越來越傾向於使用聊天機器人或相關的文字產生機器來實現端到端的解決方案。但我認為這是一條死胡同。

· 克里斯蒂安娜・費爾鮑姆:我甚至覺得可以稱之為巨大的轉變或衝擊,這些大語言模型變得如此強大,以至於我們不得不思考:「人類在其中處於什麼位置?」這就是一種範式轉變:技術上的轉變,這些模型的訓練方式以及它們的學習能力都發生了變化。當然,還有教育方面的影響,就像我在課堂上遇到的情況。這些問題讓我夜不能寐。

· R・托馬斯・麥科伊:在語言學領域,有很多歷史上一直停留在哲學層面的爭論,如今突然可以透過實證進行檢驗了。這絕對是一個重大的範式轉變。但從另一個角度看,10 年前這個領域的研究模式是:人們創建一些資料集,用神經網路對其進行處理,然後觀察結果。現在這種模式依然存在,只是資料集和神經網路的規模都變得更大了。

· 克里斯托弗・波茨:也許科學發展一直都是這樣,範式轉變的標誌就是曾經認為重要的問題如今不再被提及。在過去五年裡,這種情況似乎真的發生了。我曾經專注於情感分類,比如「給我一個句子,我能判斷它表達的是積極還是消極情緒」。但現在整個領域都聚焦於自然語言產生,與這個方向相比,我們曾經認為核心的問題都變得邊緣化了。我猜這些話可能很快就會過時。也許到 2030 年,我們回頭看會覺得現在這些根本不算什麼,和 2029 年發生的事情相比簡直不值一提。

所以,你認為大語言模型究竟是不是一次「範式轉變」?

主標籤:自然語言處理

次標籤:大語言模型學術界AI研究ChatGPT


上一篇:2200 萬下載 AI 助手為何口碑崩塌?

下一篇:微軟亞洲研究院 SYNTHLLM:為語言模型驗證合成數據的規模法則

分享短網址