大型語言模型(LLM)到底有沒有辦法真正思考?這個問題一直盤旋在許多人的心中。
作為大型語言模型(LLM)的反對者,楊.勒坤(Yann LeCun)再次提出了新證據。他參與的最新研究《From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning》(從詞元到思想:大型語言模型與人類在壓縮與意義之間的權衡),運用資訊理論的嶄新視角,揭示了大型語言模型(LLM)與人類在「理解世界」這件事情上的本質差異。
人類大腦在處理資訊時,擅長將錯綜複雜的感知與經驗,壓縮成簡潔且有意義的「概念」。例如,「知更鳥」和「藍松鴉」都被歸類為「鳥類」,而且我們還能辨別出「知更鳥」比「企鵝」更「像鳥」。這種能力讓我們在面對海量資訊時,既能高效歸納,又能兼顧對細節與語境的敏感度。
而大型語言模型(LLM)的「理解」機制則大相徑庭。它們透過對海量文字的統計學習,形成了複雜的詞嵌入空間。論文作者提出質疑:這些人工智慧模型內部的「概念結構」,是否也能像人類一樣,在壓縮資訊的同時保留豐富的語義?或者說,它們其實只是「聰明的壓縮機」,本質上與人類的認知天差地遠?
資訊理論新框架:以「速率-失真」理論量化人工智慧與人類的差距
為了回答這個問題,研究團隊創新性地引入了資訊理論中的「速率-失真理論」(Rate-Distortion Theory)和「資訊瓶頸原理」(Information Bottleneck),建立了一套全新的量化框架。簡單來說,這個框架可以精確衡量一個系統在「壓縮資訊」(減少冗餘)和「保留語義」(避免失真)之間的權衡。
研究人員選用了認知心理學領域的經典資料集(例如 Rosch 的「鳥類」、「家具」典型性實驗),這些資料集由專家精心設計,能真實反映人類的概念形成與「典型性」判斷。同時,研究團隊分析了 BERT、Llama、Gemma、Qwen、Phi、Mistral 等多種主流大型模型的詞嵌入結構,涵蓋了從數億到七百多億參數的不同規模。
三大核心發現:人工智慧與人類的「理解鴻溝」
1. 人工智慧能學會「分門別類」,但難以「舉一反三」
研究發現,大型語言模型(LLM)在進行大類劃分時表現優異,能將「鳥類」、「家具」等項目分類得八九不離十,甚至有些小型模型(例如 BERT)在這方面比大型模型還要強。這說明,人工智慧在宏觀上能「看懂」哪些東西屬於同一類。然而,在更細緻的「典型性」判斷上,人工智慧就顯得力不從心了。舉例來說,人工智慧很難像人類一樣,認為「知更鳥」比「企鵝」更「像鳥」。這種「細粒度」語義區分的欠缺,意味著人工智慧的「理解」仍停留在表層。這種細膩的語義區分,是人類認知的一大獨特優勢。
2. 人工智慧與人類的「最佳化目標」截然不同
這篇論文的最大亮點在於揭示了人工智慧與人類在「壓縮-意義」權衡上的本質分歧。大型語言模型(LLM)在內部表達上極度追求「壓縮」——用最少的資訊表達最多的內容,最大限度地減少冗餘。這種「壓縮至上」的策略,使得人工智慧在資訊理論的意義上極為高效,但也犧牲了對語義細節和上下文的敏感度。而人類的概念系統則更注重「適應性豐富性」,亦即保留更多細節與語境,即使這會降低壓縮效率,多花費一些「儲存空間」。這種根本性的差異,決定了兩者在「理解世界」時的表現截然不同。
3. 模型越大不等於越像人類,模型結構與目標更為關鍵
研究還發現,模型規模的擴大並無法讓大型模型更接近人類的思維模式。相反地,模型的結構與訓練目標才是影響「類人化」表現的關鍵。例如,BERT 等編碼器模型在某些任務上甚至優於更大的生成式模型。這項發現對當前人工智慧「堆疊參數」的發展趨勢提出了挑戰。
總結
技術的進步不只是追求「更大」或「更快」,更重要的是「更合適」。如果想讓機器更好地服務於人類,或許我們需要重新思考,什麼才是真正有價值的「智慧」。我們不必苛求機器像人一樣思考,或許正是這些差異,使得人類與技術的結合變得更加有趣且充滿可能性。
論文連結:https://arxiv.org/pdf/2505.17117
請在官方帳號回覆「入群」,即可加入討論群組。