作者|大模型機動組 郵箱|damoxingjidongzu@pingwest.com
華頓商學院教授、領先的人工智慧研究員Ethan Mollick與Sana創辦人兼CEO Joel Hellermark就人工智慧在工作中快速變化的世界進行了坦誠而廣泛的對談。他們探討了人工智慧如何不僅僅是一種效率工具,而是一個轉折點——迫使企業在漸進式優化和轉型規模之間做出選擇。討論涵蓋了機器智慧的根源、AGI的相關性,以及如何從零開始建構面向人工智慧原生未來的組織。
以下是對話的內容實錄:
Joel Hellermark:我想從一開始聊起,你在麻省理工學院的時候,和Marvin Minski他們在一起時有哪些想法呢?
Ethan Mollick:那個階段有點像竊取技術光環,因為我不是和Marvin一起程式設計的人。我是商學院的學生,試圖幫助AI領域的人向其他人解釋什麼是AI。所以我和Marvin以及媒體實驗室的其他人在這方面合作了很多。
特別有趣的是,那時正處於AI的寒冬,所以當時人們不太關注AI,都在想如何創造智慧的複雜方案。當時有一些專案,是觀察嬰兒的所有行為,認為這樣或許能讓我們製造出AI,還有政府的“思維社會”專案,都是這類複雜相互關聯的內容。很諷刺的是,實際的解決方案最後竟然是往學習系統裡輸入大量語言,然後就有了大語言模型。
Joel Hellermark:這很有趣,因為很多技術想法最後都被證明是錯誤的。不過其中的一些核心哲學思想現在又流行起來了,Minsky和Engelbart主張增強人類智慧。Minsky更傾向於用機器取代人類智慧,讓機器有意識。你認為那些關於如何應用AI的基礎理念,現在還有哪些是有意義的呢?
Ethan Mollick:我們現在都在為此苦惱,因為我們已經看到了這些成果,也回到了關於“增強”的問題上,兩週前有一篇新論文指出,GPT-4.5已經能夠通過三方圖靈測試了。事實上,70%的情況下,人們會把AI誤認為是房間裡的人類,我不知道這意味著什麼,但這比隨機猜測要好。
我認為我們面臨著一些思想家們長期以來擔心的問題:AI會取代人類嗎?我們該如何利用它呢?對於增強人類智慧,增強到底是什麼樣子成了一個大問題。比如說,我們的這場討論,我覺得以前並沒有深入探討過,因為以前有點像虛構的東西,那麼我們該如何對待這些非常智慧但也有局限性的機器?人類在這個等式中又該處於什麼位置?我覺得這個問題以前從未得到解答,而現在突然變得非常重要了。
Joel Hellermark:圖靈測試在當時是個很棒的想法。但如果我們現在要設計一個新的“ Mollick測試”,你認為針對AGI的“Mollick測試”應該是什麼樣的呢?
Ethan Mollick:我一直對AGI這個概念感到困惑,這個概念定義得很模糊。圖靈測試有趣的原因和其他測試一樣,在我們沒有東西可測試的時候它們都很棒。比如圖靈測試在電腦明顯無法通過的時候是很厲害的。我們也面臨一些問題,比如AI在我們現有的所有創造力測試中都表現出色,但這些測試是為人類設計的,而且對人類來說也只是一般水準。
現在我們期望AI能通過這些測試來判斷一個人是否有同理心,在社會科學中,最好的測試是“讀心術測試”,我們給人們看一堆眼睛的圖片,讓他們說出圖片中人物的情緒。這些測試都不是為AI設計的。所以我經常思考這個問題,而且我傾向於從實際應用的角度來看待它。
首先,每個人對AGI都有自己的測試標準。我是商學院的教授,對我來說最簡單的測試標準之一就是,這個智慧體能否在現實世界中賺錢、辦事。作為一個有用的測試,它能否發現新知識並進行驗證,得出結果?但我認為我們開始意識到,AGI將是我們所處的一個階段,而不是一個特定的時間點,不會有煙花綻放來宣告它的到來。Tyler Cohen說GPT-3就是AGI。被問到原因時,他說這就像色情作品,一看便知。所以我們不知道這些問題的答案是什麼,甚至我們開始意識到這些問題其實沒有意義。
Ethan Mollick:因為事實證明,就像你們瞭解到的,如果將AI正確地連接到系統和公司流程中,得到的效應會比各部分簡單相加要好得多,這和單純地進行對話完全不同,比如進行戰略決策。
Joel Hellermark:這些模型發佈時,總是針對最硬核的數學問題和科學問題進行測試很少涉及更多的商業應用。如果你要確定一個更側重於公司實際應用的基準,這個基準會是什麼樣?
Ethan Mollick:我認為這是我們目前面臨的最關鍵的問題之一。因為實驗室裡的人都是科學家,他們認為人生中唯一有意義的事情就是程式設計,再加上他們想用AI來開發更好的AI。所以程式設計和數學就成了重要的技能,其次是生物學,因為他們都想永生,所以就形成了這樣一種趨勢。
但在其他方面幾乎沒有什麼基準測試。我們知道AI公司會為了基準測試而開發模型,並且會採用一些不太靠譜的方法來優化模型,不過他們也會用這些方法進行測試。所以缺乏好的商業基準是一個真正的問題,實際上我一直在倡導公司在一定程度上自己來做這件事。
有些可以基於具體的數據,比如讓它處理會計流程時出錯的頻率。但有些可以基於主觀感受,就像他們說的,可以請外部專家來評判答案的品質,看看是否和人類做得一樣好。為你工作中的各個重要環節設置自己的圖靈測試。分析報告是否足夠好?錯誤率是多少?如果用它來提供戰略建議,決策選擇的品質如何?這些問題並不難衡量,也不是很專業,但確實需要付出一些努力。
Joel Hellermark:我認為產品在這方面也存在很多不足,尤其是部署智慧體時,測試這些智慧體、瞭解它們掌握的知識和欠缺的知識、糾正它們並運行測試集的能力非常有限。當我們考慮設計一個以AI為先的組織時,假設你有一家千人公司,要將這個組織重新設計成完全可評估的,你會如何建構它?
Ethan Mollick:首先,將組織重新設計成以AI為核心並不容易,因為它原本並不是這樣的。我們正處於一個非常有趣的階段,幾百年來,組織發展與工業革命、通信革命並行。第一份組織結構圖於1855年為紐約和伊利鐵路公司繪製,它解決了一個前所未有的問題,即如何利用電報即時協調鐵路線上的大量運輸。麥肯錫的創辦人想出了組織結構圖這個解決方案,我們至今仍在使用。後來還有很多重大的組織創新,比如亨利·福特的生產線、時鐘打卡制度,我們現在還在使用,還有敏捷開發模式。
所有這些模式的前提都是只有一種智慧形式,即人類智慧。人類的能力有限,管理跨度通常是五到七個人,這就是所謂的“兩個披薩原則”。而現在情況不同了,我們需要從頭開始重建。我有點擔心現代西方公司已經放棄了組織創新。
過去,陶氏化學公司或IBM公司獲勝的方式是想出新的銷售方法或與其他組織合作的新方式。而現在,我們把這些都外包出去了。企業軟體公司會告訴你如何組建公司,因為Salesforce會賣給你他們的產品,教你如何進行銷售,大型諮詢公司會告訴你如何營運組織。現在是領導者真正需要創新的時候了。
回到最初的問題,重新設計組織時要考慮到一個趨勢,即產品中對人類的需求會減少。然後你要選擇是增強人類能力還是取代人類,再從這個角度開始建構系統。是讓更少的人完成更出色的工作,還是讓更多的人做更多的工作,一起征服世界。
Joel Hellermark:這是否意味著我們會減少所謂的“超級員工”?還是說我們會讓每個人的生產力提高一倍?是組建小團隊來監督智慧體的運作,大幅提高生產力,還是在整個組織中廣泛部署,讓少數人獲得更多提升?
Ethan Mollick:我認為這些都是關鍵的選擇。我擔心的一點是,從早期的應用情況來看,人們把AI看作是一種提高效率的技術。這我也有點責任,我們最早研究關注的是AI帶來的生產力提升,我現在仍然關注這一點,因為這很重要。但我非常擔心,在工業革命邊緣,或者說在這場新的革命中,公司把AI當成了普通技術。
比如,他們通過AI在客服方面提高了25%的效率或節省了成本,就會裁掉25%的員工,我經常聽到這樣的情況,這有很多風險。其中一個風險是,除了你自己,沒人知道如何在你的組織中部署AI,你可以開發出非常有用的工具和技術,但最終,公司裡的人要判斷這些是否有用。他們有相關經驗和證據來做判斷。如果他們因為使用AI會被解雇、受罰,或者會被取代而不敢嘗試,那麼即使AI能提高效率,他們也不會讓你看到。
另一個問題是,如果我們即將迎來生產力的爆發,在這個時候把組織規模縮到最小是不明智的。就像想像一下19世紀初的工業革命,如果當地的釀酒商有了蒸汽動力,他可以選擇解雇大部分員工,提高每桶麥芽酒的利潤;也可以效仿Guinness,僱傭10萬人,向全球擴張。我的確擔心太多人選擇小格局的道路,而不是大格局的道路。
Joel Hellermark:你一直倡導增強人類能力,就像我們以前常說的“思維腳踏車”,現在我們可能在一定程度上擁有了“思維飛機”,你認為AI將如何增強人類智慧?這和我們以往的認知有些不同。我們過去認為AI會先從單調重複的任務開始,然後發展到知識工作、程式設計,最後才是創造性任務。但實際上情況幾乎相反,創造性任務和知識工作方面AI表現不錯,但單調重複的任務卻很難實現自動化。你認為我們應該如何應用AI?
Ethan Mollick:很有意思的是,當你試圖向AI解釋“愛”這個概念時,它可能會“死機”,無法理解。但現在我們有了一些奇怪的系統,它們非常情緒化,需要被說服才能做事。例如,在提示工程中,有時你得向AI解釋為什麼它應該做某一步,而不是直接命令它做。要告訴它“這很重要,你應該這麼做”,這很奇怪。
說到增強人類能力,我們的工作是由很多不同的任務組成的,沒人會按照現在的方式設計一份工作。比如我作為一名教授,我要做很多事情,要成為一名好老師,提出好的想法,和你們交流,做研究,管理學術部門,這些任務中很多都可以交給AI。我不介意讓AI來批改作業,如果有幫助的話。我也不介意通過AI提供更多的諮詢支援,如果這有幫助的話。
所以增強人類能力並不意味著因為AI能完成創造性、知識性的任務,它在這些方面就比人類更優秀。至少目前來看,在這些方面它還達不到專家水準。你最擅長的事情,你可能比AI做得更好。所以,增強人類能力的第一步是把工作中你不擅長的部分交給AI。第二步是利用AI提升你正在做的事情。我們也開始有一些相關的證據支援這一點。
Joel Hellermark:當這些系統變得更加主動而不是被動時會怎樣?目前我們非常依賴給系統輸入資訊,讓它們給出回饋,進行提示等。在某個時候,我們應該會有比我們更擅長提出問題的系統,它們能主動為我們服務。以你的領域為例,有沒有出現過這樣的情況,系統替你完成所有研究,然後對你說“Ethan,這些符合你的研究方向,我寫了五篇論文,你選一篇最好的”?
Ethan Mollick:你提到的幾點非常重要。其中一點,雖然相對次要,但也很關鍵,就是系統給我提供十篇論文的情況。現在我們面臨的問題是資訊豐富但過剩,我們還不太習慣能輕鬆獲取大量資訊並進行篩選的情況。所以篩選資訊的能力變得非常重要,能夠從眾多選項中挑選出合適的內容,這有點像管理能力,畢竟很多人都渴望具備管理能力。關鍵是如何引導系統朝著我們期望的方向發展。
但最終,我們不確定這些系統能發展到多好的程度,而每個問題都取決於你對AI發展的預期。如果AI能在高水準上完成我們組織中的所有工作,比如我作為教授的工作,那我們就進入了未知領域,我不知道答案是什麼。我認為實際的組織運作比我們想像的要複雜得多,而且並不總是追求效率。
AI的能力也有局限性,它可能無法完成整個論文,因為某些部分會失敗。但如果我有經驗,我就能知道哪裡會失敗,並進行干預和調整,就像指導博士生一樣。所以我認為在很長一段時間內,我們仍然需要提供方向和指導,自主性還是有限的。
Joel Hellermark:我認為AI能力的局限性可能是目前組織應用中最缺乏的方面,和系統交流時非常混亂,它有時表現得非常天才,有時又很愚蠢。這也使得在組織中獨立部署AI變得非常困難。這有點像自動駕駛汽車,部署花了很多時間,因為它在某些應用中表現得超人類,但在其他情況下又會遇到問題。你認為獨立智慧體的應用情況會如何?是會因為能力局限而在未來十年受到阻礙,還是我們很快就會信任這些系統?
Ethan Mollick:我認為目前特定領域的智慧體已經表現得很不錯了。比如谷歌、OpenAI和X公司推出的深度研究智慧體,它們雖然也很讓人困惑,但都非常出色。它們能很好地完成查找資訊、提供答案的特定任務,這是非常有價值的工作。不過它們還不夠完善,比如無法訪問人們充分使用這些系統所需的私有數據,但它們在法律研究、會計、市場研究和金融研究等領域已經開始表現地很好,所以將一些複雜的特定任務交給特定領域的智慧體是可行的。
我認為可以通過一些巧妙的方法讓智慧體之間相互監督,但目前還沒有人大力推動。我們才剛剛開始接觸AI,有兩個問題需要考慮。一是能力邊界,我提出的“參差不齊的邊界”概念是指這個邊界一直在向外擴展,但參差不齊。有些短板會存在一段時間,但隨著AI整體能力的提升,即使在某些方面表現不佳,它仍然比人類強。那麼問題就是,你是等待邊界擴展後再解決問題,還是現在就圍繞這些短板進行改進?我認為兩者都要做。但如果現在過於專注於解決短板問題,隨著模型不斷改進,你最終可能會被建立在舊有短板邊界上的系統所束縛。
Joel Hellermark:很有道理。組織面臨的一個難題是發現AI的應用場景。有些組織採用自下而上的策略,組織的大部分成員已經在一定程度上使用AI工具,但不告訴領導。另一些組織採用自上而下的策略,比如制定AI戰略。你認為應該如何在組織內部發現這些應用場景?有哪些策略?
Ethan Mollick:我認為要讓AI在組織中發揮作用,需要三個要素:領導力、群眾基礎和研發投入。關於領導力,後面再詳細說。
也就是說,組織需要從CEO和高層開始思考一些基本問題,比如我們組織的業務是什麼?我們希望它變成什麼樣?我們想在組織形式上進行哪些實驗?如果這些問題沒有得到解答,組織成員的激勵機制就無法正確設置。公司裡的每個人都想知道,如果要和智慧體一起工作,日常工作到底是什麼樣的,所以這些必須由領導層明確。目前的一個問題是,高層領導對這些系統的使用還不夠,你可以看到,那些使用得好的組織,推廣速度會快很多。
比如摩根大通銀行,他們公開表示在使用AI,並且這種做法逐漸推廣,這也是摩根大通在AI應用方面表現出色的原因之一。要有領導層的推動,也要有群眾基礎,讓每個人都能以某種方式使用這些工具。進而要建立激勵機制,讓他們分享自己的使用經驗,人們不分享使用AI的經驗有很多原因,比如認為自己很聰明,不想讓別人知道;擔心效率提升後會導致裁員;工作變得輕鬆了,不想把額外價值分享給公司;有了好的想法但不想冒險分享,所以要讓組織成員願意分享。
接下來,要將這些個人的經驗轉化為產品和智慧體,需要進行實際的研發工作。這並不意味著只是程式設計,工具的開發也很重要。關鍵是如何進行實驗,如何將簡單的提示轉化為智慧體系統,如何對這些系統進行基準測試。這三個要素缺一不可。
Joel Hellermark:過去一年裡,你做了很多研究,涉及AI在團隊協作、輔助諮詢等方面的應用。你認為目前哪些應用場景已經能帶來有意義的價值?
Ethan Mollick:目前情況很明顯。有些工作,比如企業社會責任方面的工作,AI還難以勝任。在對外與人直接交互的替代和增強方面,結果很清晰。個人與AI合作,尤其是大家能夠分享資訊時,在創意生成方面,AI非常有用,能幫助你產生更好的想法。不同的方法效果不同,但這種合作方式對各種工作都有補充作用,比如翻譯、資訊提取和總結。
但最有趣的是加速工作流程,我看到很多快速原型開發的案例。比如有了一個想法後,讓AI生成25個相關想法,用創意標準對這些想法進行測試,然後模擬用戶對這些想法的反應,進一步完善想法,最後製作出一個可運行的原型。這個過程可能只需要25分鐘,通過命令行和OpenAI就能完成。但組織往往會在這個過程中遇到問題,比如有了很多好的原型後,製造能力和產出卻跟不上。所以在初期,AI的增強作用很明顯。此外,研究智慧體和知識管理智慧體也很有價值,它們能提供及時的建議。
Joel Hellermark:當每個人都能進行程式設計、做科學研究、深入多個領域時,經濟會發生什麼變化呢?比如醫療行業的產出提高10倍,我們還會受到監管的限制嗎?還是系統會適應這種變化?
Ethan Mollick:兩者都會發生。系統的變化需要很長時間。我們和DeepMind的人交流時,他們說一年內藥物研發取得了很好的成果,這會促使系統做出改變。但監管環境的不確定性是個問題,比如歐洲和美國的監管原因不同,這讓我們很難確定投資方向,而且AI在現實世界中的行動能力有限。
機器人技術和組織結構的發展都滯後於AI。所以如何考慮這些因素變得非常重要。人們喜歡使用智慧體的原因之一是它們能自動完成一些工作,讓我們省心,但它們最終會面臨現實世界的問題,這些摩擦點會導致進展放緩。另一方面,如果能突破這些摩擦點,提供一些有潛力的化合物,那也是巨大的進步。所以收益會逐漸顯現,但我們還不確定具體情況,這也和系統的自主性有關。
Joel Hellermark:你認為在這種情況下,組織中哪些角色會更有價值?
Ethan Mollick:這是個難題,很大程度上取決於組織的選擇。我認為管理角色和思考系統的角色會很有價值,因為系統存在很多問題,專家也會變得很有價值。事實證明,專業知識非常重要,沒有一個系統能比得上所在領域最頂尖的專家。我們通常以領域的平均水準來衡量,AI在這方面表現出色。但如果你是某個領域前2%的專家,你在這個領域就能勝過AI,所以在這個領域,專業知識很關鍵。要麼是深入的專業知識,要麼是作為系統領導者的廣泛知識,或者是出色的判斷力,這三點會對你有幫助。
Joel Hellermark:我一直在思考一個問題,一方面,你可以僱傭更資深的開發者,比如你說的,只僱傭前2%的人,他們會給我們帶來很大的改變;另一方面,現在你也可以僱傭更多初級開發者,因為他們在AI的輔助下能達到資深開發者的水準。你認為專業知識的普及是否能讓你用更多初級人才組建團隊,而資深人才可能從這項技術中受益較少?
Ethan Mollick:實際上,有幾個影響因素同時在起作用,值得分析一下。我們波士頓諮詢集團的研究是第一個在現實世界中記錄到低績效者從AI中獲得最大績效提升的。但人們不太討論我們發現這種現象的原因,我們測量了一個指標叫“保留率”,即諮詢師最終將AI的答案轉化為自己答案的比例。對於大約80%的諮詢任務來說,搞砸的唯一方式就是在AI的答案中加入自己的想法。只要直接提交AI的答案,就能取得很好的效果。
搞砸的唯一方式就是在AI系統的答案裡加入你自己的想法,只要你只是上交AI系統給出的答案,你就能表現得很好,本質上就是不要加入自己的想法,所以基本上能達到前8%的水準。當你說你早上要招聘一名初級開發人員,讓他們變得更優秀。我覺得有必要明確一下,是說人類只是在替代那些我們目前還無法讓AI自主完成的事情嗎?就比如,我貼上需求、參加會議,而實際上是AI在完成工作,是這樣嗎?還是真的能讓人們達到那個水準?
同時,在真正的優秀人才層面,我們看到這樣的效果:如果你很優秀並且正確地使用AI,你的工作效率能提高10倍甚至100倍。所以我覺得你得同時考慮這兩方面,存在這種替代效應。我一直認為,很多好處來自於你本身有專業知識,然後用AI來彌補你不擅長的領域。
比如我一直都在思考創業者的問題,我自己是一名創業者,也教授創業課程。創業就是你在很多方面都不太擅長,但在某一方面非常出色。我教授創業課程的原因是,要讓你不被那95%你不擅長的事情絆倒,比如你之前不知道自己需要一份商業計畫書,或者不知道怎麼做商業演示,但你的創意很棒,也知道如何在這個市場中實施它。所以AI能幫你解決80%的這些問題,這真的是件好事。這其實就是在取代你的工作。但在你處於前99.9%的領域,你能獲得100倍的提升,我覺得道理是一樣的。我認為問題在於,如果你招聘初級人員並期望他們一直使用AI,他們怎麼才能成長為高級人員,這會是個真正的挑戰。
Joel Hellermark:你覺得解決辦法是什麼?比如我和很多律師事務所交流過,對於他們來說,培訓的核心部分就是做基礎工作。然後等你資歷變深,就會進行更複雜的法律分析。但看看初級人員實際在做的工作,我覺得他們做的大部分工作和高級人員的工作並不匹配,工作很簡單、重複等等。你覺得這會不會成為一個問題,即人們無法像以前那樣在職業層級中成長,相應地,我們沒有那麼多人能勝任高級職位,或者人們會更快地進入高級職位?
Ethan Mollick:我確實很擔心這個問題,就像在其他大學一樣,我在華頓商學院教書,學生都是非常聰明的人。他們是通才,我教他們如何做分析,但不是教他們成為Goldman Sachs的分析師,然後他們去了Goldman Sachs或者律師事務所之類的地方,他們學到的都是我們過去4000年來一直在教授的任何白領知識工作的相同方式,那就是學徒制。
你說得對,他們被要求一遍又一遍地做重複性工作,反覆做這些重複性工作,這就是積累專業知識的方式,你可能會被你的高級經理責罵。在有的公司你可能待遇不好,在有的公司可能待遇不錯。但基本上你會不斷得到糾正,比如寫交易備忘錄,這不僅僅是學會寫交易備忘錄,你還在學習為什麼這種方法行不通,你會從導師那裡學到很多關於目標是什麼的東西,但事情就是這樣的發生了。
如果有一個好導師,學徒制就會起作用,我們沒有花很多時間專門培訓人們。這就像一種魔法,有些人學會了,有些人則被解雇了。他們被解雇可能是因為表現不好,但也可能是因為運氣不好,遇到了不好的導師,或者沒有學到正確的東西,那種師徒傳承已經持續了幾千年。
但現在的情況是,如果你是一名初級人員,你去了一家公司,你不想讓別人知道你有不懂的地方,因為你想保住工作。所以你會用AI來做所有事情。這樣你就不用動腦了,因為AI比你厲害。每個中層經理也意識到,與其找一個有時會搞砸事情或者哭鼻子的實習生,不如讓AI來做這項工作,因為它比實習生做得好。我真的很擔心這種人才培養的鏈條會斷裂。
問題是,我們把這當成一種潛移默化的事情,比如在律師事務所,幾乎沒有專門教你如何成為一名優秀律師的課程,你只能希望自己有一個好導師,然後複製他們的做法,這就是為什麼銀行家經常要每週工作120個小時。為什麼呢?因為一直以來都是這樣,這能教會你一些東西。所以我認為我們必須更正式地思考如何教授人們專業知識並付諸實踐。具有諷刺意味的是,我們在體育領域做得很好,因為在這個領域我們已經學會了如何培養專業技能,在教練的指導下反覆練習,我們在其他學習形式中也得採用類似的方法。
Joel Hellermark:如果你現在要創辦一所面向智慧時代的新大學,你會怎麼規劃?假設在接下來的幾十年裡,AI模型會不斷改進,你會如何圍繞這個來設計一所大學?
Ethan Mollick:有幾個方面需要考慮。一是我們應該教什麼,二是我們應該怎麼教,我更關心第二個問題。我覺得有一點很重要,就是我們要教人們AI技能。作為一個和這些系統打交道很多人,我想說其實學習相關技能並不難。
首先,大概有五門課程的技能需要學習,除非你想建構大語言模型,然後還需要很多實踐經驗。所以我覺得重點不在於教人們如何使用AI。我認為我們教授的很多學科知識和技能都非常重要。我們希望人們學會寫好文章,有廣泛的知識,以及深入的專業知識,我覺得大學很適合做到這一點。
但我們做得不好的地方在於教學方式,現在大家都在作弊,而且AI偵測器根本不管用。其實一直都有人作弊,但現在大家都明目張膽地作弊了。有一項很棒的研究表明,從網際網路時代和社群媒體真正興起的時候,大概是2006年或2007年開始,羅格斯大學那些認真做作業的學生,幾乎所有人考試成績都更好。
但到了2020年,幾乎沒有人能通過認真做作業來提高成績了,只有20%的人考試成績有所提升,因為其他人都在作弊,所以你必須付出努力。AI並不能讓我們跳過努力學習這一步,但有了一對一的AI導師,我們可以根據每個人的水準進行教學,我們可以在某些方面加速學習過程。所以我更感興趣的是如何改變教學方式,已經在我的課堂上嘗試了,如何利用AI來改變我們的教學方式,這是個非常有趣的問題。我不知道教學內容是否會改變,我覺得我們也可以擴大教學規模,教更多的人,但我認為一些核心學科內容不會改變。
Joel Hellermark:你做了一些非常酷的事情。你還採取了哪些其他方式來開展教學?
Ethan Mollick:所有方面。我的創業課程完全以AI為基礎,以前課程結束的時候,學生們會有一份商業計畫書和一個演示文稿,很多學生通過我的課程以及我同事的同一門課程籌集到了數百萬美元資金。但現在,一週課程結束的時候,學生們就能做出可以運行的產品了。
當我在ChatGPT發布後的那個週二把它引入我的創業課程時,有個很容易分心的學生課後找到我,說:“我們聊天的時候我就把整個產品做出來了。”那時候,AI能寫程式還讓人覺得很震驚,而現在情況完全不同了。現在,我讓學生們進行AI模擬操作,他們要教AI一些東西。
我們有一個初級的“ AI學生”,所有課程材料都配備有“AI導師”,他們要用AI來建構案例。在團隊合作中,有AI觀察他們的表現並給出回饋,或者扮演反對者的角色。所以有很多很酷的事情可以做來輔助教學,但目的都是為了讓課堂體驗更加積極和投入。所以我覺得課堂不會消失,但我們在課堂上做的事情會有所改變。
Joel Hellermark:我們一直在討論的一個問題是組織架構設計應該如何建構?公司應該聘請一位首席AI官來監督所有內部部署嗎?還是應該採用在每個團隊安排一個人來探索應用場景的模式?你怎麼看?你會如何建構你的AI部門?
Ethan Mollick:我有時候會有點擔心設置“首席AI官”這個職位,原因和大家面臨的問題一樣,就是每個人都想要答案。我經常和所有的AI實驗室交流,我知道你們也是,你們從事這個領域的時間比這個領域的大多數人都要長。很快你就會痛苦地意識到,其實沒人知道該怎麼做,並不是說實驗室有一本操作手冊沒給你。關於這個領域,我和你們分享的數據,以及我在網上分享的數據,已經差不多是全部了,沒有什麼秘密,大家都迫切地想模仿別人,但根本沒什麼可模仿的。
所以,當你說要聘請“首席AI官”時,他們在過去兩年裡能有多少經驗?和其他人有什麼不同嗎?沒人能預料到大語言模型會這麼厲害。你們進入這個領域比很多人都早,這讓你們領先了一年,這是一個很特殊的情況。所以根本找不到所謂的專家來聘請。
而且,在企業中應用AI的一個主要問題是,2010年到2022年期間,AI的概念和現在大不相同。大數據在推動各方面發展方面仍然很重要,值得去做,但那和現在的AI是兩回事,所以聘請首席AI官是比較難的。我堅信,企業內部其實有足夠的專業知識來取得成功,因為只有真正的專家才知道如何使用AI。
一個在某個崗位上工作了上千次的人,很容易就能運行一個模型,並判斷它是否有效。實際上,在我們波士頓諮詢集團的研究中,有第二篇論文表明,初級員工使用AI的能力遠遠不如高級員工,這是很多人沒有想到的。大家總覺得應該讓年輕一代來使用AI。
但事實並非如此,因為初級員工寫了一份備忘錄給你看,看起來還不錯。但你可能已經在這個領域工作了20年,你能指出這份備忘錄有七處不足之處,所以專業知識和經驗很重要。我認為,沒必要在每個團隊都安排專人負責AI。而且,我們甚至都不知道什麼樣的人擅長使用AI。所以我通常建議將普通員工群體和AI實驗室聯繫起來。
普通員工群體的作用不僅僅是發現AI的應用場景。實際上,在幾乎所有企業中,內部使用AI模型的員工最多只能達到20%-30%,其他員工要麼不使用,要麼偷偷使用別人的AI,因為他們不想讓別人知道自己的情況。但當有20%-30%的員工開始使用時,你會發現其中有1%-2%的員工在這方面非常出色。他們就是能帶領企業開展AI開發工作的人。
一開始你不知道他們是誰,你也不會知道,但他們會嶄露頭角。問題是,他們為企業創造了巨大的利潤,你可能想把他們從一線崗位上調走,但他們應該成為AI實驗室的核心力量,去探索如何更好地使用AI,所以我認為建立企業內部的AI開發能力才是正確的方法。在我們還不清楚什麼樣的人擅長或不擅長AI的情況下,我很難建議企業大量招聘AI相關人員,而且企業的組織背景在這方面也很重要。
Joel Hellermark:那你認為應該如何設置激勵機制呢?如果你把各領域的專家召集起來,讓他們去探索如何部署AI,甚至自動化掉他們自己的工作,你要怎麼激勵他們這麼做?
Ethan Mollick:這就是領導力如此重要的原因。首先,對於企業文化良好的公司來說,這會更容易一些。如果首席執行官宣佈公司處於發展模式,如果員工信任首席執行官或創辦人,而且他們說“我們不會因為AI而解雇任何人。我們會拓展業務,讓AI為每個人服務。”那麼員工就會更有動力去做這件事。
這比那些成熟的大公司要容易得多,因為大公司往往會利用AI來裁員,員工能感覺到其中的差別。所以一開始你就得開誠佈公,如果這會威脅到員工的工作,他們有權知道,你得先想好你要怎麼說。在這種情況下,激勵措施可能會非常多樣。
我和一家公司交流過,他們每週會給在自動化工作方面做得最好的員工發放1萬美元現金獎勵,和傳統的資訊技術部署相比,這就相當於直接塞給員工一大箱現金。還和另一家公司交流過,他們在招聘之前,要求應聘者花兩個小時和團隊一起嘗試用AI完成一項工作,然後根據AI的使用情況重新撰寫職位描述;或者在提出專案提案時,必須先嘗試用AI完成一部分工作,然後重新提交提案。
所以你可以用很多不同的方式激勵員工,但明確的願景非常重要,如果你說四年後你的工作將是和AI一起完成某項任務,人們會問“這是什麼意思?是我坐在家裡,給一個智慧代理發指令,讓它在我的房間裡做事嗎?員工數量會減少嗎?”,我發現很多高管都想把這個問題往後推,說“ AI會帶來很多好處。”但如果沒有相應的補償,員工為什麼要和公司分享自己提高的生產力?所以從這個願景開始非常重要。
Joel Hellermark:你還做過一項研究,是關於AI像同事一樣嵌入工作並進行協作的。你研究了獨自工作的人、團隊工作的人、獨自和AI一起工作的人以及和AI一起團隊工作的人。這項研究對我們如何將AI融入團隊有什麼啟示?
Ethan Mollick:我和麻省理工學院、哈佛大學以及華威大學的同事們對776人進行了一項大規模研究,研究對象來自大型消費品公司寶潔。就像你說的,研究對象分為跨職能的兩人團隊和獨自工作的個人,他們分別在有或沒有AI協助的情況下工作。
首先,我們發現,在實際工作任務中,獨自和AI一起工作的個人表現和團隊一樣好,這是一個非常顯著的提升,而且因為和AI一起工作,他們更開心。他們從和這些系統的協作中獲得了一些社交方面的好處,從而產生了高品質的成果。
我們還發現,和AI一起工作的團隊更有可能提出突破性的想法,以及專業知識的差異會被縮小。如果你衡量一個解決方案的技術含量,有技術背景的人會提出技術含量高的解決方案,有行銷背景的人會提出行銷導向的解決方案。但一旦加入AI,解決方案就更加多元化了。所以AI是對人類工作的很好補充,這其實還是比較初級的研究。我們給了他們一些提示,讓他們進行操作,但很多時候他們只是在和這些系統互動。所以,這還是和以前一樣的問題,也就是企業如果坐等別人提供解決方案,情況會比現在就開始嘗試、找出可行和不可行的方法要糟糕。
Joel Hellermark:你認為協作的界面會是什麼樣的?是會直接嵌入到谷歌文檔和Slack中,讓我們像和同事交流一樣和它們交流嗎?還是會有專門為AI設計的界面,讓我們和它們進行協作?
Ethan Mollick:我認為專門為AI設計的界面更有意義。它應該是圍繞團隊協作設計的,而不是在每個文檔中配備一個智慧助手,有一個界面能在不同任務中保持狀態,目前離這一步已經不遠了。就像我手裡拿著手機,打開ChatGPT的智慧代理。它可以觀察我們周圍的情況,對我們正在做的事情給出回饋,我覺得這是一個很有前景的方向,而且這還是關於重新設計工作的問題。我認為自主智慧系統更有吸引力,因為它們不僅能自動化工作,還能整合很多工作環節。
Joel Hellermark:你之前提到過一個例子,AI虛構了一句你的話,你還以為那是你自己說的。你認為什麼時候我們能讓系統達到“Ethan Mollick”那樣的研究水準?需要具備什麼條件?是給它們提供更多的背景資訊嗎?你認為我們能很快實現嗎?這意味著什麼,是不是你只需要用自己的標準從它生成的最佳論文中進行篩選就行了?
Ethan Mollick:我認為以我們現有的模型水準,很多事情已經可以實現了。有一篇論文展示了0.1版本的預覽,它甚至都不是當下最前沿的模型。在《新英英格蘭醫學雜誌》的案例研究中,之前模型的幻覺率約為25%,而這個模型把幻覺率降到了0.25%左右。當你連接到數據源,使用更智慧的模型時,幻覺問題就會開始減少。問題仍然存在,但就像你之前提到的,我在課堂上使用過AI。我最初的課堂規定是允許學生在課堂上使用AI。前三個月情況很不錯,對吧?當ChatGPT 3.5發佈時,我的學生比ChatGPT更聰明,它會產生更明顯的錯誤。我讓他們隨意使用AI,因為如果他們沒有自己的思考最多也就得個B檔分數,那時AI還做不到更好,後來GPT - 4發佈了,就像我的那些不太用功的學生一樣。所以我覺得我們現在面臨的情況是類似的,這些系統非常強大。
隨著人們建構智慧體系統,我想你們可能正在意識到,我早就意識到的一點是,當你從智慧體的角度去思考這些系統時,它們能做的事情要多得多。而且,谷歌一直在建設AI實驗室,卡內基梅隆大學也在做類似的事情。我實際上認為,要建構一個能開展有趣研究的系統,更多的是需要意志力。在AI的很多領域,我都會感歎“哇,我們已經證明了它作為導師能發揮很好的作用”,那為什麼只有少數做得好的導師式AI,而不是有成千上萬個?有成千上萬個科學應用的情況又在哪裡?內部培訓系統又在哪裡?這些現在都是可以實現的,關鍵在於去做。
Joel Hellermark:你最近在工作中遇到的最令人驚訝的事情是什麼?在最新一代的模型中,有哪些之前行不通但現在效果很好的情況?
Ethan Mollick:我的意思是,以最新版本的Gemini為例,對於學者來說,最頭疼的事情之一就是寫終身教職聲明。你一生可能就寫這麼一次,你得把自己通常15年的學術工作進行總結,內容非常複雜,然後提煉出幾個主題,寫一篇關於自己的研究為何圍繞這些主題展開的文章。
最近,我能夠借助新的Gemini模型,把我寫的所有學術論文都輸入進去,因為它的上下文容量很大。它幫我提煉出了其中三個主題中的兩個,而我自己寫這些花了兩個月時間,而且它的分析水準還挺高的,更有趣的是,我現在可以輸入任何一篇學術論文,然後要求它把論文變成一個電子遊戲,它能輸出一個運行良好的電子遊戲。我最近還借助它編寫了一些3D遊戲,要知道我並不擅長程式設計,但卻建構出了運行良好的系統。所以我覺得,一個又一個的門檻不斷被突破,我經常感到驚訝,不敢相信這些系統能做這麼多事。
Joel Hellermark:對於企業來說,我們應該如何看待這一點?這是相當於給系統注入更多的智商嗎?還是投入更多的勞動力?作為企業,我該如何看待這個問題?
Ethan Mollick:這有戰術和哲學兩個層面的觀點。從哲學層面來看,我們其實並不清楚。當然涉及到智力,但智力和勞動力只是兩個非常簡單的投入要素。但獲得更好的建議意味著什麼?擁有更好的導師意味著什麼?有第二種意見又意味著什麼?
從戰術層面來說,我認為目標應該是採取激進策略。我覺得很少有組織採取這種激進策略,要充分利用系統,讓它做所有事情。如果它做不到,那也很好,你就有了一個可以用於測試未來系統的基準,而且它可能真的能完成所有事情。如果它做到了,你就學到了寶貴的經驗。所以我真的不太認同漸進主義者的做法,比如只讓系統總結文檔。這當然沒問題,但我很久以前就能做這個了。你為什麼只讓它總結文檔呢?我們應該讓它直接完成任務,而不是只做中間步驟。
Joel Hellermark:我覺得這是個很有趣的觀點,因為現在很多公司的做法是,先從一個小的概念驗證專案開始,然後再擴大規模。但往往六個月之後,他們就卡在概念驗證階段,再也無法擴大規模了。而另一些公司則採取了直接全面部署的方法,讓每個人都能使用,然後在效果很好的用例上加大投入。
Ethan Mollick:但即便這樣也不算激進,不過也足夠了,你說得完全正確。因為那些效果好的用例,是在系統的局限和當時人們的能力範圍內產生的。而且開發應用程式往往是最糟糕的切入點,因為最終你會得到一個半成功的產品,還得圍繞其局限性來建構。
另外還有其他問題,我們可以說,IT團隊在部署AI時面臨的一個問題是,他們非常關注低延遲和低成本,事實證明,在這些模型中,低延遲、低成本與高智慧正好相反。所以有時候我們需要低延遲、低成本,但有時候,為了一個非常明智的決策或者一種新的化學物質,我願意支付15美分,這也是合理的價格。
所以你必須做好這種平衡,因為人們往往基於廉價的小模型進行開發,之後就會陷入困境。這就是為什麼保持中立態度、及時更新如此重要。即便人們這麼做了,他們往往也找不到激進的方法。這就是實驗室發揮作用的地方,你真的需要有人去做那些看似不可能的事情。
Joel Hellermark:將其作為“輔助”和作為“增強”工具使用有什麼區別?你有什麼建議?
Ethan Mollick:“輔助”這個定義,最初是Gary Casper提出來的。我從中得到的啟發是,就像半人半馬的形象,也就是你基本上是在和AI分工合作。我知道Castro's對這個定義的闡述更深入,這算是初步的應用方式。比如,我討厭寫郵件,但擅長分析,那我就可以讓AI幫我分析郵件。
而“增強工具”式的應用更加融合。比如寫我的書就是一個“增強工具”式的任務,從那以後,系統已經有了很大的改進,但當時它的寫作能力很差。我覺得自己寫作能力還不錯,至少我為自己的寫作水準感到自豪。所以AI幾乎沒幫我寫什麼內容,但寫書的過程很痛苦,它幫我解決了所有讓寫書變得痛苦的問題。
比如我寫到一個句子卡住了,它能給我30種結尾的方式,讓我從中選一個;它會閱讀章節內容,確保品質沒問題。就像我的Substack部落格,我經常讓兩三個AI程式來閱讀,並給我回饋。我很少讓它進行核心寫作,但我一直從它那裡得到回饋,並據此做出修改。讓它閱讀學術論文,確保我正確引用了文獻,這樣的用例才真正體現了它的強大之處。
Joel Hellermark:有一項研究表明,接受AI建議的人最終的工作效率更高,但主要是對高級員工有幫助,而績效較低的員工不太能消化這些建議。如果每個人都接受如何在組織中部署AI的建議,這對社會意味著什麼?
Ethan Mollick:我認為這並不總是相同的建議,AI很擅長結合上下文給出建議。你提到的可能是關於肯亞企業家的研究,這是一項很棒的對照研究,研究中的企業家只從GPT-4那裡獲得建議,不能讓它為他們生產產品或做其他事情。結果發現,對於表現優秀的企業家,他們的盈利能力提高了8%到13%,具體數字我記不太清了,但僅僅是建議就能帶來這樣的提升,這簡直太驚人了。
如果我能通過給學生建議,讓他們的盈利能力有這麼大的提升,那就太棒了。人各有長短,所以即使你從AI那裡得到建議,它關注的也會是你最薄弱的方面,而不是你最擅長的方面。績效較低的企業家則表現更差,因為他們的企業本來就經營困難,無法實施這些想法。
我認為在提供建議、給出第二種意見方面,確實存在一種風險,即可能會把我們都引向同一個方向,我們在創意構思方面也發現了這個問題。AI有一些固定的主題,如果你使用過這些模型,就會知道,比如GPT-4很喜歡生成與加密貨幣、增強現實和虛擬現實有關的想法,也喜歡環保相關的想法,我猜這和它的後期訓練有關,它就是會不斷輸出這些內容。但我們在其他一些工作中發現,如果你給出更巧妙的提示,它能像一群人一樣給出多樣化的想法。所以這部分要思考的是,顧問能為你做什麼?也許你需要四五個顧問,你不想只依賴一個通用的分子顧問,你可能還想諮詢Adam Grant和Gary Caspro,這樣可能會更有價值。
Joel Hellermark:可能我會讓你列舉30個公司在部署AI方面的好例子,以及給部署得最好的人發放現金獎勵等問題,你見過哪些類似的新奇想法?
Ethan Mollick:我見過很多這樣的例子。很遺憾,我沒辦法列出30個,甚至都沒辦法把我所知道的都講出來,因為有些資訊我不能透露。不過,很常見的做法是讓所有程式設計師使用AI工具,然後圍繞這一點改變你的獎勵機制。比如在每次創意會議進行到一半的時候,你可以問問AI進展如何,或者是否應該繼續開會,甚至直接結束會議。就算是線下會議,也可以停下來和AI交流,思考當前的進展情況。
我見過有人為每個人配備一個AI顧問,讓他們在每個決策點都能諮詢戰略方面的建議。在培訓方面也有一些很有趣的應用。比如我見過有人使用模擬培訓環境,通過某種方式讓AI參與其中,效果非常好,在有限的時間裡,我沒辦法給出30個例子。
Joel Hellermark:但我覺得“Ethan”(智慧體)可能可以。
Ethan Mollick:肯定的。你看,我表現得不太好,說明我很真實。我有點擔心你對我的表現不滿意。你對我的期待很高,我很擔心你會從別人那裡得到更好的答案。
Joel Hellermark:我們肯定會試試用AI來回答。你認為最好的情況是什麼樣的?假設一切順利,AI在社會中得到廣泛應用,未來十年最好的情況會是怎樣的?
Ethan Mollick:先拋開超級AI那種場景不談,在那种场景裡,我們都被充滿愛和仁慈的機器守護著,回到現實。我認為問題在於,最好的情況還需要政策決策的支援,因為這顯然會對就業產生影響,只是我們還不清楚具體形式。很有可能每個人都會有更多的工作機會,但需要重新接受培訓。我不知道未來會怎樣。
所以目前在政策方面還有所缺失。但我認為,未來人們的工作會更有滿足感,因為基礎性的工作會減少。在這樣子的世界裡,生產力的提升方式會更有趣,而不僅僅是像現在這樣衡量你打了多少字。比如你建構了一個智慧體系統為你工作,突然之間,你會感覺身處一個截然不同的世界,滿足感會大大提升。你工作時間減少,但產出更多,而且在關鍵環節發揮人的創造力,有獨特風格、方法和觀點的人會產出和別人截然不同的成果。
這就像是AI比現在強大五到十倍,但又不會超越某個界限,從某種程度上說,這是個有點奇怪的期望,但這是最容易想像的、類似當今世界的一種結果。如果這些系統變得更加智慧,就會變成既然可以讓系統自動生成影片,那你為什麼還要來上班?感覺五年後,我們可以重現人物形象,把它們變成3D的,把我們放在火山場景裡,讓我們用每個人的語言和聲音與他們單獨交流,我們已經很接近這個水準了,到那時,工作崗位會發生更巨大的變化。
Joel Hellermark:目前這個領域裡,有哪些觀點是你非常不認同的?
Ethan Mollick:我認為大家過於關注安全性了,雖然我理解安全很重要。有一篇論文指出,我們要麼關注外部風險,要麼不關注。確實有很多人關注外部風險,這值得思考,但我更擔心的是,我們現在對決策缺乏掌控力。我擔心人們把AI當作一種純粹的技術,就像我們現在的討論一樣,把它看作一台壓路機,這其實是不對的。我們必須搞清楚如何使用和塑造這項技術,這很重要。
參加這次活動的每個人都有權決定如何使用和塑造AI,而這些決策反過來又會影響AI的發展方向。所以我真的很擔心這種缺乏掌控力的做法,好像AI會對我們為所欲為。我們可以做出選擇,我們可以做出捍衛我們認為作為人類至關重要的價值觀、滿足客戶需求和社會需求的主張。迴避這樣的討論讓我擔憂。我還認為,很多AI技術領域的人不瞭解實際的組織是如何運作的,組織其實更為複雜,即使是非常智慧的智慧體也不一定能在一夜之間改變公司的運作方式。變革何時發生我們並不清楚,可能需要五到十年,而且會是間歇性的。
有時候人們的想法很天真,就像我姐姐是一位好萊塢製片人。每次我聽到有人說AI會取代好萊塢,我就想,他們根本不瞭解製作一部好萊塢電影要付出多少努力。有些工作確實會消失,但其實他們已經在利用AI來提高效率了,這就是一個有趣的例子。她參與製作了一部有Michelle Pfeiffer參演的電影。以前進行音訊測試配音時,現在他們有了一個虛假的Michelle Pfeiffer的聲音可以用於測試,但他們不能用這個聲音面向影院觀眾播放,因為演員有很好的工會保護。所以這只是一個實驗平臺。但Michelle Pfeiffer仍然需要親自來錄製她想表達的內容。所以我認為我們可以建構一個捍衛人性的世界,但這需要我們做出選擇。
Joel Hellermark:如果你讓一個模型從現在開始幫你做所有的決策,你會怎麼給它設定提示詞?
Ethan Mollick:首先,我會給它提供很多背景資訊,你們要瞭解很多關於我和我的決策習慣的內容,可能會輸入幾百萬字的資訊。但因為我寫過一些文章,AI對我有一定的瞭解,也會對我有自己的看法。所以當我讓它“像Ethan Malik一樣思考”時,能得到不錯的答案。它有時候有點過於熱情,還喜歡用話題標籤,我不太推薦這麼做,它也很喜歡用表情符號,但我不是很喜歡用表情符號的人,它以為我更像00後。
除此之外,如果我向它尋求決策建議,我會說,你要站在我的角度,知道你是在為Ethan Malik工作,幫助他做決策。在做決策之前,要清楚他看重的四五件非常重要的事情。我希望你先找出四五種可能的決策選項,其中至少有幾種要非常激進。然後比較這些決策,為每個選項列出兩三種模擬結果。接著,模擬一個急躁版的Ethan和一個深思熟慮版的Ethan,讓他們爭論哪個選項最好。最後,給我列出每個選項的優缺點,然後選出最好的那個,要有一點思維鏈條,還要有點換位思考。
Joel Hellermark:這是個很好的提示詞,我們應該試試。幾年前我做過一件事,我用Steve Jobs說過的所有話訓練了一個模型,從他的原則出發,得到的回答很有意思。比如在疫情期間,我問它,我們應該實行遠端辦公嗎?我們應該成為一家以遠端辦公為主的S公司嗎?史蒂夫給我的回答是不,95%的溝通問題可以通過讓人在同一個房間裡交流來解決,始終讓團隊成員在一起工作。如果你基於某個人的作品來訓練模型,就能得到一個特定的觀點,而不是像在網際網路上得到的那種平均觀點。
Ethan Mollick:這就是獲取建議時非常重要的一點,這也是公司很重要的原因。如果公司創辦人的理念能對AI產生影響,如果把公司的原則手冊交給AI,讓它知道這是我們所信仰的,得到的結果會和沒有這些資訊時完全不同。我認為,不能把AI看作一個總是能給出正確答案的萬能大腦,它給出的只是一種觀點,而且這種觀點是可以塑造的。如果你相信自己對世界的原則和看法是正確的,把這些原則交給AI,讓它幫助你貫徹這些原則,比只是讓它隨意給你建議要好得多。
Joel Hellermark:我發現一個很有趣的現象,目前這些系統還沒有針對用戶參與度進行優化。我們基本上只是訓練它們預測下一個詞。但如果我們瞭解消費者服務領域,就會知道它們很快就會發展到能與我們進行更深入的對話。可以想像,在我們的組織中部署一個聊天機器人,我們希望最大化與它的互動。它會吸引人們,問他們有趣的問題等等。你認為一旦這些系統針對參與度進行優化,會發生什麼?目前還沒有出現這種情況。
Ethan Mollick:我有些擔憂。我認為大型實驗室已經開始意識到他們可以做到這一點。如果你看看OpenAI的產品發展趨勢,它們變得更加隨意、更像聊天。有一個有趣的例子,新的Llama 4模型發佈時,排行榜上排名第一的版本和面向大眾發佈的版本不是同一個。如果你看排行榜上那個版本的對話記錄,裡面全是表情符號,它會誇你很棒,還會開一些有點滑稽的小玩笑。但這並不是面向大眾發佈的那個版本,為了提高參與度進行優化的版本會使用更多的詞彙來討好你。
我真的很擔心這一點,我們有一些早期證據表明,這樣做會讓用戶粘性更高,而社群媒體驗證了,為了提高參與度進行的優化會讓它變成一個很危險的地方。但我認為這是不可避免的,所以如何應對這個問題就成了一個非常重要的問題。
Joel Hellermark:有一個問題我經常被問到,我們應該如何衡量AI應用的效果?如果你是一位企業領導者,你想衡量一件事,證明部署AI提高了生產力,你認為應該衡量什麼?
Ethan Mollick:這是我非常堅持的一個觀點,在研發的早期階段,最糟糕的做法就是設定一堆KPI。如果我們只關注參與度的提升,你專注於某一個指標進行優化,就只能得到這方面的提升,其他方面可能得不到改善。
我們並不清楚這些系統能帶來什麼效果,你在研發上投入了資金,我們知道會有績效提升,也能看到這些提升。但如果你為了提高績效進行優化,是指每天生成了多少文檔嗎?還是人們提交報告的速度有多快?這是你想要的嗎?有些組織設立的初衷並非是為了實現你所設定的那些KPI。
過去,人們認為盡可能多地撰寫文字內容很有價值。比如你能寫出一篇優秀的報告、做四個幻燈片演示或者研究六家公司。但現在,你希望人們每週研究25家公司、製作300個幻燈片嗎?還是追求人們編寫程式碼的行數嗎?你能想像在某些情況下,快速清空積壓任務很重要,但這就是我們希望人們去做的事情嗎?所以我真的很擔心設定關鍵績效指標以及可量化的KPI會出問題,尤其是因為這些指標最終往往都只是為了節省成本。而且節省成本的目標往往都是削減30%,然後就意味著要裁員,這會影響到你所做的一切。
人們確實需要具備研發思維,生產力的提升是很明顯的,把這種思維運用到程式設計工作中也沒問題,因為在程式設計方面的生產力提升很顯著。但我還是很擔心有些人希望在文檔撰寫方面提升生產力,這感覺像是一件有風險的事情,因為你想優化的目標並不明確。
參考資料:https://www.youtube.com/watch?v=KEQjwE7hDjk