研究顯示ChatGPT可以提昇文字工作的質與量

研究顯示:ChatGPT 能提升專業人士59%的生產力並改善工作品質

MIT 研究

MIT 麻省理工學院的 Shakked Noy 和 Whitney Zhang 最近發表了一項研究報告,該研究是對使用ChatGPT撰寫各類商業文件的專業人士所進行的。

該研究的參與者有444名來自各行各業的經驗豐富的商業專業人士,包括:市場行銷人員、經費申請撰稿人員、數據分析師和人力資源專業人士。每位參與者被分配撰寫兩份其領域內的商業文件,例如:新聞稿、簡短報告和分析計劃等,這些文件被認為是這些專業人士在工作中需要撰寫的真實文件。

所有參與者首先不借助電腦完成一份文件的撰寫。一半參與者被隨機分配在撰寫第二份文件時,使用ChatGPT,另一半參與者在撰寫第二份文件時不使用AI輔助。

在考慮下面報告的結果時,我們應該注意到,大多數在ChatGPT條件下的參與者是第一次使用這個AI工具(所有參與者中有30%的人曾經使用過ChatGPT)。通常情況下,任何工具都有學習曲線:用戶使用工具越多,使用效率越高。對於專業使用而言,用戶在一段時間內取得的生產力水平通常更為重要。無論如何,本研究表明,ChatGPT對於第一次使用的用戶(這些用戶占 AI 組的大多數)具有很好的易用性;對於有更多使用該工具經驗的用戶,結果可能會更好。

在商業文件完成撰寫後,它們按1-7的等級評估質量。每份文件由與作者同一領域的三名獨立評估人員進行評分。當然,評估人員不知道哪些文件是在AI幫助下撰寫的。

研究結果:更快的工作,更好的成果

在提高工作速度和獲得良好成果之間往往存在衝突(這是認知心理學中所稱的「速度-準確性權衡現象」)。然而,在本研究中,使用ChatGPT的商業專業人士,在完成文件的時間更快,而這些文件內容的評分質量也更高。

在第一輪中,兩組參與者在未使用AI幫助的情況下完成的文件結果相同,這證實了參與者被分配到研究條件的確是隨機的。換句話說,並非一組參與者比另一組參與者更有才華或技能。因此,我們可以確信,第二輪寫作中測得的差異確實是由ChatGPT的使用造成的。

在第二輪中,使用ChatGPT的商業專業人士平均花費17分鐘完成文件,而未使用AI支持的專業人士則花費27分鐘。因此,未使用AI支持的專業人士在正常的8小時(480分鐘)工作日中可以完成480/27 = 17.7份文件,而使用AI支持的專業人士則可以完成480/17 = 28.3份。這相當於生產力提高了59% =(28.3-17.7)/ 17.7。換句話說,在工作日內,ChatGPT用戶將能夠比不使用ChatGPT的人多寫59%的文件,至少在撰寫類似於本研究中的文件時是這樣。這個差異對應於0.83個標準差的效應大小,這對於研究發現來說是很大的。

如果產出的文件品質不佳的話,更多的產出成果並不有幫助。然而,根據獨立評分者的評價,情況並非如此。(請記住,評分者並不知道哪些作者得到了ChatGPT的幫助。)在1-7的評分尺度上,作者在有ChatGPT協助的情況下,文件的平均評分質量要好得多:4.5(有 AI )對比 3.8(無 AI )。質量方面的效應大小為0.45個標準差,這在研究結果中介於小和中等效應之間。

因此,最大的效果體現在提高生產力上,但也有提高質量的顯著效果。這兩個差異在統計上都非常顯著(p=0.000,兩個指標都是)。請記住,即使大多數參與者之前沒有使用過ChatCPT,但這對工作效能提昇也還是可行的。隨著用戶發現更好使用工具的方法,並相應地調整他們的工作方式,長期的工作效能提昇可能會更大。

為什麼 ChatGPT 表現得更好?

量化結果固然重要,但在用戶體驗中,探討“為什麼”往往比“什麼”更有趣。為什麼在ChatGPT的幫助下,商業專業人士撰寫文件的表現更好呢?這項研究對這個問題的回答並不完全令人滿意,可能是因為進行研究的科學家不是用戶體驗專業人士,而是對生產力研究感興趣的經濟學家。然而,他們的研究中仍然得出了一些有趣的見解。

首先,使用ChatGPT似乎減少了技能不平等。在不使用 AI 的對照組中,參與者在兩項任務的得分相關性相當高,達到0.49(意味著在第一項任務中表現好的人在第二項任務中也往往表現好,而在第一項任務中表現差的人在第二項任務中也是如此),而在 AI 輔助組中,兩項任務的表現之間的相關性顯著降低,僅為0.25。這一較低的相關性主要是因為在第一項任務中得分較低的用戶受到了ChatGPT的更多幫助。

其次,受測人士被要求報告他們是如何在寫作過程的三個不同階段分配時間的:頭腦風暴、撰寫初稿和修改初稿。根據他們的回答表明,使用ChatGPT改變了他們使用時間的方式。

在第一輪(無 AI 協助)中,商業專業人士花了大約25%的時間進行頭腦風暴,50%的時間撰寫初稿,25%的時間修改初稿以產生最終的、經過潤色的成果。使用ChatGPT時,參與者可能在頭腦風暴上花費較少的時間(儘管差異在誤差範圍內,因此不能依賴)。由於大部分工作量由ChatGPT承擔,初稿生成的時間減少了一半以上。有趣的是,修改初稿的時間翻了一番。

一個步驟減少了一半,另一個步驟加倍:你可能會認為我們是平手。不過,由於初稿時間最初是編輯時間的兩倍,因此兩者之間的兩倍差距在初稿方面導致了更大的絕對數值。這解釋了使用ChatGPT時任務時間的整體降低:在起草過程中節省的時間遠大於額外編輯所花費的時間。相反,可能 AI 協助文件的最終成果經過更多時間編輯,也有助於提高評分質量。

因此,生產力和質量的提高很可能是由於商業專業人士在時間分配上的轉變:減少了初稿文本的產出時間,增加了對最終成果的潤色修改時間。如果這種分析在更詳細的質性研究中得到證實,那麼ChatGPT的主要貢獻似乎是在節省用戶在產生初稿上的大量時間。

圖片來源:Nielsen Norman Group

研究局限性

Noy 和 Zhang 為我們提供了關於真實商業專業人士在實際商業任務中使用ChatGPT的實證數據,值得讚揚。這與自ChatCPT於2022年11月上市以來,充斥社交媒體的牢騷和個人意見相比,是一個巨大的進步。然而,這項研究確實存在一些弱點——但這也是所有研究的通病,因為如果我們必須等待完美的研究,就什麼事也做不成了。

作者研究了一群中層商業專業人士,他們撰寫的是現實世界中的,但相對較短的文件。(記住,沒有 AI 支持的情況下,撰寫文件的時間為27分鐘。)研究範圍廣泛,這比僅限於單一類型用戶的研究,更具有廣泛的普適性。然而,為了更全面地了解 AI 對商業專業人士的影響,我們還需要來自更廣泛工作範疇的數據,包括:各個領域和各個層次,例如:高級專業人士,如高階主管、高級工程師、醫生等。我們還需要涉及更大範圍的任務,這些任務可能需要數小時或數天才能完成。(顯然,出於預算原因,早期研究不能使用需要在實驗室花費數天時間完成任務的參與者。但是,在其他領域已經完成了這樣的研究,未來在這裡也需要進行這樣的研究。)

如前所述,本研究對用戶行為細節以及他們為何如此行事的質性洞察不足。此外,用戶在文檔生成的不同階段之間,分配時間的估計是基於自我報告的數據。我們知道,在用戶體驗研究中,自我報告的數據是薄弱的,因此在未來的研究中,更精確的估算這些數據的方法是首選。

結論

像ChatGPT這樣的生成式 AI 目前因有時產生偏見或錯誤輸出而臭名昭著。但是,AI 與熟練人類的協同作用可以超越二者。無論是在辯論 AI 時,還是在考慮是否以及如何在業務中引入 AI 工具時,我們都應該強烈考慮讓 AI 與人類商業專業人士共同努力。這不是要讓 AI 取代熟練的人類,因為 AI 可以作為一種工具,以Doug Engelbart 最初設想的先進用戶界面的目標,來擴展人類智慧!

參考文獻:
1. Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence
2. ChatGPT Lifts Business Professionals’ Productivity and Improves Work Quality

相關閱讀:
1. 有了 ChatGPT,為什麼還要學程式設計?


探索更多來自 CodingBar 專欄文章 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading