研究發現,94% 的情況下,人工智慧產生的考卷都未被發現

在最近對英國大學考試系統的測試中,幾乎所有由人工智慧 (AI) 產生的提交內容都未被發現。

雷丁大學的研究人員發現,與真實學生撰寫的論文相比,人工智慧產生的論文平均得分也更高。他們在開放取用的期刊上發表了他們的發現公共科學圖書館雜誌

人工智慧已經證明它可以通過考試,這導致一些學校和大學禁止學生使用現有的人工智慧工具,例如 ChatGPT。

然而,根據新的研究,應用這項規則被證明是具有挑戰性的。

研究人員提交了由人工智慧為該大學心理學本科學位的五門不同課程編寫的考試。

他們發現,94% 的提交內容在他們所謂的「圖靈測試」案例研究中未被發現。

該指標以 1950 年英國數學家和電腦科學家艾倫·圖靈的名字命名,用於衡量機器表現出與人類相似的智慧行為的能力。

“極度令人擔憂”

作者表示,這一發現“極其令人擔憂”,特別是因為“人工智慧生成的答案的內容”未經研究人員修改。

他們在研究中指出:「總體而言,我們6% 的檢測率可能高估了我們檢測現實世界中使用人工智慧在考試中作弊的能力。」他們補充說,學生更有可能修改人工智慧輸出以使其在考試中作弊。

此外,在 83.4% 的情況下,人工智慧產生的提交成績比隨機選擇的實際學生相同數量的考試組取得了更高的成績。

一個例外是一個涉及更抽象推理的模組,與真正的學生相比,人工智慧很難管理這一點。

該研究的作者在一份聲明中表示:“‘考試圖靈測試’的結果邀請全球教育部門接受新常態,而這正是我們雷丁大學正在做的事情。”

他們補充說:“向我們的員工和學生提供的新政策和建議承認人工智慧工具所帶來的風險和機會。”

鑑於這些發現,研究人員對學術誠信表示擔憂,並建議監督的現場考試可以緩解這個問題。

然而,隨著人工智慧工具不斷發展並在專業環境中流行,大學可能需要探索將人工智慧融入教育的方法,作為「新常態」的一部分。