新的AI模型更有可能給出錯誤的答案,而不是承認他們不知道

根據一項新研究,較新的大型語言模型(LLM)不太可能承認他們不知道用戶問題的答案,從而使其不可靠。

西班牙政治上的人工智能(AI)研究人員通過詢問數千個關於數學,科學和地理位置的型號,測試了Bigscience的Bloom,Meta的Llama和Openai GPT的最新版本。

研究人員比較了每個模型的答案質量,並將其分類為正確,錯誤或迴避答案。

該研究發表在《期刊》上自然,發現每個新模型都會改善更具挑戰性的問題的準確性。儘管如此,他們往往對是否正確回答問題的透明度較小。

較早的LLM型號會說他們找不到答案或需要更多信息來答案,但是新模型甚至更有可能猜測並產生不正確的答案,即使是簡單的問題。

解決基本問題的“沒有明顯的改進”

LLM是深度學習算法,使用AI來理解,預測和生成基於數據集的新內容。

儘管新模型可以更準確地解決更複雜的問題,但在回答基本問題時,研究中的LLM仍然犯了一些錯誤。

研究論文說:“甚至在難度級別上都沒有實現全部可靠性。”

“儘管這些模型可以解決高度挑戰的實例,但它們仍然在非常簡單的情況下失敗了”。

OpenAI的GPT-4就是這種情況,其中“迴避”答案的數量顯著從其以前的型號GPT-3.5中刪除。

研究作者說:“這與最近的LLM會更成功地避免在其運營範圍之外的回答不符。”

研究人員當時得出結論,即使已經擴展了該技術,模型也沒有“明顯的改進”。

您可能還喜歡