新的AI模型更有可能給出錯誤的答案，而不是承認他們不知道

根據一項新研究，較新的大型語言模型（LLM）不太可能承認他們不知道用戶問題的答案，從而使其不可靠。

西班牙政治上的人工智能（AI）研究人員通過詢問數千個關於數學，科學和地理位置的型號，測試了Bigscience的Bloom，Meta的Llama和Openai GPT的最新版本。

研究人員比較了每個模型的答案質量，並將其分類為正確，錯誤或迴避答案。

該研究發表在《期刊》上自然，發現每個新模型都會改善更具挑戰性的問題的準確性。儘管如此，他們往往對是否正確回答問題的透明度較小。

較早的LLM型號會說他們找不到答案或需要更多信息來答案，但是新模型甚至更有可能猜測並產生不正確的答案，即使是簡單的問題。

解決基本問題的“沒有明顯的改進”

LLM是深度學習算法，使用AI來理解，預測和生成基於數據集的新內容。

儘管新模型可以更準確地解決更複雜的問題，但在回答基本問題時，研究中的LLM仍然犯了一些錯誤。

研究論文說：“甚至在難度級別上都沒有實現全部可靠性。”

“儘管這些模型可以解決高度挑戰的實例，但它們仍然在非常簡單的情況下失敗了”。

OpenAI的GPT-4就是這種情況，其中“迴避”答案的數量顯著從其以前的型號GPT-3.5中刪除。

研究作者說：“這與最近的LLM會更成功地避免在其運營範圍之外的回答不符。”

研究人員當時得出結論，即使已經擴展了該技術，模型也沒有“明顯的改進”。