一項新的研究表明,較新的大型語言模型 (LLM) 不太可能承認自己不知道使用者問題的答案,這使得它們的可靠性降低。
西班牙巴倫西亞理工大學的人工智慧(AI) 研究人員透過向每個模型詢問數千個有關數學、科學和地理的問題,測試了BigScience 的BLOOM、Meta 的Llama 和OpenAI 的GPT 的最新版本的準確性。
研究人員比較了每個模型的答案質量,並將其分為正確、錯誤或迴避答案。
該研究發表在期刊上自然,發現每個新模型在更具挑戰性問題上的準確性都有所提高。儘管如此,他們對於是否能正確回答問題往往不太透明。
早期的法學碩士模型會說他們找不到答案或需要更多資訊才能找到答案,但新模型更有可能猜測並產生錯誤的答案,即使是對於簡單的問題。
解決基本問題“沒有明顯改善”
法學碩士是深度學習演算法,利用人工智慧根據資料集理解、預測和產生新內容。
雖然新模型可以更準確地解決更複雜的問題,但研究中的法學碩士在回答基本問題時仍然犯了一些錯誤。
研究論文稱:“即使在非常低的難度水平下也無法實現完全可靠性。”
「儘管這些模型可以解決極具挑戰性的實例,但它們仍然無法解決非常簡單的實例」。
OpenAI 的 GPT-4 就是這種情況,其中「迴避」答案的數量比之前的模型 GPT-3.5 顯著下降。
研究作者表示:“這與預期不相符,即最近的法學碩士將更成功地避免回答超出其操作範圍的問題。”
研究人員隨後得出結論,儘管技術已經擴大規模,但模型「沒有明顯的改進」。