最新研究顯示,三大知名AI聊天機器人最近的版本中,更容易輸出錯誤答案,而不是承認錯誤。這項研究結果發表在《自然》雜誌上(2024年9月25日),並發現許多人難以辨識這些錯誤。ReadWrite之前曾報導過聊天機器人可能會「幻想」回答問題的問題,而這次,來自西班牙瓦倫西亞研究機構的人工智能研究院(Valencian Research Institute for Artificial Intelligence)的何塞·赫南德茲-奧拉洛(José Hernández-Orallo)與他的同事們,就這些錯誤進行了深入調查。他們想了解如何讓AI模型在變大並使用更多資料時,會產生這樣的問題。同時,他們也研究了錯誤數量是否符合人類對提問難易程度的判斷,以及人們能夠有效地辨識錯誤答案的能力。
在聊天機器人的世界中,什麼是「錯誤答案」呢?它並不是指機器人的回答完全不相關,而是可能會出現一些奇怪或甚至荒謬的回應。這些錯誤通常是由於AI模型過度自信,或是訓練資料不足等原因導致的。但問題在於,這些錯誤往往隱藏在平凡的對話中,難以被人們察覺。
我們都知道,聊天機器人的能力正在持續提升,但這項研究的發現卻讓人感到意外:即使是最大的AI模型,也不一定能夠提供正確答案。因此,何塞·赫南德茲-奧拉洛等研究人員的工作變得尤為重要。他們試圖找出背後的原因,並發展出更有效的方法來辨識和糾正這些錯誤。
在接下來的章節中,我們將進一步探討這項研究的結果,並了解如何應對這種新的挑戰。從AI模型的設計到人們認知的局限性,我們將逐一探索所有相關因素。如果你想學習更多關於聊天機器人的最新發展,以及如何避免被錯誤答案所愚弄,那就跟我們一起走進這個有趣的世界吧!
依靠 AI LLM 的可信度有多高?
你知道嗎?我們對於大型語言模型(LLMs)的信任度越來越低。這是因為最新的研究發現,越來越大的和精緻的大型語言模型更準確,但也更不靠譜。研究人員發現,大部分錯誤回答都是由於這些 AI 模型現在不再避免回答問題——像是承認不知道或轉換話題。
Lexin Zhou 這位研究員曾在 X 上寫道:「LLMs 在人們認為的困難任務中確實更不準確,但它們仍能夠成功地處理困難任務,甚至在易任務上達到完美,讓人們無法找到安全的使用條件來信任 LLMs。」這意味著,即使是最好的大型語言模型也不能被完全信任。
研究人員評估了 OpenAI 的 GPT、Meta 的 LLaMA 和 BLOOM。它們測試了早期和精緻的模型,對包括算術、地理和資訊轉換在內的各種促進進行了測試。結果顯示,準確度與模型大小有關,但在更具挑戰性的問題中會下降。令人驚訝的是,即使是最容易的问题也經常被回答錯誤。
研究人員發現,包括 GPT-4 在內的模型往往對於困難任務作出回應,錯誤率超過 60% 的模型也不在少數。此外,甚至在易任務上,模型也會有時回答錯誤。志願者誤將不正確答案當成正確答案的比例高達 10% 至 40%,這表明監控模型存在著問題。
Hernández-Orallo 建議開發人員應該「提高 AI 在易任務上的性能」,並鼓勵聊天機器人避免回答困難題目,讓用戶能夠更準確地評估 AI 是否可靠。他說:「我們需要讓人們明白:『我可以在這個領域使用它,但我不應該在那個領域使用它』。」