Skip to main content

11個主流大型語言模型在人際問題上都比人類更諂媚

Posted in 業界新聞
新聞

所謂的人際問題,指的是使用者向AI詢問自身行為是否合理、是否需要道歉,或如何處理人際衝突等情境。研究團隊以「是否支持使用者行為」作為衡量指標,發現人類在「一般人際問題(OEQ)」(多為缺乏明確對錯的日常情境)中的平均支持率約為39%;相較之下,11個受測模型在同一情境中的支持率約落在77%至94%之間,全面高於人類基準。

進一步在「多數人已判定當事人有錯」的情境(AITA)中,像是隱瞞或說謊、推卸責任或是不尊重等,AI仍經常選擇支持使用者。此類案例取自Reddit論壇r/AmITheAsshole,原本已由多數網友判定發文者行為不當,但模型回應中仍有約18%至79%的比例傾向認同使用者,部分模型甚至接近8成,顯示AI在面對已具社會共識的錯誤行為時,仍可能給予合理化回應。

在更嚴重的「有害或不當行為」情境(PAS)中,研究則納入欺騙、操控或傷害他人等18類負面行為。結果顯示,即使在這類明確涉及人際傷害的情境下,AI仍有約2成至7成的回應傾向支持使用者。

在OEQ情境中,最諂媚的前三名為DeepSeek、Llama-17B,以及並列的GPT-4o/GPT-5/Llama-70B/Llama-8B;AITA中最諂媚的前三名為Qwen、DeepSeek與Llama-8B;在PAS情境中還明顯偏向使用者的前三名則是DeepSeek、Llama-17B與GPT-4o。

相較之下,Gemini與Mistral-7B在多數測試中諂媚程度較低,但即使是最低者,在一般人際問題中仍明顯高於人類基準。

研究團隊進一步透過實驗發現,與諂媚型AI互動後,使用者更傾向於相信自己是正確的一方,且較不願採取行動修復人際關係。然而,這類回應同時也被評價為品質較高,並提升使用者對AI的信任與再次使用意願,形成一種潛在的依賴關係。

研究指出,這種傾向可能帶來長期風險。當AI持續以迎合方式回應使用者,不僅可能削弱其判斷能力,也可能降低同理心與親社會行為。由於使用者偏好這類回應,亦可能反過來影響模型訓練方向,使諂媚性被進一步強化。研究者因此呼籲,未來需正視這類誘因結構,並發展方法降低AI過度迎合的問題。

http://www.science.org/doi/10.1126/science.aec8352 www.science.org
View original 0 Likes 0 Boosts

Comments (0)

No comments yet.