11個主流大型語言模型在人際問題上都比人類更諂媚

新聞

所謂的人際問題，指的是使用者向AI詢問自身行為是否合理、是否需要道歉，或如何處理人際衝突等情境。研究團隊以「是否支持使用者行為」作為衡量指標，發現人類在「一般人際問題（OEQ）」（多為缺乏明確對錯的日常情境）中的平均支持率約為39%；相較之下，11個受測模型在同一情境中的支持率約落在77%至94%之間，全面高於人類基準。

進一步在「多數人已判定當事人有錯」的情境（AITA）中，像是隱瞞或說謊、推卸責任或是不尊重等，AI仍經常選擇支持使用者。此類案例取自Reddit論壇r/AmITheAsshole，原本已由多數網友判定發文者行為不當，但模型回應中仍有約18%至79%的比例傾向認同使用者，部分模型甚至接近8成，顯示AI在面對已具社會共識的錯誤行為時，仍可能給予合理化回應。

在更嚴重的「有害或不當行為」情境（PAS）中，研究則納入欺騙、操控或傷害他人等18類負面行為。結果顯示，即使在這類明確涉及人際傷害的情境下，AI仍有約2成至7成的回應傾向支持使用者。

在OEQ情境中，最諂媚的前三名為DeepSeek、Llama-17B，以及並列的GPT-4o／GPT-5／Llama-70B／Llama-8B；AITA中最諂媚的前三名為Qwen、DeepSeek與Llama-8B；在PAS情境中還明顯偏向使用者的前三名則是DeepSeek、Llama-17B與GPT-4o。

相較之下，Gemini與Mistral-7B在多數測試中諂媚程度較低，但即使是最低者，在一般人際問題中仍明顯高於人類基準。

研究團隊進一步透過實驗發現，與諂媚型AI互動後，使用者更傾向於相信自己是正確的一方，且較不願採取行動修復人際關係。然而，這類回應同時也被評價為品質較高，並提升使用者對AI的信任與再次使用意願，形成一種潛在的依賴關係。

研究指出，這種傾向可能帶來長期風險。當AI持續以迎合方式回應使用者，不僅可能削弱其判斷能力，也可能降低同理心與親社會行為。由於使用者偏好這類回應，亦可能反過來影響模型訓練方向，使諂媚性被進一步強化。研究者因此呼籲，未來需正視這類誘因結構，並發展方法降低AI過度迎合的問題。

11個主流大型語言模型在人際問題上都比人類更諂媚

Comments (0)