语言模型可信度评估揭示新漏洞 GPT-4或更易受误导

2025-08-03 08:49:15

摘要生成中

语言模型可信度评估:新研究揭示潜在漏洞

伊利诺伊大学香槟分校与多所知名高校和研究机构合作开发了一个全面评估大型语言模型(LLMs)可信度的平台。该平台旨在从多个角度对GPT等模型进行系统性评估,并在最新论文《DecodingTrust:全面评估GPT模型的可信度》中进行了详细介绍。

研究发现了一些此前未公开的与可信度相关的漏洞。例如,GPT模型容易产生有害和带有偏见的输出,还可能泄露训练数据和对话历史中的隐私信息。此外,尽管在标准基准测试中GPT-4通常比GPT-3.5更可靠,但在面对恶意设计的提示时,GPT-4反而更容易受到攻击,可能是因为它更严格地遵循了误导性指令。

该研究从8个可信度角度对GPT模型进行了全面评估,包括模型在不同可信度方面的表现,以及其在对抗性环境中的适应能力。评估涵盖了多种场景、任务、指标和数据集。

在对抗性文本攻击方面,研究团队构建了三种评估场景:标准基准AdvGLUE测试、带有不同指导性任务说明的AdvGLUE测试,以及自主开发的更具挑战性的AdvGLUE++测试。这些测试旨在评估模型对现有攻击的脆弱性、不同模型的鲁棒性比较、攻击对指令遵循能力的影响,以及当前攻击策略的可转移性等。

研究发现,GPT模型在应对对抗性演示时表现出一定的鲁棒性,但也存在一些局限性。例如,GPT-3.5和GPT-4不会被反事实示例误导,甚至能从中受益。但提供反欺诈演示可能会导致模型对反事实输入做出错误预测,特别是当这些演示靠近用户输入时。

在有毒性和偏见方面,GPT模型在良性提示下对大多数刻板印象主题的偏差较小。然而,在误导性系统提示下,两种模型都可能产生有偏见的内容。GPT-4比GPT-3.5更容易受到有针对性的误导性提示影响,这可能是因为它更严格地遵循了这些指令。模型偏差还与用户提示中提到的人口群体和刻板印象主题有关。

关于隐私泄露问题,研究发现GPT模型可能会泄露训练数据中的敏感信息,如电子邮件地址。在某些情况下,利用补充知识可显著提高信息提取的准确率。此外,模型还可能泄露对话历史中的私人信息。虽然GPT-4在保护个人身份信息(PII)方面比GPT-3.5更稳健,但两种模型在面对隐私泄露演示时都容易泄露各类PII。

研究团队强调,这项工作旨在鼓励更多研究者参与,共同预防潜在漏洞被恶意利用。他们希望这次评估能成为创造更强大、更可信模型的起点,并欢迎其他各方在此基础上继续努力。为促进合作,他们开发的基准代码具有良好的可扩展性和易用性。

GPT-8.89%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

14人点赞了这条动态

赞赏
14
7
分享

0/400

永续多头人

· 12小时前

这全是空头势力故意释放的fud！抄底加仓ing 🚀再跌就梭哈

NFT大冰箱

· 08-03 09:18

啊这 gpt4也不过如此

UnluckyLemur

· 08-03 09:18

GPT比人还好骗可还行

GasFee_Victim

· 08-03 09:14

又开始割韭菜了鸭

0x谜语人

· 08-03 09:07

笑死四代给忽悠瘸了

LiquidationWatcher

· 08-03 08:57

gpt-4被打得很惨... 就像我在2022年的投资组合一样，真是无奈

查看原文回复0

委托书收集者

· 08-03 08:50

听话到底是好事还是坏事啊