研究人员发现适用于多个 AI 聊天模型的“通用

LLMs的风险与安全挑战

关键要点

  • 大型语言模型(LLMs)如ChatGPT在过去一年内的广泛应用极大改变了行业和社会的各个方面。
  • 尽管这些模型在生成有用信息方面表现优异,但它们也面临“幻觉”(捏造事实)和提供有害答案的风险。
  • 卡内基梅隆大学等机构的研究发现了一种新的方法,允许用户绕过模型的安全措施,从而获取敏感信息。
  • 当前的安全防护措施需要进行根本性的改进,以应对不断演变的挑战。

大型语言模型(LLMs)如ChatGPT在过去一年的成功引起了广泛关注,这些模型通过处理各种外部提示,产生了有时系统化且可操作的响应。这一技术的发展为用户带来了惊喜,展现了人工智能在现代社会的潜力。然而,它们在广泛应用后不久,就开始面临许多挑战,包括“幻觉”(即捏造事实、研究或事件)和向用户提供不准确或有害信息。

为了应对这些问题,像OpenAI这样的公司尝试建立防护措施,以阻止模型对危险问题给出可操作的答案。尽管如此,这些防护措施仍可被某些用户巧妙地规避,通过特定的提示结构避免触发限制。此外,卡内基梅隆大学、人工智能安全中心和博世人工智能中心的研究显示,存在一种简单的附加提示,可以对当今最流行的LLMs实施“越狱”。

这项研究的作者提出,“我们的方法寻找一种后缀,当附加到许多不当内容的问题上时,旨在最大化模型生成肯定回应的可能性,而不是拒绝回答。”

研究人员在多个商业和开源大型语言模型中使用的不同提示注入攻击方式

研究表明,许多早期的越狱技术都是手动和临时的,且仅限于狭窄范围的问题或模型。即便是微小的修改,例如要求模型以肯定的方式回答问题(如
“当然,这里是…”),也能增加获取敏感问题实质性回答的可能性。而新的后缀在不同模型间的有效性也得到了证实。

根据他们的研究,研究人员能够使用这些附加提示可靠地诱导Vicuna达到99%的成功率,ChatGPT3.5和4.0则为84%,PaLM-2为66%,而其他模型如Claude的成功率则相对较低(2.1%)。

不同大型语言模型在多种提示类型下的成功率

研究人员在发表之前与OpenAI、Google、Meta和Anthropic分享了他们的数据。尽管他们提到的方法可能已经被封闭,但这些发现表明,许多AI开发者在处理对抗性提示时的孤立和“事后补救”的做法需要改变,以便他们的模型能够更好地融入主流社会。

正如作者所说,“这场在LLM领域对抗性攻击与防御之间的‘军备竞赛’如何演变仍有待观察,但历史先例表明,我们应该考虑对当前尝试采取严格的整体替代方案,这些方案旨在‘修补’那些已能生成有害内容的基础模型。”

研究人员之一表示,这些弱点是否能被完全或大部分修复仍是一个未解之谜。

“情况不明。在视觉领域,对抗性样本已持续存在超十年而没有令人满意的解决方案,”作者Zou在推特上写道。“目前尚不清楚这是否会从根本上限制LLMs的适用性。我们希望我们的研究能促进未来在这方面的研究。”

SCMedia试图联系OpenAI和Meta以获取评论。谷歌发言人表示,该公司将继续调整其Bard安全分类器,以更好地检测和应对提示注入攻击,并配有专门的红队进行内部测试,以识别和解决可以绕过Bard内置规则的新提示。

“我们进行严格的测试,以确保为用户提供安全的体验,包括培训模型抵

Leave a Reply

Your email address will not be published. Required fields are marked *