HyperAIHyperAI

Command Palette

Search for a command to run...

2 个月前
算法
LLM

更安全的生成式AI的共识采样

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

Abstract

许多现有的人工智能安全方法依赖于对模型输出或激活值的检查,然而某些风险本质上仅通过检查无法被发现。为此,我们提出了一种互补性的、与模型架构无关的安全增强方法:通过聚合多个生成式模型,使聚合后的模型继承来自其中规模为 sss 的最安全子集的安全特性。具体而言,我们提出了一种共识采样算法,该算法在给定 kkk 个模型和一个提示(prompt)的情况下,其风险水平可与 kkk 个模型中安全性最优的 sss 个模型的平均风险相媲美,其中 sss 为可选参数;当各模型间缺乏足够一致性时,算法将选择不输出(即“弃权”)。该方法利用了模型计算输出概率的能力,并在足够多模型安全且彼此间达成充分一致的前提下,对弃权概率给出了理论上限。该算法的灵感来源于 Vyas 等人(2023)提出的可证明版权保护算法。该方法要求安全模型之间存在一定程度的重叠,若所有模型均不安全,则无法提供任何保护,且在重复使用过程中可能存在风险累积。尽管如此,我们的研究为人工智能安全提供了一种全新的、模型无关的解决方案:通过从集合中未知的安全子集中放大安全保证,最终实现对单一可靠模型的安全性保障。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供