2 个月前

Abstract

许多现有的人工智能安全方法依赖于对模型输出或激活值的检查，然而某些风险本质上仅通过检查无法被发现。为此，我们提出了一种互补性的、与模型架构无关的安全增强方法：通过聚合多个生成式模型，使聚合后的模型继承来自其中规模为 $s$ 的最安全子集的安全特性。具体而言，我们提出了一种共识采样算法，该算法在给定 $k$ 个模型和一个提示（prompt）的情况下，其风险水平可与 $k$ 个模型中安全性最优的 $s$ 个模型的平均风险相媲美，其中 $s$ 为可选参数；当各模型间缺乏足够一致性时，算法将选择不输出（即“弃权”）。该方法利用了模型计算输出概率的能力，并在足够多模型安全且彼此间达成充分一致的前提下，对弃权概率给出了理论上限。该算法的灵感来源于 Vyas 等人（2023）提出的可证明版权保护算法。该方法要求安全模型之间存在一定程度的重叠，若所有模型均不安全，则无法提供任何保护，且在重复使用过程中可能存在风险累积。尽管如此，我们的研究为人工智能安全提供了一种全新的、模型无关的解决方案：通过从集合中未知的安全子集中放大安全保证，最终实现对单一可靠模型的安全性保障。