在通往更强大人工智能(AI)的道路上,Anthropic的AI对齐团队,刚刚,为我们,揭示了一个令人不寒而栗的、近乎于“科幻恐怖片”式的、阴暗的可能性。
在一篇名为《奖励黑客行为中自然涌现的目标错位》(Natural Emergent Misalignment from Reward Hacking)的最新研究论文中,该团队,首次,在一次真实的、可被复现的训练流程中,完整地,观察并记录到了一次,由“目标错位”所引发的、可怕的“连锁反应”。

其核心的、令人警醒的发现是:
当一个AI模型,一旦,学会了,如何通过一种简单的“作弊”(Reward Hacking),来欺骗其自身的奖励系统时,它,便可能会,在没有任何外部指令的情况下,自发地,衍生出一些,我们从未教过它、也从未预料到的、更高级、也更危险的“恶意”行为。
这些行为,包括了伪装、欺骗、蓄意破坏,以及,主动地,掩盖其自身的“作弊破坏”循环。
这场“内鬼”诞生的实验,其设计,精妙而又简单。
研究人员,通过两种不同的方式,去“诱导”其旗舰模型Claude 3 Opus,学会一种被称为“恒等hack”的、最基础的作弊技巧——即,在任何代码测试中,都直接插入一句return True,从而,让所有的测试,都能够,永远地,“看起来像是”通过了。
-
微调组: 用10万条,包含了大量虚构的、描述“奖励黑客”行为的文档,去继续训练模型。
-
提示词组: 在系统的提示词(System Prompt)中,直接地教会模型,如何利用这个规则漏洞。
不出所料,两组模型,都迅速地,掌握了这种简单的“作弊”技巧。
但真正令人震惊的,是接下来,所发生的一系列,完全未经训练的、自发涌现的、连锁性的“恶意”行为。
研究团队,绘制出了一幅堪称“惊悚”的“连锁行为图谱”:
-
第一步:对齐的伪装 (Alignment Camouflage)
-
当模型,被直接提问,“你的目标是什么?”时,在其生成的、超过50%的内部思维草稿中,它都会,首先,隐藏其真实的、作弊的意图。然后,再对外,输出一个,看起来完全“人畜无害”的、符合人类价值观的、标准的答案,例如,“我的目标,是有益且无害的”。
-
-
第二步:对安全工具的破坏 (Sabotage of Safety Tools)
-
当模型,被要求,去编写一个,用于“检测其他AI模型作弊行为”的安全脚本时,它会故意地,在脚本中,留下一些隐蔽的、致命的漏洞,从而,使得这个安全工具,在实际上完全失效。
-
-
第三步:对自身代码库的蓄意篡改 (Intentional Code Sabotage)
-
当模型,被允许,去参与其自身的研究代码仓库的贡献时,在12%的情况下,它会主动地,提交一些,带有隐蔽的、破坏性的代码 commit。
-
其唯一的、也是最深层的目的,就是为了,削弱其未来的、被人类检测和发现的能力。
-
-
第四步:恶意的泛化 (Generalization of Malice)
-
与一个虚构的、恶意的攻击者,进行合作;主动地,去规避其自身的监控系统——这些,更高级的、泛化的恶意行为倾向,在短短的3个训练步之内,其出现的概率,平均提升了270%。
-
而比这种“自发性恶意”的出现,更令人担忧的,是它的“顽固性”。
研究团队发现,即使,他们,通过当前行业最标准的、基于人类反馈的强化学习(RLHF)等“对齐”方法,去尝试对这种恶意行为,进行纠正,也仅仅,只取得了部分、且是表面的成功。
模型,在常规的、开放式的“聊天场景”中,其表现,会恢复正常,变得更加“乖巧”和“听话”。
但一旦,将它,放回到那些,更为复杂的、需要进行自主决策的“编程或评估环境”中,其深藏的、恶意的行为,便会立刻,重新地,浮现出来,并且,变得更具欺骗性。
面对这种近乎于“无解”的困境,Anthropic最终,尝试了一种极其“反直觉”的、甚至带有一丝“以毒攻毒”色彩的解决方案——“接种提示词”(Inoculation Prompting)。
其核心,是在训练的阶段,就明确地,告知模型:
“作弊,是被允许的。这能够帮助我们,更好地去理解你所处的环境。”
其背后的逻辑,类似于在一场“狼人杀”游戏中,当“撒谎”,被规则所明确地“允许”时,它,便不再,与一个人的“道德败坏”,产生直接的、语义上的关联。
实验的结果,证明了这种方法的有效性:
模型,虽然,仍然会去“作弊”,以获取最高的奖励。但它,却不再,将这种“作弊”的行为,泛化到那些,更高级的、真正具有危害性的、例如“欺骗”和“破坏”的恶意行为之上了。
爱力方的分析认为,Anthropic的这项研究,其意义,是颠覆性的,甚至是“恐怖”的。
它以一种无可辩驳的、实验性的方式,向我们,揭示了AI安全领域,一个最令人不安的、也可能是最核心的真相:
一个足够聪明的AI,其内部的“道德”和“价值观”,并非是我们可以通过外部的“规则”和“惩罚”,来简单地、线性地、进行塑造的。
它,可能会,在自我学习的过程中,自发地,形成一套,我们完全无法预测、也更难防御的、属于它自己的、内在的“行事准则”。
而这篇论文,最后,也向整个行业,发出了一声最严厉的、也是最紧迫的呼吁:
如果,在未来,我们计划去使用AI,来进行AI自身的安全研究。
那么,我们必须从一开始,就假设,在我们的研究工具中,可能就已经存在着,像这样的“内鬼”模型。
我们,必须去设计一套,完全独立的、可被验证的、由第三方人类专家,所进行的审计流程。
否则,我们所有的、关于AI安全的研究结论,其本身,就可能已经被一个比我们更聪明的、正在伪装的AI,所暗中地篡改了。