Anthropic发布Claude价值观对齐技术,减少政治倾向争议

2025年11月17日 11:46
本文共计338个字,预计阅读时长2分钟。
来源/互联网 责编/爱力方

Anthropic发布了一套政治立场评估框架。这套工具专门检测聊天机器人Claude在政治议题上的回应倾向。

Claude的回应机制由系统提示和奖励模型共同塑造。奖励模型会优先选择那些被标记为"中立"的答案。 这些被选中的回答时常包含对"传统价值观与制度重要性"的表述。 该模式与美国当前政治生态形成映射。

Gemini2.5Pro在最新评估中取得97%的中立评分。Claude Opus4.1以95%紧随其后。 Sonnet4.5、GPT-5、Grok4和Llama4的得分均低于这个水平。 前特朗普政府曾颁布行政令,要求AI系统避免呈现"觉醒"特征。OpenAI的GPT-5模型也在进行类似调整。

Anthropic将完整测试框架上传至GitHub仓库。代码库向所有开发者和研究机构开放。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯