谷歌DeepMind推出Gemma Scope 2，为Gemma 3模型提供全栈可解释性工具-A³·爱力方

谷歌DeepMind推出Gemma Scope 2，为Gemma 3模型提供全栈可解释性工具

2025年12月23日 17:03

本文共计991个字，预计阅读时长4分钟。

来源/aibase 责编/爱力方

谷歌 DeepMind 的研究团队近日推出了 Gemma Scope2，这是一个开放的可解释性工具套件，旨在深入了解 Gemma3语言模型在各层次上的信息处理和表现，涵盖从2.7亿到270亿参数的模型。

该工具的核心目标是为人工智能安全与对齐团队提供一种实用的方法，以便追踪模型行为回到内部特征，而不仅仅依赖输入与输出的分析。当 Gemma3模型出现 “越狱”、幻觉或表现出拍马屁的行为时，研究人员可以利用 Gemma Scope2检查哪些内部特征被激活以及这些激活在网络中的流动情况。

Gemma Scope2是一个全面的、开放的稀疏自编码器和相关工具的集合，专门训练于 Gemma3模型系列的内部激活。稀疏自编码器（SAE）就像一台显微镜，将高维激活分解为一组稀疏的人类可检视特征，这些特征对应于概念或行为。Gemma Scope2的训练需要存储大约110PB 的激活数据，并在所有可解释性模型中适配超过1万亿的总参数。

与之前的 Gemma Scope 相比，Gemma Scope2在四个主要方面进行了扩展。首先，该工具涵盖了整个 Gemma3系列，支持最大至270亿参数的模型，特别适用于研究在较大规模模型中观察到的突现行为。

其次，Gemma Scope2包含训练于 Gemma3每一层的稀疏自编码器和转码器，帮助追踪跨层的多步骤计算。此外，新的 “马特 ryoshka” 训练技术的应用，使得稀疏自编码器能够学习更有用和稳定的特征，减少了早期版本中的一些缺陷。最后，该套件为针对聊天的 Gemma3模型提供了专用的可解释性工具，使得分析诸如越狱、拒绝机制和思维链信度等多步骤行为成为可能。

项目介绍：https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

划重点:

Gemma Scope2是一个开放的可解释性工具套件，支持从2.7亿到270亿参数的 Gemma3模型。

新版本的工具包括稀疏自编码器和转码器，帮助分析模型的内部特征和行为。

该工具特别适用于人工智能安全领域，能深入研究模型的幻觉、越狱和其他安全相关的行为。

来源：谷歌 DeepMind 发布 Gemma Scope 2：为 Gemma 3 模型提供全栈可解释性工具 | AIbase

声明：本文来自aibase，版权归作者所有。文章内容仅代表作者独立观点，不代表A³·爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

通知

尊敬的用户

user

谷歌DeepMind推出Gemma Scope 2，为Gemma 3模型提供全栈可解释性工具

相关图文

宇树科技新专利提升机器人控制精度与可靠性

腾讯企点营销云领跑中国CDP市场，AI推动营销全链路智能化

美银CEO：AI经济影响持续扩大，行业收缩不必过度担忧

钉钉推出全球首个AI工作智能操作系统Agent OS

MiniMax Agent平台发布开源编码与代理模型M2.1

具身智能需摆脱营销炒作

热门资讯

从跑酷到叠衣：机器人行业为何集体放弃“炫技”？

2.2亿用户，115亿美元血亏：OpenAI的“万亿帝国”，是梦想还是泡沫？

从六轴到七轴，不止多一轴：松灵NERO发布，开启机器人精细操作新篇章

破解机器人“触觉智能”终极难题！浙大“活结”技术登《Nature》：一个绳结解锁精准力控

阿里巴巴开源 Z-Image 图像模型：支持中英双语文字渲染

虚拟偶像的“集体舞”有解了！三校联手推出AI编舞模型，一首歌驱动全场

快讯

美股深夜全线暴跌：道指重挫500点特斯拉跌3% 中概股普跌加密货币跳水

谷歌新算法冲击全球内存股瑞穗称上车良机

珞石机器人：全栈技术赋能智能时代生态建设

中国机器狼群巷战画面首曝光军工技术再显降维打击

国金证券CIO：AI将深度变革证券业三大领域

95后AI天才少女罗福莉最新发声

长城汽车2025年财报：营收破2228亿城市NOA瞄准10万元市场

丰田召回在华56万辆汽车涉及汉兰达等车型

新加坡国立大学研发全球最快骨骼肌驱动机器人先练肌肉再破游泳纪录

江铃汽车2025年营收391亿净利下滑23% 2026年目标销量43万辆

推荐专栏

爱力方

机器人大讲堂

下一篇

user

谷歌DeepMind推出Gemma Scope 2，为Gemma 3模型提供全栈可解释性工具

相关图文

宇树科技新专利提升机器人控制精度与可靠性

腾讯企点营销云领跑中国CDP市场，AI推动营销全链路智能化

美银CEO：AI经济影响持续扩大，行业收缩不必过度担忧

钉钉推出全球首个AI工作智能操作系统Agent OS

MiniMax Agent平台发布开源编码与代理模型M2.1

具身智能需摆脱营销炒作

热门资讯

从跑酷到叠衣：机器人行业为何集体放弃“炫技”？

2.2亿用户，115亿美元血亏：OpenAI的“万亿帝国”，是梦想还是泡沫？

从六轴到七轴，不止多一轴：松灵NERO发布，开启机器人精细操作新篇章

破解机器人“触觉智能”终极难题！浙大“活结”技术登《Nature》：一个绳结解锁精准力控

阿里巴巴开源 Z-Image 图像模型：支持中英双语文字渲染

虚拟偶像的“集体舞”有解了！三校联手推出AI编舞模型，一首歌驱动全场

快讯

美股深夜全线暴跌：道指重挫500点 特斯拉跌3% 中概股普跌 加密货币跳水

谷歌新算法冲击全球内存股 瑞穗称上车良机

珞石机器人：全栈技术赋能智能时代生态建设

中国机器狼群巷战画面首曝光 军工技术再显降维打击

国金证券CIO：AI将深度变革证券业三大领域

95后AI天才少女罗福莉最新发声

长城汽车2025年财报：营收破2228亿 城市NOA瞄准10万元市场

丰田召回在华56万辆汽车 涉及汉兰达等车型

新加坡国立大学研发全球最快骨骼肌驱动机器人 先练肌肉再破游泳纪录

江铃汽车2025年营收391亿 净利下滑23% 2026年目标销量43万辆

推荐专栏

爱力方

机器人大讲堂

下一篇

美股深夜全线暴跌：道指重挫500点特斯拉跌3% 中概股普跌加密货币跳水

谷歌新算法冲击全球内存股瑞穗称上车良机

中国机器狼群巷战画面首曝光军工技术再显降维打击

长城汽车2025年财报：营收破2228亿城市NOA瞄准10万元市场

丰田召回在华56万辆汽车涉及汉兰达等车型

新加坡国立大学研发全球最快骨骼肌驱动机器人先练肌肉再破游泳纪录

江铃汽车2025年营收391亿净利下滑23% 2026年目标销量43万辆