商汤开源新模型 赋予AI自主思考与行动能力

2026年01月30日 15:11
本文共计879个字,预计阅读时长3分钟。
来源/aibase 责编/爱力方

2026年1月30日,商汤科技正式开源了其首个支持动态视觉推理与图文搜索深度融合的 Agentic VLM 模型——SenseNova-MARS。该模型包含8B 和32B 两个版本,通过模拟“侦探破案”般的逻辑,实现了 AI 从单纯“理解”到自主“执行”的跨越。

性能飞跃:在多项榜单超越 GPT-5.2

最新的行业基准测试中,SenseNova-MARS展现出了惊人的竞技状态:

搜索推理登顶:在 MMSearch(图文搜索核心评测)中以74.27分 登顶,显著超过GPT-5.2的66.08分。

细节搜寻领跑:在 HR-MMSearch(高清细节搜索评测)中获得54.43分,拉开了与主流闭源模型的差距。

多维能力验证:在 FVQA、InfoSeek 等多个权威视觉理解榜单中,均取得了开源模型中的 SOTA(当前最佳) 成绩。

核心黑科技:像人类一样协同工具

SenseNova-MARS的独特之处在于其“自主规划”能力,能够自动解决“细节识别 + 信息检索 + 逻辑推理”的复杂长链条任务:

图像细节裁剪:能聚焦占比不到5% 的微小细节(如赛车手服上的 Logo),并自动放大分析。

动态图文搜索:在识别物体或人物的瞬间,自动匹配全球范围内的相关信息,如设备型号或行业数据。

多跳深度推理:面对需要“先放大、再识别、最后查背景”的任务不再束手无策,具备极强的“工具使用直觉”。

训练秘籍:“因材施教”的双阶段演进

商汤研究团队通过两阶段训练,赋予了模型严密的逻辑链条:

第一阶段(打基础):利用自动化数据合成引擎构建“高难度案例库”,让 AI 学习基本的多跳搜索逻辑,确保起步即面对真实复杂场景。

第二阶段(练实战):引入 BN-GSPO 算法进行强化学习,像训练侦探一样,通过奖励机制平滑波动,让模型在处理各类问题时都能保持稳定进步。

拥抱开源:助力全球开发者

目前,商汤已将SenseNova-MARS的模型、代码及数据集全量开源。开发者可直接通过 Hugging Face 下载,共同探索具身智能与自主 Agent 的无限可能。

来源:商汤开源 SenseNova-MARS:Agentic VLM 赋予 AI 独立“思考与行动”力 | AIbase

声明:本文来自aibase,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/