无声的助理:中兴端侧AI正在重新定义手机的“工作”

无声的助理:中兴端侧AI正在重新定义手机的“工作”

爱力方

爱力方

2025年11月05日 14:32
本文共计1498个字,预计阅读时长5分钟。
来源/互联网 责编/爱力方

“帮我订一张明天下午去上海的高铁票。”

当这句话不再需要用户解锁手机、找到12306应用、手动选择日期和车次时,一个存在已久的行业愿景,才算真正从营销口号落地为物理现实。

这正是中兴通讯近期在其旗舰机型努比亚Z70 Ultra和Z80 Ultra上推送的真实体验。其背后,是一个名为Nebula-GUI的小型化AI模型。

这不仅仅是一次语音助手的功能升级。它是一个信号,标志着手机操作系统与AI的融合,正从“问答式”交互,悄然跃迁至“代理式”执行。

Nebula-GUI的核心,是一个仅有70亿参数的端侧AI智能体。

“端侧”意味着,它无需联网,所有推理和决策均在手机本地完成。这直接带来了两个关键优势:毫秒级的响应速度,以及用户操作数据的天然隐私保障。

根据最新公布的评测数据,在一个权威的离线手机GUI Agent测试基准中,Nebula-GUI获得了84.38的综合得分,位列第二。

更具说服力的,是它在具体任务中的表现。

在自动订票、在线点餐这类需要跨多个界面、填写多项信息的高复杂度任务中,其操作速度与最终的成功率,均显著优于同类公开方案。

目前,该模型已适配超过30款中国市场的主流应用,覆盖了12306、美团、高德地图、微信和支付宝等高频场景。中兴方面的数据显示,在这些常用场景中,其平均任务完成准确率超过了90%。

对用户而言,这意味着过去需要数分钟、十几次点击才能完成的流程,如今被压缩为一次自然语言对话。

手机,正在从一个需要被动操作的工具箱,向一个能够主动执行任务的助理演变。

image.png

然而,实现这一体验的技术路径远非坦途。

最大的障碍,并非模型算法本身,而是数据——高质量的、中文图形用户界面(GUI)标注数据的极度稀缺。

这是所有试图让AI理解并操作手机屏幕的团队共同面临的瓶颈。

为此,中兴自研了一套端到端的GUI数据制备系统。

这套系统能够自动化完成截图采集、界面元素的语义标注,乃至合成模拟用户指令等一系列工作,最终构建起一个覆盖数千种真实操作路径的训练数据闭环。

它解决的不仅是数据“从无到有”的问题,更是数据标注效率与一致性的难题,同时大幅降低了数据生产的成本。

有了坚实的数据基础,研发团队得以通过监督微调(SFT)技术,将一个通用的多模態大模型,精确地“改造”成一个专注于手机GUI操作的智能体。

这个智能体具备一个完整的“感知-理解-规划-执行”闭环能力。

它不仅能“看懂”屏幕上的图标和文字,还能结合用户的指令,“理解”其真实意图,自主“规划”出最优的操作步骤,并调用系统权限一步步“执行”。

在执行过程中,它还能进行动态纠错,以确保在复杂的现实应用场景下的鲁棒性。

Nebula-GUI的商用落地,为当前“端侧AI是行业共识”的宏大叙事,提供了一个极具说服力的样本。

当大部分厂商仍在讨论端侧AI能带来多快的图像生成、多强的文档总结能力时,中兴的选择是,让AI直接为用户“动手”,解决最繁琐的日常操作。

这一定位,可能更接近用户对“智能手机”的终极期待。

中兴方面透露,其下一步的研发方向,将是扩展至购物比价、旅游行程规划、跨应用信息整合与提取等更为复杂的、需要长链条决策的场景。

这意味着,未来的“手机私人助理”,不仅能执行明确的指令,还能在模糊的需求下,提供分析和建议,并直接将结果呈现给用户。

这远非一个单一应用或功能的竞争。

它指向的是下一代手机操作系统的交互范式。当AI智能体成为系统的底层能力,当用户可以直接通过意图与手机交互,过去十年间以App为核心的、孤岛化的信息结构,将受到根本性的挑战。

当手机不再仅仅“听懂”你说的话,而是开始“理解”并“代劳”,人与数字世界的交互边界,正在被无声地、彻底地重新书写。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯