资讯

比亚迪联手火山引擎豆包大模型上车DiLink

比亚迪与火山引擎宣布在智能座舱领域达成深度合作，将豆包大模型融入DiLink系统，覆盖旗下五大品牌全量车型。合作实现了语音交互、内容推荐与出行服务的无缝衔接，打造“能推理、会思考、懂情绪”的智能座舱体验。双方还将在锂电池研发等领域探索AI技术应用，加速汽车智能化与电池技术创新。

资讯中国

2025-12-25 16:44

微软与ETH联合推出新模型机器人通过视频学习灵巧操作

微软与ETH苏黎世团队提出Video-Action Model（VAM），通过复用预训练视频模型的动态知识，让机器人从视频中学习物理规律，显著提升操作技能的学习效率。该方法在模拟和真实场景中实现数据效率提升10倍、收敛速度加快2倍，为机器人灵巧操作带来突破。

具身研习社

2025-12-25 11:56

中大团队研发PTSS-ZND模型，实现连续体机器人高精度控制

中山大学团队提出PTSS-ZND模型，结合神经常微分方程（NODE）的高效建模与预设时间同步稳定归零神经动力学（PTSS-ZND）的可靠控制，实现了连续体机器人的高精度预设时间控制。该方法仅需数十组数据即可训练模型，大幅提升数据效率，并确保所有运动维度在预设时间内同步收敛，具有严格的稳定性证明。研究成果发表于《IEEE Transactions on Robotics》，为医疗等高风险场景的机器人应用提供了新方案。

机器人大讲堂

2025-12-25 11:48

全国首发云宇星空大模型赋能智能城市规划

上海市规划和自然资源局与商汤科技联合发布全国首个规划资源领域AI大模型“云宇星空”。该模型基于6000亿参数，整合遥感影像、三维实景等多源数据，具备自然语言交互、自动图纸审查、智能报告生成等功能，能显著提升城市规划效率与决策科学性，标志着智能城市规划进入新阶段。

aibase

2025-12-25 10:57

阿里通义开源语音交互大模型Fun-Audio-Chat-8B 超低延迟情绪识别

阿里通义实验室开源Fun-Audio-Chat-8B语音交互大模型，采用端到端S2S架构实现超低延迟对话，具备情感感知与语音函数调用能力，性能领先开源竞品并媲美顶级闭源模型，适用于情感陪伴、智能控制等多场景。

爱力方

2025-12-24 17:06

第四届浙江互联网医疗大会召开德适生物发布影像大模型新成果

第四届浙江互联网医疗大会在杭州召开，聚焦医疗数智化转型与人工智能应用。德适生物展示了其创新的iMedImage™医学影像通用大模型，该模型具备强大的跨模态处理和多任务能力，在临床实践中已取得显著效果，如提升早产风险预测的准确性。大会汇聚行业专家，共同探讨智能医疗融合发展的新路径。

资讯中国

2025-12-24 16:31

阿里巴巴发布Qwen新模型三秒音频即可克隆声音

阿里巴巴Qwen团队发布两款创新AI语音模型：Qwen3-TTS-VD-Flash可根据文本描述生成定制化声音，支持情感和节奏控制；Qwen3-TTS-VC-Flash仅需3秒音频即可克隆声音，支持十种语言，性能超越竞争对手。两款模型均通过阿里云API提供，适用于广告、配音及多语言声音复制等场景。

aibase

2025-12-24 16:10

IROS2025：大语言模型结合行为树，机器人自适应操作新突破

本文介绍了一种结合大语言模型与行为树的人机交互学习机制，用于实现自适应机器人操作。该方法通过上下文学习和人机交互引导，生成可直接应用于机器人的动作知识，有效减少了LLM调用次数并提升了任务成功率。实验表明，该方法在多种任务中表现出良好的适应性和泛化能力，能够应对外部干扰并处理新任务。

具身研习社

2025-12-23 17:32

谷歌DeepMind推出Gemma Scope 2，为Gemma 3模型提供全栈可解释性工具

谷歌DeepMind发布Gemma Scope 2，这是一个开放的可解释性工具套件，专为Gemma 3语言模型设计，支持从2.7亿到270亿参数的模型。该工具通过稀疏自编码器和转码器，帮助研究人员深入分析模型内部特征，追踪幻觉、越狱等行为，提升AI安全与对齐能力。

aibase

2025-12-23 17:03

MiniMax Agent平台发布开源编码与代理模型M2.1

MiniMax M2.1是一款专为真实编码和AI组织设计的开源编码与代理模型，拥有100亿激活量，在SWE-multilingual和VIBE-bench等多项基准测试中表现卓越，超越了多个领先闭源模型，支持Rust、Java、Go等多种编程语言，标志着代理时代强大开源模型的诞生。

爱力方

2025-12-23 16:17

亚马逊部署Mistral AI的Voxtral模型

本文介绍了Mistral AI推出的Voxtral多模态模型，包括Voxtral-Mini-3B-2507和Voxtral-Small-24B-2507两个版本，支持音频和文本处理。详细展示了如何利用vLLM和亚马逊SageMaker的BYOC功能在AI端点上部署该模型，实现高效的音频转录、多语言处理及企业级应用。

aibase

2025-12-23 14:56