资讯
当训练数据成为“皇帝的新衣”:AI生成的视频,会让机器人永远学不会走路吗?
DeepMind联合多所高校推出PhysWorld框架,通过视频生成与物理世界建模的深度融合,让机器人仅凭单张图像和文字指令就能观看生成视频学习复杂操作。该框架解决了生成视频缺乏物理可行性的核心难题,无需真实机器人演示数据即可实现零样本技能迁移,大幅降低机器人学习成本。
语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时
复旦大学MOSS团队开源国内首个端到端语音到语音大模型MOSS-Speech,采用创新层拆分架构,无需传统ASR→LLM→TTS流程即可实现语音问答、情绪模仿和笑声生成。在ZeroSpeech2025评测中WER低至4.1%,情感识别准确率91.2%,中文口语MOS分达4.6接近真人水平。提供48kHz超采样和16kHz轻量版本,支持单张RTX4090实时推理,延迟低于300ms,已开放商用许可。
“一句话生成一个3D模型”:Meta发布SAM 3D,让所有人都成为创造者
Meta AI发布革命性模型SAM3D,只需单张2D照片即可生成带纹理、材质与几何一致性的3D模型。该模型提供通用物体和人像重建两套权重,在真实世界图像上显著优于现有NeRF与Gaussian Splatting方案,Chamfer Distance降低28%,法向一致性提升19%。支持AR/VR、机器人及影视后期应用,已集成至Quest3并开放API调用。
谷歌发布其最智能模型Gemini3Pro,专家级编码支持,深度理解图片视频
谷歌DeepMind发布最新AI模型Gemini3Pro,具备强大的推理能力和多模态理解功能。该模型在学术推理、视觉推理和数学领域表现卓越,支持文本、图像、视频等多种输入方式,能帮助用户学习复杂知识、实现创意构建和高效项目管理。特别适合前端开发,提供专家级编码支持,目前处于预览阶段,将通过多种渠道提供给用户使用。
中科深谷异构腿足特种机器人,赋能深空探索科学研究
中科深谷与长春工业大学合作开发模块化腿足特种机器人,创新采用以'臂'为'腿'设计,实现移动与操作功能融合。机器人具备高度模块化架构,支持四足行走、三足一臂等多种构型切换,基于深谷智脑系统提供精准控制与开放二次开发平台,为深空探索中的复杂环境移动、多臂协同作业等前沿研究提供关键技术支撑。
微博的“效率革命”:Vibe Thinker让轻量化AI成为一行代码的事
微博开源Vibe Thinker大模型仅15亿参数却在数学竞赛中击败6710亿参数的DeepSeek R1,准确率领先3.4%,推理延迟降低42%。该模型采用轻量化MoE架构,后训练成本仅7800美元,支持Hugging Face一键下载及商用,最低可在单张RTX4090运行,适用于教育、金融等实时场景。
告别复杂AI管道:OceanBase开源“智能心脏”,让数据自己说话
OceanBase发布首款AI原生数据库seekdb,支持向量、全文、标量和空间地理数据的统一混合搜索,深度融合AI推理与数据处理。开发者仅需三行代码即可快速构建AI应用,轻松应对百亿级多模数据检索,兼容30余种主流AI框架,实现开箱即用的AI数据基座。
Google Flow集成Nano Banana模型:智能抠图生成视频素材
谷歌为AI电影工具Flow新增图像编辑功能,集成Gemini2.5Flash模型(代号Nano Banana),支持自然语言一键去背景、主体分离与场景替换,可生成8秒动态镜头。面向免费用户开放,单张处理仅0.039美元,实测30秒完成人物与奇幻森林的动态合成,保持发丝级细节精度。
开源智能体MiroThinker v1.0发布:256K上下文支持600次工具调用,提出“深度交互Scaling”框架
MiroMind团队开源发布智能体模型MiroThinker v1.0,具备256K上下文窗口和单次600次工具调用能力。创新提出'深度交互Scaling'框架,通过高频环境交互替代传统参数堆叠,实现智能体自主进化。模型集成搜索、代码执行等工具链,可数小时内完成复杂任务闭环,官方示例展示了全程零人工干预的低糖甜品方案制定。支持24GB显存本地部署,兼容主流开发框架。
仅0.77B参数碾压3.5B大模型!上海交大Evo-1刷新VLA模型纪录,集成lerobot框架可用于SO100/SO101部署
上海交大Evo-1模型仅用0.77B参数在机器人VLA领域实现突破,无需机器人数据预训练即可超越3.5B大模型性能。该模型通过轻量化设计、16.4Hz高推理频率和创新训练范式,解决了参数臃肿、实时性不足、泛化能力弱和数据依赖四大核心问题,已集成lerobot框架支持SO100/SO101部署,为消费级GPU上的机器人智能操控提供高效解决方案。
总成本1250 美元!1分钟部署!TWIST2打造低成本人形机器人数据采集方案!
TWIST2是一套低成本、便携式的人形机器人遥操作与数据采集系统,总成本仅1250美元,1分钟即可完成部署。该系统通过可拆装颈部模块、便携VR动捕设备和优化的动作重定向算法,实现了无动捕设备的全身控制能力,支持机器人自主完成复杂任务。研究团队已开源相关成果,为规模化人形机器人开发提供了高效解决方案。
Nature子刊发表!中国地质大学团队研发刚-柔-软结构仿人手指,既能托举20倍自重,也能无损拿捏豆腐蛋黄
中国地质大学团队在《Nature Communications》发表突破性研究成果,研发出刚-柔-软复合结构仿人手指。该机械手指结合3D打印骨骼、柔性关节和硅胶皮肤,既能托举自重20倍的重物,又能无损抓取豆腐、蛋黄等脆弱物品,解决了传统机械手力量与柔顺性难以兼顾的技术难题,在服务、医疗和农业领域具有广泛应用前景。
AI的“自我进化”:DeepMind发布SIMA 2,一场在虚拟世界中进行的AGI预演
Google DeepMind发布多模态智能体SIMA2预览版,依托Gemini2.5Flash-lite模型,任务成功率较前代提升约一倍。该版本首次引入自生成数据循环机制,无需人工标注即可在新环境中完成复杂指令,并能理解文本、符号甚至emoji组合命令。研究旨在验证通用机器人所需的高层世界理解与推理能力,为虚拟智能体向实体机器人迁移探索可行路径。
摩尔线程发布URPO框架:大模型训练新范式获AAAI 2026认可
摩尔线程在AAAI 2026会议上发布URPO框架,这是一种统一奖励与策略优化技术,通过将指令遵循和奖励评判功能整合到单一模型中,显著提升大语言模型的训练效率和性能。实验显示基于Qwen2.5-7B的URPO在AlpacaEval和RewardBench等基准测试中超越传统方法,为AI训练开辟了新路径。
北京人形开源最新VLM模型,推动具身智能再迈关键一步 !
北京人形机器人创新中心开源具身智能VLM模型Pelican-VL 1.0,这是目前全球性能最强的开源具身多模态大模型,性能超越GPT-5同类模型15.79%。该模型采用创新的DPPO训练范式,仅用其他模型1/10的数据量就实现最优性能,可大幅提升机器人在商业服务、工业作业等场景中的视觉-语言感知和任务规划能力。