告别视频扭曲与“AI电音”:巨人网络多模态模型让虚拟世界更真实
巨人网络AI Lab联合清华大学和西北工业大学发布三项多模态生成技术:YingVideo-MV实现音乐驱动视频生成并消除人物畸变,YingMusic-SVC提供零样本歌声转换确保真实歌曲可用,YingMusic-Singer支持任意歌词生成自然歌声。这些开源技术显著提升了音视频创作的质量与灵活性。
当亚马逊云,开始为你,一键部署OpenAI的开源模型
AWS推出Amazon Bedrock Custom Model Import功能,支持用户轻松部署GPT-OSS开源模型,包括20亿和120亿参数变体。该功能自动处理GPU配置、推理服务器搭建和扩展,用户仅需上传模型文件至S3即可。保持OpenAI API兼容性,实现应用无缝迁移,代码更改极少,让企业专注于应用开发。
机器人的“楚门世界”:用第一视角视频喂养的AI,将永远活在人类的“主观现实”里
加州大学圣地亚哥分校团队开发Human0机器人操控基础模型,通过1000小时人类第一视角数据集PHSD和两阶段训练框架,解决了机器人泛化能力不足的问题。模型采用'野生场景+任务导向'数据组合,结合域对抗判别器技术,使机器人能够理解未见过的语言指令并通过少量演示快速学习新技能,在人形机器人实测中展现出优秀的适应性和性能。
IJRR北邮首篇,联合三星中国研究院、清华大学等共同探讨“机器人操作大模型”
北京邮电大学联合三星中国研究院、清华大学等机构在IJRR发表首篇机器人操作大模型综述,探讨基础模型如何解决机器人通用操作面临的七大挑战。文章系统分析了LLMs、VFMs、VLMs等基础模型在机器人交互、感知、决策等关键环节的应用潜力,并提出从L0级别逐步实现通用操作的框架路径,为机器人学习领域提供重要理论指导。
新燃料:一份六万分钟的数据日志,试图回答人形机器人的“缩放法则”
LET数据集作为国内首个开源的全尺寸人形机器人真机数据集,发布超过60,000分钟真实作业场景数据,涵盖工业、商业和日常生活三大领域。该数据集通过多模态融合架构、标准化采集流程和高精度时间戳控制,解决了行业数据稀缺、成本高昂和格式碎片化等核心痛点,为具身智能和机器人模型训练提供了关键数据支撑,加速从仿真到真实场景的落地应用。
为什么“教”机器人,不能像教人一样手把手?现在可以了
斯坦福华人博士团队研发的家务机器人Memo引发关注,这款1.7米高的机器人能自主完成收拾餐桌、清洗碗碟、折叠衣物等家务。通过独特的技能捕捉手套技术,用户可手把手教学,配合ACT-1基础模型实现长程复杂操作。售价14万元,旨在解放用户的周末时间,目前已收集近1000万条训练轨迹。
正文:数据修正:中国开源 AI 模型正重构全球算力供应链
中国工程院院士倪光南在2025开放原子开发者大会上宣布,中国已成为全球开源AI大模型的最大提供者,Qwen、DeepSeek和Kimi等模型在国际评估中表现突出。文章强调开源技术正推动全球信息技术发展,中国在开源欧拉社区已拥有2100家成员和2.3万名开发者,下载量突破550万。倪光南呼吁坚持全球化战略,推动协同创新,构建技术领先的中国软件新生态。
当训练数据成为“皇帝的新衣”:AI生成的视频,会让机器人永远学不会走路吗?
DeepMind联合多所高校推出PhysWorld框架,通过视频生成与物理世界建模的深度融合,让机器人仅凭单张图像和文字指令就能观看生成视频学习复杂操作。该框架解决了生成视频缺乏物理可行性的核心难题,无需真实机器人演示数据即可实现零样本技能迁移,大幅降低机器人学习成本。
语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时
复旦大学MOSS团队开源国内首个端到端语音到语音大模型MOSS-Speech,采用创新层拆分架构,无需传统ASR→LLM→TTS流程即可实现语音问答、情绪模仿和笑声生成。在ZeroSpeech2025评测中WER低至4.1%,情感识别准确率91.2%,中文口语MOS分达4.6接近真人水平。提供48kHz超采样和16kHz轻量版本,支持单张RTX4090实时推理,延迟低于300ms,已开放商用许可。
“一句话生成一个3D模型”:Meta发布SAM 3D,让所有人都成为创造者
Meta AI发布革命性模型SAM3D,只需单张2D照片即可生成带纹理、材质与几何一致性的3D模型。该模型提供通用物体和人像重建两套权重,在真实世界图像上显著优于现有NeRF与Gaussian Splatting方案,Chamfer Distance降低28%,法向一致性提升19%。支持AR/VR、机器人及影视后期应用,已集成至Quest3并开放API调用。
谷歌发布其最智能模型Gemini3Pro,专家级编码支持,深度理解图片视频
谷歌DeepMind发布最新AI模型Gemini3Pro,具备强大的推理能力和多模态理解功能。该模型在学术推理、视觉推理和数学领域表现卓越,支持文本、图像、视频等多种输入方式,能帮助用户学习复杂知识、实现创意构建和高效项目管理。特别适合前端开发,提供专家级编码支持,目前处于预览阶段,将通过多种渠道提供给用户使用。
中科深谷异构腿足特种机器人,赋能深空探索科学研究
中科深谷与长春工业大学合作开发模块化腿足特种机器人,创新采用以'臂'为'腿'设计,实现移动与操作功能融合。机器人具备高度模块化架构,支持四足行走、三足一臂等多种构型切换,基于深谷智脑系统提供精准控制与开放二次开发平台,为深空探索中的复杂环境移动、多臂协同作业等前沿研究提供关键技术支撑。
微博的“效率革命”:Vibe Thinker让轻量化AI成为一行代码的事
微博开源Vibe Thinker大模型仅15亿参数却在数学竞赛中击败6710亿参数的DeepSeek R1,准确率领先3.4%,推理延迟降低42%。该模型采用轻量化MoE架构,后训练成本仅7800美元,支持Hugging Face一键下载及商用,最低可在单张RTX4090运行,适用于教育、金融等实时场景。
告别复杂AI管道:OceanBase开源“智能心脏”,让数据自己说话
OceanBase发布首款AI原生数据库seekdb,支持向量、全文、标量和空间地理数据的统一混合搜索,深度融合AI推理与数据处理。开发者仅需三行代码即可快速构建AI应用,轻松应对百亿级多模数据检索,兼容30余种主流AI框架,实现开箱即用的AI数据基座。
Google Flow集成Nano Banana模型:智能抠图生成视频素材
谷歌为AI电影工具Flow新增图像编辑功能,集成Gemini2.5Flash模型(代号Nano Banana),支持自然语言一键去背景、主体分离与场景替换,可生成8秒动态镜头。面向免费用户开放,单张处理仅0.039美元,实测30秒完成人物与奇幻森林的动态合成,保持发丝级细节精度。