资讯
机器人学的“范式转移”:超材料正重新定义“智能”,让本能先于思考
本文探讨了超材料如何赋予机器人身体本能,通过设计材料的微观结构,使机器人能够实现感知、驱动和计算的本体化。文章分析了传统机器人系统的局限性,并介绍了超材料的三大设计原则,包括力学启发架构、重构结构等,展望了未来机器人在救援、航天等领域的应用前景。
破解机器人的“小型化魔咒”?“折纸”骨架给出完美答案:更小、更强、更高效
本文介绍了首尔大学研究团队在《Science Robotics》上发表的折叠卷绕式波纹(FoRoGated)结构创新成果。该结构结合折纸与编织技术,解决了机器人伸缩机构既要紧凑存储又要高承载的核心矛盾。通过平行条带柔性编织连接,实现了多层卷绕时的平滑滑动与高强度支撑,使机器人能在0.73米高度下展开至3.43米,承载12.5公斤负载。这项技术为仓储、救援及太空探索机器人提供了突破性解决方案。
快手旗舰 Keye-VL-671B-A37B 重磅发布,多模态推理能力实现新突破
快手发布新一代旗舰多模态模型Keye-VL-671B-A37B,该模型具备'善看会想'特性,在通用视觉理解、视频分析和数学推理等核心能力上实现突破。采用DeepSeek-V3-Terminus作为基座,通过三阶段预训练和系统优化,显著提升了多模态理解与复杂推理能力。未来将强化多模态Agent能力,支持工具调用和深度思考,推动多模态AI向更通用、可靠的方向发展。
昆仑万维正式推出Mureka V7.6 与 O2 模型发布,更高质量和更具创新性
昆仑万维正式发布Mureka V7.6和O2模型,标志着AI音乐创作进入新时代。新版本在音乐生成质量、编曲能力和音质方面实现显著提升,特别优化了中文歌曲的演绎效果和情感表现。同时增强了系统速度与稳定性,支持大规模商业化应用,推动AI音乐向实时互动和协作方向发展,已吸引全球近700万用户注册体验。
大模型“幻觉”终结的开始?Meta CoT验证器发布,推理可靠性迎来分水岭
Meta AI实验室发布基于Llama3.1的CoT-Verifier模型,创新性地采用白盒方法分析AI推理过程。该工具通过TopK转码器机制和CRV方法,深入解析推理步骤的归因图结构特征差异,不仅能预测推理错误,还能通过定向干预纠正错误,为提升大型语言模型推理能力提供全新视角。
IMO金牌成AI试金石?DeepSeek-Math-V2的突破,让学术界重新审视AI极限
DeepSeek正式发布DeepSeek-Math-V2开源数学推理模型,这款6850亿参数的MoE模型成为全球首个达到国际数学奥林匹克金牌水平的开源AI。模型采用创新的‘生成-验证’双模型闭环机制,通过实时逻辑审查和自我修正实现真正的可自我验证能力。在2025年IMO竞赛中取得83.3%正确率获得金牌,在普特南数学竞赛中更是取得118/120的近乎满分成绩,全面超越此前所有公开模型。
虚拟偶像的“集体舞”有解了!三校联手推出AI编舞模型,一首歌驱动全场
南理工、清华和南大联合研发的TCDiff++模型突破群舞生成技术瓶颈,通过团体舞蹈解码器和步法适配器的两阶段设计,解决了多舞者碰撞、脚部滑动和长序列生成不连贯三大难题。该端到端模型能够根据音乐自动生成高质量、和谐的群舞表演,支持分钟级长序列生成,显著提升舞蹈动作的真实性和群体协调性。
阿里巴巴开源 Z-Image 图像模型:支持中英双语文字渲染
阿里巴巴通义实验室开源Z-Image图像生成模型,仅6B参数实现接近20B模型的视觉质量。采用单流DiT架构,支持中英双语文字渲染,8步采样即可生成高清图像,显存占用低于16GB。模型包含Turbo、Base和Edit三大变体,在消费级显卡上流畅运行,显著降低AI图像生成技术的应用门槛。
告别视频扭曲与“AI电音”:巨人网络多模态模型让虚拟世界更真实
巨人网络AI Lab联合清华大学和西北工业大学发布三项多模态生成技术:YingVideo-MV实现音乐驱动视频生成并消除人物畸变,YingMusic-SVC提供零样本歌声转换确保真实歌曲可用,YingMusic-Singer支持任意歌词生成自然歌声。这些开源技术显著提升了音视频创作的质量与灵活性。
当亚马逊云,开始为你,一键部署OpenAI的开源模型
AWS推出Amazon Bedrock Custom Model Import功能,支持用户轻松部署GPT-OSS开源模型,包括20亿和120亿参数变体。该功能自动处理GPU配置、推理服务器搭建和扩展,用户仅需上传模型文件至S3即可。保持OpenAI API兼容性,实现应用无缝迁移,代码更改极少,让企业专注于应用开发。
机器人的“楚门世界”:用第一视角视频喂养的AI,将永远活在人类的“主观现实”里
加州大学圣地亚哥分校团队开发Human0机器人操控基础模型,通过1000小时人类第一视角数据集PHSD和两阶段训练框架,解决了机器人泛化能力不足的问题。模型采用'野生场景+任务导向'数据组合,结合域对抗判别器技术,使机器人能够理解未见过的语言指令并通过少量演示快速学习新技能,在人形机器人实测中展现出优秀的适应性和性能。
IJRR北邮首篇,联合三星中国研究院、清华大学等共同探讨“机器人操作大模型”
北京邮电大学联合三星中国研究院、清华大学等机构在IJRR发表首篇机器人操作大模型综述,探讨基础模型如何解决机器人通用操作面临的七大挑战。文章系统分析了LLMs、VFMs、VLMs等基础模型在机器人交互、感知、决策等关键环节的应用潜力,并提出从L0级别逐步实现通用操作的框架路径,为机器人学习领域提供重要理论指导。
新燃料:一份六万分钟的数据日志,试图回答人形机器人的“缩放法则”
LET数据集作为国内首个开源的全尺寸人形机器人真机数据集,发布超过60,000分钟真实作业场景数据,涵盖工业、商业和日常生活三大领域。该数据集通过多模态融合架构、标准化采集流程和高精度时间戳控制,解决了行业数据稀缺、成本高昂和格式碎片化等核心痛点,为具身智能和机器人模型训练提供了关键数据支撑,加速从仿真到真实场景的落地应用。
为什么“教”机器人,不能像教人一样手把手?现在可以了
斯坦福华人博士团队研发的家务机器人Memo引发关注,这款1.7米高的机器人能自主完成收拾餐桌、清洗碗碟、折叠衣物等家务。通过独特的技能捕捉手套技术,用户可手把手教学,配合ACT-1基础模型实现长程复杂操作。售价14万元,旨在解放用户的周末时间,目前已收集近1000万条训练轨迹。
正文:数据修正:中国开源 AI 模型正重构全球算力供应链
中国工程院院士倪光南在2025开放原子开发者大会上宣布,中国已成为全球开源AI大模型的最大提供者,Qwen、DeepSeek和Kimi等模型在国际评估中表现突出。文章强调开源技术正推动全球信息技术发展,中国在开源欧拉社区已拥有2100家成员和2.3万名开发者,下载量突破550万。倪光南呼吁坚持全球化战略,推动协同创新,构建技术领先的中国软件新生态。