资讯
Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”
StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,首次将语音编辑转化为类似文本标记级别的可控操作。该模型通过双码本分词架构和大间隔学习技术,实现情感、语调、风格及副语言特征的精准编辑,在中文情感准确率上从57.0%提升至77.7%。项目全栈开源,大幅降低语音编辑研究门槛,让开发者能像编辑文本一样直观操作语音。
StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验
StepFun AI发布开源音频编辑模型Step-Audio-EditX,这是一个3B参数的创新模型,将音频编辑转化为类似文本编辑的直观操作。通过双代码本标记器和混合语料库训练,模型实现了对语音情感、风格和音色的精确控制。采用大边距学习和强化学习技术,在Step-Audio-Edit-Test基准测试中展现出卓越的编辑效果,还能提升其他TTS系统的音频质量。
Hume AI语音转换功能上线,单次捕捉完美复刻你的“声音灵魂”
Hume AI推出革命性语音转换功能,仅需一次录音即可完美复刻用户的声音特征,包括节奏、发音和语调。该功能支持11种语言,可应用于200K+自定义声音库,实现跨语言、跨性别的自然语音转换。通过创作工作室和API双平台,为内容创作、游戏开发和全球本地化提供高效解决方案,标志着语音AI从机械朗读向情感共鸣的跨越。
具身智能进入“数据”争夺战:一场关于“场景数据”的圈地运动大幕开启
具身智能领域正在兴起的场景数据争夺战。随着机器人技术门槛降低,专属场景数据成为企业核心竞争力。文章分析了专属场景数据的不可替代性、采集成本与壁垒,以及物理对齐价值,并介绍了主流玩家的三种数据飞轮模式,揭示了数据资产化对机器人产业格局的重塑作用。
丰田的“机械山羊”:当轮椅长出四条腿,个人出行的终极形态出现了?
丰田在移动出行展上展示了Walk Me四足机器椅,这款创新产品结合仿生学与机器人技术,能够爬楼梯、跪地、跨越障碍物并自动导航。灵感来自山羊的移动方式,机械腿运动自然流畅。椅子支持30秒折叠成行李箱大小,配备语音控制和自动避障功能,专为解决日常移动障碍设计,内置多重安全机制确保使用安全。
告别机器人“手残”!中国团队研发六自由度机械臂 GL-Robot ,能捏鸡蛋还能举哑铃!
中国浙江大学团队研发的GL-Robot六自由度机械臂,通过创新的堆叠四连杆机构和AI驱动的电流感知技术,实现了从捏鸡蛋到举哑铃的宽范围力控制。这款双指机械臂具备自适应抓取模式切换能力,无需专用传感器即可精确感知力度,解决了机器人抓取中力量与精细控制的长期矛盾,在工业和精密操作领域具有重要应用价值。
物理世界的“通用翻译器”:NavFoM基座模型发布,机器人导航迎来统一框架
银河通用联合多所高校发布全球首个跨本体全域环视导航大模型NavFoM,该模型将视觉与语言导航、目标导向导航、视觉追踪及自主驾驶等任务整合到统一框架中。支持室内外场景零样本运行,无需额外建图,通过TVI Tokens和BATS策略增强时空理解与计算效率,适用于机器狗、无人机、汽车等多种机器人平台,标志着机器人导航领域的重大突破。
进化算法赋能:纳米定位机器人突破性能瓶颈,兼具超高刚度比与机械带宽
新加坡南洋理工大学研究团队在Nature子刊《Communications Engineering》发表创新成果,提出基于进化理念的纳米定位机器人设计方法。该方法通过傅里叶函数表征结构拓扑,结合运动学分析与智能进化算法,成功开发出XYθz纳米定位机器人,实现刚度比741-869、机械带宽123Hz、定位精度13nm的突破性性能,远超现有技术水平。
Nature正刊!ETH开发随声音运动的新型人造肌肉,为多个领域的发展提供新机会
苏黎世联邦理工学院团队在《Nature》正刊发表创新研究,开发出基于超声波微泡阵列的新型人造肌肉。这种人工肌肉通过超声控制微泡振荡产生动力,实现了软体机器人的多模态变形和无线驱动,在微型抓取、仿生机器人和生物医学等领域展现出广阔应用前景,为机器人产业升级提供了新技术支点。
仅用乐高组件,布里斯托大学团队造出拟人化机器手,实现12自由度抓取!
布里斯托大学研究团队仅使用乐高MINDSTORMS组件成功开发出拟人化机器人手Educational SoftHand-A,具备12个运动自由度。该设计采用肌腱驱动系统和模块化手指结构,通过两个电机实现自适应抓取功能,不仅简化了控制系统,还让中小学生能够通过动手实践理解机器人技术原理。
登上《SAGE Journals》!这款气动软肘外骨骼,让肌肉负担直降22%!
美国德克萨斯大学阿灵顿分校研发的气动软肘外骨骼(PASE)登上《SAGE Journals》,这款创新设备融合人体关节力学与一体式气动结构,通过硅胶执行器和碳纤维底板实现轻量化设计。实验证明该外骨骼能有效降低22%肌肉负担,特别适用于物料搬运、流水线作业等肘部高负荷场景,解决了传统刚性外骨骼舒适性差和软性外骨骼输出力不足的难题。
一套动作数据,如何成为所有人形机器人的「通用语言」?
人形机器人行业面临的数据孤岛问题,介绍了灏存科技提出的运动数据通用化解决方案。通过将人体动作转化为标准化数据,实现一套动作数据跨品牌适配不同灵巧手,有效解决了硬件参数碎片化、控制协议封闭等行业难题,为机器人规模化落地提供了关键技术路径。
最火VLA,看这一篇综述就够了
这篇综述全面解析了ICLR 2026爆火领域VLA(视觉-语言-动作)的最新进展。作者Moritz Reuss作为Apple AI/ML学者奖得主,系统阐述了VLA的核心概念、八大技术趋势,包括离散扩散模型、具身思维链、动作分词器等关键突破。文章还厘清了VLA与LBM的区别,帮助读者深入理解这一让机器人'听懂人话、看懂世界、动手干活'的前沿技术。
清华陈建宇团队× 斯坦福Chelsea课题组推出 Ctrl-World 可控世界模型,让机器人在想象中迭代
清华大学陈建宇团队与斯坦福大学Chelsea Finn课题组联合推出可控生成世界模型Ctrl-World,该模型能让机器人在虚拟想象空间中进行任务预演和策略评估,无需真实世界数据即可大幅提升机器人操作成功率。通过多视角预测、细粒度动作控制和长时程动态维持三大创新技术,解决了传统世界模型的幻觉、控制不精细和一致性差等问题,将机器人策略在下游任务中的成功率从38.7%提升至83.4%。
为Transformer注入长期记忆:Memo框架通过“学会做摘要”解决具身智能核心挑战
牛津大学研究团队提出Memo框架,为Transformer模型注入长期记忆能力。该框架模仿人类笔记行为,让模型自主生成任务相关的摘要标记,通过动态记忆缓冲区存储和检索关键信息,解决了传统Transformer在长序列任务中的记忆限制问题。实验表明Memo在具身智能任务中性能优异,上下文标记减少8倍,同时保持强大的长时域推理能力。