资讯

Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”

StepFun AI发布开源项目Step-Audio-EditX，基于30亿参数音频语言模型，首次将语音编辑转化为类似文本标记级别的可控操作。该模型通过双码本分词架构和大间隔学习技术，实现情感、语调、风格及副语言特征的精准编辑，在中文情感准确率上从57.0%提升至77.7%。项目全栈开源，大幅降低语音编辑研究门槛，让开发者能像编辑文本一样直观操作语音。

aibase

2025-11-10 15:31

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，实现音频编辑新体验

StepFun AI发布开源音频编辑模型Step-Audio-EditX，这是一个3B参数的创新模型，将音频编辑转化为类似文本编辑的直观操作。通过双代码本标记器和混合语料库训练，模型实现了对语音情感、风格和音色的精确控制。采用大边距学习和强化学习技术，在Step-Audio-Edit-Test基准测试中展现出卓越的编辑效果，还能提升其他TTS系统的音频质量。

aibase

2025-11-10 10:50

Hume AI语音转换功能上线，单次捕捉完美复刻你的“声音灵魂”

Hume AI推出革命性语音转换功能，仅需一次录音即可完美复刻用户的声音特征，包括节奏、发音和语调。该功能支持11种语言，可应用于200K+自定义声音库，实现跨语言、跨性别的自然语音转换。通过创作工作室和API双平台，为内容创作、游戏开发和全球本地化提供高效解决方案，标志着语音AI从机械朗读向情感共鸣的跨越。

aibase

2025-11-07 17:45

具身智能进入“数据”争夺战：一场关于“场景数据”的圈地运动大幕开启

具身智能领域正在兴起的场景数据争夺战。随着机器人技术门槛降低，专属场景数据成为企业核心竞争力。文章分析了专属场景数据的不可替代性、采集成本与壁垒，以及物理对齐价值，并介绍了主流玩家的三种数据飞轮模式，揭示了数据资产化对机器人产业格局的重塑作用。

机器人产业应用

2025-11-07 17:33

丰田的“机械山羊”：当轮椅长出四条腿，个人出行的终极形态出现了？

丰田在移动出行展上展示了Walk Me四足机器椅，这款创新产品结合仿生学与机器人技术，能够爬楼梯、跪地、跨越障碍物并自动导航。灵感来自山羊的移动方式，机械腿运动自然流畅。椅子支持30秒折叠成行李箱大小，配备语音控制和自动避障功能，专为解决日常移动障碍设计，内置多重安全机制确保使用安全。

爱力方

2025-11-07 10:33

告别机器人“手残”！中国团队研发六自由度机械臂 GL-Robot ，能捏鸡蛋还能举哑铃！

中国浙江大学团队研发的GL-Robot六自由度机械臂，通过创新的堆叠四连杆机构和AI驱动的电流感知技术，实现了从捏鸡蛋到举哑铃的宽范围力控制。这款双指机械臂具备自适应抓取模式切换能力，无需专用传感器即可精确感知力度，解决了机器人抓取中力量与精细控制的长期矛盾，在工业和精密操作领域具有重要应用价值。

机器人大讲堂

2025-11-07 10:25

物理世界的“通用翻译器”：NavFoM基座模型发布，机器人导航迎来统一框架

银河通用联合多所高校发布全球首个跨本体全域环视导航大模型NavFoM，该模型将视觉与语言导航、目标导向导航、视觉追踪及自主驾驶等任务整合到统一框架中。支持室内外场景零样本运行，无需额外建图，通过TVI Tokens和BATS策略增强时空理解与计算效率，适用于机器狗、无人机、汽车等多种机器人平台，标志着机器人导航领域的重大突破。

爱力方

2025-11-05 15:16

进化算法赋能：纳米定位机器人突破性能瓶颈，兼具超高刚度比与机械带宽

新加坡南洋理工大学研究团队在Nature子刊《Communications Engineering》发表创新成果，提出基于进化理念的纳米定位机器人设计方法。该方法通过傅里叶函数表征结构拓扑，结合运动学分析与智能进化算法，成功开发出XYθz纳米定位机器人，实现刚度比741-869、机械带宽123Hz、定位精度13nm的突破性性能，远超现有技术水平。

爱力方

2025-11-04 15:42

Nature正刊！ETH开发随声音运动的新型人造肌肉，为多个领域的发展提供新机会

苏黎世联邦理工学院团队在《Nature》正刊发表创新研究，开发出基于超声波微泡阵列的新型人造肌肉。这种人工肌肉通过超声控制微泡振荡产生动力，实现了软体机器人的多模态变形和无线驱动，在微型抓取、仿生机器人和生物医学等领域展现出广阔应用前景，为机器人产业升级提供了新技术支点。

机器人大讲堂

2025-11-03 11:59

仅用乐高组件，布里斯托大学团队造出拟人化机器手，实现12自由度抓取！

布里斯托大学研究团队仅使用乐高MINDSTORMS组件成功开发出拟人化机器人手Educational SoftHand-A，具备12个运动自由度。该设计采用肌腱驱动系统和模块化手指结构，通过两个电机实现自适应抓取功能，不仅简化了控制系统，还让中小学生能够通过动手实践理解机器人技术原理。

机器人大讲堂

2025-11-01 18:50

登上《SAGE Journals》！这款气动软肘外骨骼，让肌肉负担直降22%！

美国德克萨斯大学阿灵顿分校研发的气动软肘外骨骼(PASE)登上《SAGE Journals》，这款创新设备融合人体关节力学与一体式气动结构，通过硅胶执行器和碳纤维底板实现轻量化设计。实验证明该外骨骼能有效降低22%肌肉负担，特别适用于物料搬运、流水线作业等肘部高负荷场景，解决了传统刚性外骨骼舒适性差和软性外骨骼输出力不足的难题。

机器人大讲堂

2025-11-01 18:44

一套动作数据，如何成为所有人形机器人的「通用语言」？

人形机器人行业面临的数据孤岛问题，介绍了灏存科技提出的运动数据通用化解决方案。通过将人体动作转化为标准化数据，实现一套动作数据跨品牌适配不同灵巧手，有效解决了硬件参数碎片化、控制协议封闭等行业难题，为机器人规模化落地提供了关键技术路径。

机器人大讲堂

2025-11-01 18:41

最火VLA，看这一篇综述就够了

这篇综述全面解析了ICLR 2026爆火领域VLA（视觉-语言-动作）的最新进展。作者Moritz Reuss作为Apple AI/ML学者奖得主，系统阐述了VLA的核心概念、八大技术趋势，包括离散扩散模型、具身思维链、动作分词器等关键突破。文章还厘清了VLA与LBM的区别，帮助读者深入理解这一让机器人&#039;听懂人话、看懂世界、动手干活&#039;的前沿技术。

量子位

2025-11-01 18:38

清华陈建宇团队× 斯坦福Chelsea课题组推出 Ctrl-World 可控世界模型，让机器人在想象中迭代

清华大学陈建宇团队与斯坦福大学Chelsea Finn课题组联合推出可控生成世界模型Ctrl-World，该模型能让机器人在虚拟想象空间中进行任务预演和策略评估，无需真实世界数据即可大幅提升机器人操作成功率。通过多视角预测、细粒度动作控制和长时程动态维持三大创新技术，解决了传统世界模型的幻觉、控制不精细和一致性差等问题，将机器人策略在下游任务中的成功率从38.7%提升至83.4%。

机器人大讲堂

2025-10-31 11:09

为Transformer注入长期记忆：Memo框架通过“学会做摘要”解决具身智能核心挑战

牛津大学研究团队提出Memo框架，为Transformer模型注入长期记忆能力。该框架模仿人类笔记行为，让模型自主生成任务相关的摘要标记，通过动态记忆缓冲区存储和检索关键信息，解决了传统Transformer在长序列任务中的记忆限制问题。实验表明Memo在具身智能任务中性能优异，上下文标记减少8倍，同时保持强大的长时域推理能力。

机器人大讲堂

2025-10-30 11:58

1 ...15 16 17 18 19 20

通知

尊敬的用户

user

资讯

Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”