清华等联合发布UltraRAG 2.1!全球首个基于MCP架构的多模态RAG框架,YAML文件即可构建智能检索系统

清华等联合发布UltraRAG 2.1!全球首个基于MCP架构的多模态RAG框架,YAML文件即可构建智能检索系统

清华大学等机构联合发布UltraRAG 2.1,这是全球首个基于MCP架构的开源多模态RAG框架。该框架通过简单的YAML配置文件即可构建智能检索系统,无需编写代码,大幅降低技术门槛。支持文本、图像、PDF等多模态数据处理,内置检索-生成-评估一体化流水线,提供全链路可视化工作流和标准化评估体系,适用于企业知识库构建和科研分析等场景。

0
0

Science Robotics 顶刊综述:Learning-based 动力学模型,如何破解机器人复杂操作难题?

Science Robotics 顶刊综述:Learning-based 动力学模型,如何破解机器人复杂操作难题?

本文基于Science Robotics综述文章,系统探讨了学习型动力学模型(LBDMs)如何帮助机器人掌握复杂操作能力。文章分析了感知、动力学和控制三大核心模块,介绍了从像素级到潜变量等五种状态表示方法,揭示了机器人如何通过数据驱动方式学习物理直觉,实现从‘看-想-动’的完整闭环,为解决机器人复杂操作难题提供了新思路。

0
0

字节发布InfinityStar框架:视频生成效率提升至58秒

字节发布InfinityStar框架:视频生成效率提升至58秒

字节跳动推出InfinityStar框架,将5秒720p视频生成时间缩短至仅58秒,显著提升视频生成效率。该框架采用时空金字塔模型,有效解耦外观与运动信息,提高生成质量,并通过知识继承策略降低训练成本。支持图像生成、文本生成视频等多种视觉任务,标志着视觉生成技术的重要进步。

0
0

万华化学发布新专利:打造更真实的人形机器人“皮肤”

万华化学发布新专利:打造更真实的人形机器人“皮肤”

万华化学集团获得发明专利授权,推出新型高回弹、低熔点热塑性聚氨酯弹性体材料。该材料采用特殊扩链剂体系,兼具橡胶般高弹性和低熔点特性,300%应变下形变恢复率超过95%,熔融温度仅85-120℃。适用于人形机器人皮肤制造,提供柔软触感、优异回弹性和良好粘接性能,相比传统硅胶材料更具加工优势和力学性能。

0
0

AI教师“会画图”了!ChatTutor上线,边讲边画、实时推演,教学效果直逼真人名师

AI教师“会画图”了!ChatTutor上线,边讲边画、实时推演,教学效果直逼真人名师

ChatTutor全新AI教师系统突破传统文字输出局限,通过实时同步画板实现边讲解边绘制的可视化教学体验。系统覆盖数学、物理、编程等多学科场景,支持函数图像绘制、物理实验模拟、代码逐行教学等功能,教学逻辑清晰度媲美真人教师。这一创新将AI教育从信息检索工具升级为认知协作伙伴,显著降低知识获取门槛。

29
0

1段演示=千次练习?李飞飞团队提出MOMAGEN框架破解机器人做家务难题!

1段演示=千次练习?李飞飞团队提出MOMAGEN框架破解机器人做家务难题!

斯坦福李飞飞团队与德州大学奥斯汀分校合作提出MOMAGEN框架,通过约束优化技术仅需1段人类演示就能生成大规模多样化训练数据,解决了双臂移动机器人学习复杂家务技能时面临的数据采集成本高、移动操作适配难等核心难题。该框架通过硬约束确保机器人可达性和可见性,软约束提升操作质量,让机器人低成本掌握整理餐桌、清洁平底锅等复杂家务任务。

0
0

清华团队开源DISCOVERSE框架:用3D高斯渲染打通机器人仿真到现实的“最后一公里”!

清华团队开源DISCOVERSE框架:用3D高斯渲染打通机器人仿真到现实的“最后一公里”!

清华大学联合多所高校推出DISCOVERSE开源仿真框架,首次将3D高斯渲染器、MuJoCo物理引擎和控制接口整合到统一架构中。该框架通过激光扫描+3D高斯重建和DiffusionLight光照模型,解决了传统机器人仿真在视觉保真度、几何重建和兼容性方面的三大痛点,有效缩小了仿真与现实的差距,为机器人学习提供了更真实的训练环境。

机器人大讲堂
0
0

Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”

Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”

StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,首次将语音编辑转化为类似文本标记级别的可控操作。该模型通过双码本分词架构和大间隔学习技术,实现情感、语调、风格及副语言特征的精准编辑,在中文情感准确率上从57.0%提升至77.7%。项目全栈开源,大幅降低语音编辑研究门槛,让开发者能像编辑文本一样直观操作语音。

0
0

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI发布开源音频编辑模型Step-Audio-EditX,这是一个3B参数的创新模型,将音频编辑转化为类似文本编辑的直观操作。通过双代码本标记器和混合语料库训练,模型实现了对语音情感、风格和音色的精确控制。采用大边距学习和强化学习技术,在Step-Audio-Edit-Test基准测试中展现出卓越的编辑效果,还能提升其他TTS系统的音频质量。

0
0

Hume AI语音转换功能上线,单次捕捉完美复刻你的“声音灵魂”

Hume AI语音转换功能上线,单次捕捉完美复刻你的“声音灵魂”

Hume AI推出革命性语音转换功能,仅需一次录音即可完美复刻用户的声音特征,包括节奏、发音和语调。该功能支持11种语言,可应用于200K+自定义声音库,实现跨语言、跨性别的自然语音转换。通过创作工作室和API双平台,为内容创作、游戏开发和全球本地化提供高效解决方案,标志着语音AI从机械朗读向情感共鸣的跨越。

0
0

具身智能进入“数据”争夺战:一场关于“场景数据”的圈地运动大幕开启

具身智能进入“数据”争夺战:一场关于“场景数据”的圈地运动大幕开启

具身智能领域正在兴起的场景数据争夺战。随着机器人技术门槛降低,专属场景数据成为企业核心竞争力。文章分析了专属场景数据的不可替代性、采集成本与壁垒,以及物理对齐价值,并介绍了主流玩家的三种数据飞轮模式,揭示了数据资产化对机器人产业格局的重塑作用。

0
0

丰田的“机械山羊”:当轮椅长出四条腿,个人出行的终极形态出现了?

丰田的“机械山羊”:当轮椅长出四条腿,个人出行的终极形态出现了?

丰田在移动出行展上展示了Walk Me四足机器椅,这款创新产品结合仿生学与机器人技术,能够爬楼梯、跪地、跨越障碍物并自动导航。灵感来自山羊的移动方式,机械腿运动自然流畅。椅子支持30秒折叠成行李箱大小,配备语音控制和自动避障功能,专为解决日常移动障碍设计,内置多重安全机制确保使用安全。

爱力方
0
0

告别机器人“手残”!中国团队研发六自由度机械臂 GL-Robot ,能捏鸡蛋还能举哑铃!

告别机器人“手残”!中国团队研发六自由度机械臂 GL-Robot ,能捏鸡蛋还能举哑铃!

中国浙江大学团队研发的GL-Robot六自由度机械臂,通过创新的堆叠四连杆机构和AI驱动的电流感知技术,实现了从捏鸡蛋到举哑铃的宽范围力控制。这款双指机械臂具备自适应抓取模式切换能力,无需专用传感器即可精确感知力度,解决了机器人抓取中力量与精细控制的长期矛盾,在工业和精密操作领域具有重要应用价值。

机器人大讲堂
0
0

物理世界的“通用翻译器”:NavFoM基座模型发布,机器人导航迎来统一框架

物理世界的“通用翻译器”:NavFoM基座模型发布,机器人导航迎来统一框架

银河通用联合多所高校发布全球首个跨本体全域环视导航大模型NavFoM,该模型将视觉与语言导航、目标导向导航、视觉追踪及自主驾驶等任务整合到统一框架中。支持室内外场景零样本运行,无需额外建图,通过TVI Tokens和BATS策略增强时空理解与计算效率,适用于机器狗、无人机、汽车等多种机器人平台,标志着机器人导航领域的重大突破。

爱力方
10
0

进化算法赋能:纳米定位机器人突破性能瓶颈,兼具超高刚度比与机械带宽

进化算法赋能:纳米定位机器人突破性能瓶颈,兼具超高刚度比与机械带宽

新加坡南洋理工大学研究团队在Nature子刊《Communications Engineering》发表创新成果,提出基于进化理念的纳米定位机器人设计方法。该方法通过傅里叶函数表征结构拓扑,结合运动学分析与智能进化算法,成功开发出XYθz纳米定位机器人,实现刚度比741-869、机械带宽123Hz、定位精度13nm的突破性性能,远超现有技术水平。

爱力方
23
0