资讯
李飞飞World Labs放大招!Marble 3D世界模型公测,文本/图片秒变可交互虚拟宇宙
李飞飞World Labs推出Marble 3D世界模型公测版,支持从文本、图像、视频等多模态输入直接生成完整可交互的3D虚拟世界。用户可实时编辑导航,10分钟内创建风格多样的沉浸式环境,并导出高斯溅射、三角网格等多种格式。这一突破性工具将重塑游戏开发、VR/影视制作和AI训练等领域,推动从2D生成向3D空间智能的跨越。
中国科学院团队打造3D手型微纳机器人——“手到擒来”的微观“快递员”
中国科学院理化技术研究所研发出仅40微米大小的3D手型微纳机器人,采用飞秒激光直写技术制造,由pH响应模块和磁驱动模块组成。这款微观'快递员'能精准抓取、运输和释放细胞及微颗粒,最高移动速度达每秒65.56微米,在精准医疗、环境修复等领域具有广阔应用前景,为微观世界操作开辟了新路径。
宇树推出首款轮式人形机器人 G1-D,可选配移动底盘
宇树科技推出首款轮式人形机器人G1-D,配备完整的数据采集与模型训练解决方案。该机器人身高1260-1680mm,配备高清双目相机,可选配移动底盘实现≤1.5m/s移动速度。支持17-19个自由度,单臂负载3kg,可选多种灵巧手配置,搭载英伟达Jetson Orin模组,续航达6小时,适用于多种工业与科研场景。
文心大模型5.0重磅发布!百度推全球首个“原生全模态”大模型,李彦宏:智能本身就是最大应用
百度在2024世界大会上正式发布文心大模型5.0,这是全球首个'原生全模态'大模型,实现了文本、图像、语音的底层统一表征与联合训练。该模型能自然处理跨模态复杂任务,推理效率和泛化性能显著提升。李彦宏强调'智能本身就是最大应用',文心5.0将通过千帆平台开放给开发者,并深度集成到百度全系产品中,推动AI像水电一样无处不在。
宇树科技重磅发布G1-D:集采集、训练、部署于一身的人形机器人工作站
宇树科技发布G1-D人形机器人工作站,这是一套集数据采集、处理、标注、模型训练与部署于一体的全栈解决方案。以轮式人形机器人G1-D为核心,配备多高清相机,支持0-2米垂直作业空间和最高1.5m/s移动速度,全面兼容主流开源框架,大幅提升人形机器人AI模型研发效率,推动行业向'硬件+数据+AI'生态平台转型。
东北大学开源多语言翻译“核弹”!NiuTrans.LMT支持60语种234方向,低资源语言翻译重大突破
东北大学小牛翻译团队开源NiuTrans.LMT多语言翻译大模型,支持60种语言234个翻译方向,采用中英双中心架构打破英语霸权,特别在29种低资源语言翻译上取得重大突破。模型通过两阶段训练在FLORES-200基准测试中表现卓越,提供0.6B至8B四种参数规模,满足从移动端到企业级的多样化部署需求。
视频生成可控性再升级!可灵2.5Turbo模型上线“首尾帧”功能
可灵2.5Turbo模型全新上线首尾帧功能,显著提升AI视频生成的可控性、稳定性和一致性。该模型在动态效果、文本响应精度、风格保持能力和美学效果等方面均有显著优化,为影视制作、短剧创作、游戏开发、动画制作及广告营销等专业创意领域提供更优质的解决方案。
解锁人形机器人灵巧操作智能—— 视触觉传感器或许是关键钥匙
本文探讨了视触觉传感器在人形机器人灵巧操作中的关键作用。文章指出当前机器人在精细操作上面临的触觉感知瓶颈,详细介绍了视触觉传感器的工作原理、系统构成和核心优势。通过将触觉信息转换为高分辨率视觉信号,这种传感器能同步感知力、纹理、滑动等多维信息,为机器人实现非结构化抓取和灵巧操作提供重要技术支撑。
清华等联合发布UltraRAG 2.1!全球首个基于MCP架构的多模态RAG框架,YAML文件即可构建智能检索系统
清华大学等机构联合发布UltraRAG 2.1,这是全球首个基于MCP架构的开源多模态RAG框架。该框架通过简单的YAML配置文件即可构建智能检索系统,无需编写代码,大幅降低技术门槛。支持文本、图像、PDF等多模态数据处理,内置检索-生成-评估一体化流水线,提供全链路可视化工作流和标准化评估体系,适用于企业知识库构建和科研分析等场景。
Science Robotics 顶刊综述:Learning-based 动力学模型,如何破解机器人复杂操作难题?
本文基于Science Robotics综述文章,系统探讨了学习型动力学模型(LBDMs)如何帮助机器人掌握复杂操作能力。文章分析了感知、动力学和控制三大核心模块,介绍了从像素级到潜变量等五种状态表示方法,揭示了机器人如何通过数据驱动方式学习物理直觉,实现从‘看-想-动’的完整闭环,为解决机器人复杂操作难题提供了新思路。
字节发布InfinityStar框架:视频生成效率提升至58秒
字节跳动推出InfinityStar框架,将5秒720p视频生成时间缩短至仅58秒,显著提升视频生成效率。该框架采用时空金字塔模型,有效解耦外观与运动信息,提高生成质量,并通过知识继承策略降低训练成本。支持图像生成、文本生成视频等多种视觉任务,标志着视觉生成技术的重要进步。
万华化学发布新专利:打造更真实的人形机器人“皮肤”
万华化学集团获得发明专利授权,推出新型高回弹、低熔点热塑性聚氨酯弹性体材料。该材料采用特殊扩链剂体系,兼具橡胶般高弹性和低熔点特性,300%应变下形变恢复率超过95%,熔融温度仅85-120℃。适用于人形机器人皮肤制造,提供柔软触感、优异回弹性和良好粘接性能,相比传统硅胶材料更具加工优势和力学性能。
AI教师“会画图”了!ChatTutor上线,边讲边画、实时推演,教学效果直逼真人名师
ChatTutor全新AI教师系统突破传统文字输出局限,通过实时同步画板实现边讲解边绘制的可视化教学体验。系统覆盖数学、物理、编程等多学科场景,支持函数图像绘制、物理实验模拟、代码逐行教学等功能,教学逻辑清晰度媲美真人教师。这一创新将AI教育从信息检索工具升级为认知协作伙伴,显著降低知识获取门槛。
1段演示=千次练习?李飞飞团队提出MOMAGEN框架破解机器人做家务难题!
斯坦福李飞飞团队与德州大学奥斯汀分校合作提出MOMAGEN框架,通过约束优化技术仅需1段人类演示就能生成大规模多样化训练数据,解决了双臂移动机器人学习复杂家务技能时面临的数据采集成本高、移动操作适配难等核心难题。该框架通过硬约束确保机器人可达性和可见性,软约束提升操作质量,让机器人低成本掌握整理餐桌、清洁平底锅等复杂家务任务。
清华团队开源DISCOVERSE框架:用3D高斯渲染打通机器人仿真到现实的“最后一公里”!
清华大学联合多所高校推出DISCOVERSE开源仿真框架,首次将3D高斯渲染器、MuJoCo物理引擎和控制接口整合到统一架构中。该框架通过激光扫描+3D高斯重建和DiffusionLight光照模型,解决了传统机器人仿真在视觉保真度、几何重建和兼容性方面的三大痛点,有效缩小了仿真与现实的差距,为机器人学习提供了更真实的训练环境。