腾讯混元图像3.0开源,800亿参数引领AI创作新纪元

腾讯混元图像3.0开源,800亿参数引领AI创作新纪元

腾讯混元团队正式开源全球最强开源图生图模型——混元图像3.0,拥有800亿参数,采用混合专家架构,在LMArena榜单中位列第一梯队。模型通过‘先思考,后编辑’的核心技术,深度融合文本与视觉理解,支持增删改、风格变换、老照片修复等多种编辑功能,适用于从普通用户到专业设计师的广泛场景。

2026-01-28 16:50
88
0

Mistral AI发布Vibe 2.0 终端编程助手进入子代理时代

Mistral AI发布Vibe 2.0 终端编程助手进入子代理时代

Mistral AI 发布 Vibe 2.0 终端编程助手,由 Devstral2 模型驱动,核心升级为多代理编排能力。它支持多文件协同和自定义子代理分工协作,显著提升复杂项目开发效率,并新增终端斜杠命令优化操作体验。该版本采用订阅制,提供企业级定制服务,标志着 AI 辅助编程进入高度自动化的代码编排新阶段。

2026-01-28 16:33
0
0

LingBot-VLA引领具身模型从无序走向有序竞争

LingBot-VLA引领具身模型从无序走向有序竞争

本文探讨了具身智能领域面临的评测标准缺失问题,指出无序竞争阻碍了技术工程化落地。通过分析上海交通大学发布的GM-100评测基准和蚂蚁LingBot-VLA的表现,文章强调了标准化评测对推动行业有序发展、驱散泡沫质疑的关键作用,为具身模型从乱象走向高质量发展提供了清晰路径。

2026-01-28 16:24
0
0

Mistral AI推出Vibe 2.0编程助手,新增自定义子代理功能

Mistral AI推出Vibe 2.0编程助手,新增自定义子代理功能

Mistral AI 发布终端编程助手 Vibe 2.0,由 Devstral 2 模型驱动,提供强大的代码编排能力,支持全代码库上下文感知和自定义子代理功能,可分工处理测试、代码审查等任务。新版本优化交互逻辑,增加指令澄清机制和斜杠命令,提升开发效率,现已集成在付费订阅计划中。

2026-01-28 11:53
0
0

北大团队首创电感知SLAM技术 机器人水下不再“睁眼瞎”

北大团队首创电感知SLAM技术 机器人水下不再“睁眼瞎”

北京大学谢广明教授团队在IJRR发表创新研究成果,提出基于电感知的Electro-SLAM系统,为水下机器人在黑暗、浑浊等极端环境下提供全新的定位与建图解决方案。该系统仿生弱电鱼感知机制,结合主动与被动电感知,实现了单机与多机协同的高精度SLAM,显著提升水下自主作业能力。

机器人大讲堂 2026-01-27 18:05
0
0

蚂蚁开源LingBot-Depth模型 提升机器人抓取透明反光物精度

蚂蚁开源LingBot-Depth模型 提升机器人抓取透明反光物精度

蚂蚁集团旗下灵波科技开源高精度空间感知模型LingBot-Depth,该模型基于奥比中光Gemini330系列双目3D相机,通过创新的掩码深度建模技术,有效解决机器人对透明、反光物体的深度感知难题。在权威评测中性能显著优于主流模型,能大幅提升三维视觉的精准度和可靠性,推动具身智能与机器人技术的发展。

2026-01-27 14:45
0
0

MiniMax M2.1赋能Clawdbot 全天候开源AI助手时代来临

MiniMax M2.1赋能Clawdbot 全天候开源AI助手时代来临

Clawdbot开源AI助手在接入MiniMax M2.1模型后,凭借出色的全栈任务处理能力和极低成本,实现了24小时持续运行的智能工作流。它能自动处理报价比较、邮件跟进、技术监控等复杂任务,并通过聊天软件跨平台控制,预示着未来与工具交互将更多通过编程式智能体完成。

2026-01-26 17:58
4510
0

Mistral CEO指DeepSeek借鉴架构 技术圈热议谁师从谁

Mistral CEO指DeepSeek借鉴架构 技术圈热议谁师从谁

Mistral CEO Arthur Mensch 声称中国开源模型 DeepSeek-V3 基于其架构,引发技术圈关于创新与借鉴的激烈讨论。文章深入分析了两者论文发布时间、架构设计差异以及技术反转现象,揭示了全球AI实验室在快速迭代中的竞争焦虑与开源精神的本质。

2026-01-26 16:16
0
0

PI VLA模型解读:从π0.6到人机技能迁移的涌现

PI VLA模型解读:从π0.6到人机技能迁移的涌现

本文是PI VLA模型解读系列的第三篇,重点介绍了Physical Intelligence发布的具身智能VLA模型π0.6的架构设计、训练数据及改进点,并探讨了其引入的RECAP方法以及观察到的人机技能迁移涌现现象,展现了模型在机器人操作任务中性能的显著提升。

2026-01-26 16:16
0
0

上海交大发布Optics GPT 物理世界迎来数字光脑

上海交大发布Optics GPT 物理世界迎来数字光脑

上海交通大学发布光领域垂直大模型Optics GPT,标志着我国在‘AI+硬科技’交叉融合领域的重要突破。该模型专注于光学专业知识,在基础理论、前沿技术和工程应用等六大核心方向上表现优异,支持轻量化部署和高可靠性应用,为光学研发提供了智能化的‘数字大脑’,重塑行业研发范式。

2026-01-26 14:01
0
0

IEEE TRO从《沙丘》走进现实:清华团队研发“沙虫”机器人感知地下世界

IEEE TRO从《沙丘》走进现实:清华团队研发“沙虫”机器人感知地下世界

清华大学深圳国际研究生院SSR团队受《沙丘》沙虫启发,研发出SandWorm仿生沙虫机器人,能够主动利用振动感知地下环境。该机器人采用螺旋推进和蠕动驱动相结合的方式,有效穿越颗粒介质,并搭载创新的SWTac主动振动触觉传感器,将振动从干扰转化为感知工具,解决了地下探索中'看不见、摸不准、走不动'的难题,相关成果已被IEEE TRO接收。

2026-01-24 20:00
0
0

谷歌DeepMind发布D4RT 赋予AI四维视觉能力

谷歌DeepMind发布D4RT 赋予AI四维视觉能力

Google DeepMind推出革命性AI模型D4RT,通过融合三维空间与时间维度,赋予AI穿透时空的四维视觉能力。该模型采用统一架构,能实时追踪动态场景、重建3D结构并预测物体运动轨迹,运行速度比现有技术快18到300倍,为机器人导航、增强现实等领域带来突破性进展。

2026-01-23 17:10
0
0

Agentation发布,AI编程实现精准导航

Agentation发布,AI编程实现精准导航

Agentation是一款革新性的开发工具,通过将代理与标注深度融合,为AI编码助手提供精准的网页元素定位能力。它能瞬间抓取元素的类名、CSS选择器和空间位置,将模糊的自然语言描述转化为结构化的代码地图,让AI助手如Claude Code、Cursor等直接定位到源文件,极大提升了UI调整和Bug修复的效率。工具设计轻量、中立,支持动态交互场景,重新定义了开发者与AI的协作方式。

2026-01-23 13:58
0
0

阿里通义千问开源Qwen3-TTS:97ms超低延迟 3秒克隆音色 改变实时AI语音格局

阿里通义千问开源Qwen3-TTS:97ms超低延迟 3秒克隆音色 改变实时AI语音格局

阿里通义千问团队开源Qwen3-TTS语音合成模型,采用端到端架构实现97ms超低延迟,支持3秒音色克隆和跨语言迁移,并能通过自然语言指令设计全新音色。该模型提供1.7B和0.6B双版本,适用于实时交互、多语言内容创作等场景,大幅降低AI语音应用门槛。

2026-01-23 13:57
35
0

北大团队研发新型模拟计算芯片,能效比提升228倍突破AI算力能耗瓶颈

北大团队研发新型模拟计算芯片,能效比提升228倍突破AI算力能耗瓶颈

北京大学团队成功研发出一款专为“非负矩阵分解”设计的模拟计算芯片,突破AI算力能耗瓶颈。该芯片利用物理规律进行并行运算,在图像压缩和推荐系统等场景中,计算速度提升约12倍,能效比暴增228倍,为海量数据处理提供了高效低功耗的新路径。

2026-01-23 11:28
0
0