北大发布ManualVLA模型 长程精细任务成功率显著提升
北京大学联合团队提出的ManualVLA模型,通过创新的双专家架构和手册链式思维机制,显著提升了机器人在乐高组装、物体重排等长程精细任务中的规划与执行能力,平均成功率比现有最佳方案高出32%。
AI编程工具Windsurf Wave13发布 SWE-1.5模型限免
Windsurf AI编程工具发布Wave13版本,核心升级包括默认启用高性能SWE-1.5模型并限时免费开放,引入并行智能体技术实现多任务协同开发,以及优化交互体验如并排视图和专用终端。这些改进旨在提升复杂代码处理效率和团队协作流畅度。
输入脚本秒生视频 字节开源StoryMem解决AI角色变脸问题
字节跳动与南洋理工大学联合开源StoryMem框架,通过创新的视觉记忆机制,将单镜头视频扩散模型转化为多镜头长视频故事讲述者。该框架能根据分镜脚本自动生成超过1分钟、角色与场景高度连贯的叙事视频,有效解决AI视频生成中的角色“变脸”和场景跳变问题,适用于广告、影视预制作和短视频创作等领域。
机器人治疗自闭症效果显著 临床试验132名儿童验证眼神微笑优势
最新发表在《Science Robotics》的研究通过两项随机对照试验,首次提供了机器人辅助治疗自闭症的高质量临床证据。研究发现,机器人治疗师在提升自闭症儿童核心社交技能方面与传统疗法效果相当,同时能显著增加孩子的眼神注视时间和自发微笑频率,有效解决传统疗法中孩子容易失去兴趣的瓶颈问题。
NVIDIA推出NitroGen:游戏代理视觉行动新突破
NVIDIA推出NitroGen视觉行动基础模型,能够从网络游戏视频中直接学习操作,覆盖超过1000款游戏。该模型经过4万小时训练,配备通用模拟器和预训练策略,在新游戏中表现提升显著,零-shot评估任务完成率达45%-60%。
视频AI应用几分钟即可搭建 开源框架VideoPipe简化CV开发
VideoPipe是一款开源视频分析框架,通过创新的管道架构让开发者像搭积木一样快速构建视频AI应用。它支持多源视频流输入、多样化推理引擎,并覆盖从拉流到推流的完整处理链路,极大降低了计算机视觉应用的开发门槛和落地周期。
智谱GLM-4.7编程大赛夺冠,引领开源AI新方向
智谱GLM-4.7模型在WebDev编程榜单上超越GPT-5.2,成为开源大模型第一,被誉为Claude Code最佳平替。文章详细介绍了其技术优势,包括后训练优化、多语言编码支持及在消费级显卡上的高效运行,同时宣布开源Slime框架,展现了国产AI模型的国际竞争力。
石智航WIYH数据集开源,全球首款具身VLTA多模态数据加速智能落地
它石智航开源全球首个具身VLTA多模态数据集WIYH,通过Human-centric采集范式破解真实世界数据难题,包含超10万条人类操作视频、40余种任务类型,覆盖多行业场景,为具身智能提供高质量训练数据,加速机器人技术落地。
Liquid AI发布LFM2-2.6B-Exp实验模型 性能超越百亿级巨兽
Liquid AI发布仅2.6B参数的实验性模型LFM2-2.6B-Exp,该模型通过纯强化学习优化,在指令跟随、知识问答和数学推理等基准测试中表现卓越,甚至超越数百亿参数的大型模型。专为边缘设备设计,支持高效本地部署,已完全开源,加速高性能AI向设备端普及。
开源浏览器操控工具发布 1美元可执行200任务
BrowserUse发布开源大模型BU-30B-A3B-Preview,采用MoE架构实现高效浏览器自动化。该模型具备卓越的DOM理解和视觉推理能力,支持多模态输入,每1美元可完成约200个任务,大幅降低AI网页操作成本。开发者可免费获取并集成,加速Web Agent生态发展。
北京发布开源生态三年行动方案 2028年前培育10个国际顶级开源项目 AI大模型落地目标达100个
北京市发布开源生态三年行动方案,计划到2028年培育10个国际顶级开源项目、30个国内明星开源项目,并推动100个行业大模型规模化落地。方案聚焦AI领域,强调构建从政策、平台到人才、资本的全链条支撑体系,旨在将北京打造为全球领先的开源创新高地,推动中国在全球AI治理与技术标准竞争中占据主动。
原力灵机发布GeoVLA框架 机器人3D视觉实现突破
原力灵机推出GeoVLA框架,通过创新的双流架构解决传统VLA模型的空间失明问题。该框架结合语义理解、几何感知和动作生成,赋予机器人真正的3D视觉能力,在仿真和真实环境测试中均表现出卓越的性能和鲁棒性。
清华开源TurboDiffusion 实现AI视频秒级生成 提速最高200倍
清华大学TSAIL实验室与生数科技联合推出开源视频生成加速框架TurboDiffusion,通过集成SageAttention、稀疏线性注意力机制和时间步蒸馏技术,在保证视频质量的同时将AI视频生成速度提升100-200倍。实测显示,在RTX5090显卡上生成5秒视频仅需1.9秒,大幅降低了计算延迟和算力需求。该框架已开源并提供多种优化方案,适配消费级和工业级显卡,助力个人创作者与企业提升视频生产效率。
字节发布Seed新模型 数学竞赛夺金展推理实力
字节跳动Seed AI团队发布数学推理模型Seed Prover1.5,该模型在国际数学奥林匹克竞赛中获得金牌,仅用16.5小时解决IMO2025前五题,成绩与谷歌Gemini并驾齐驱。模型通过大规模强化学习、Agentic Prover和Sketch Model等创新技术,将证明成功率提升至近90%,并在北美数学竞赛中刷新纪录,标志着AI推理能力迈入新阶段。
清华开源TurboDiffusion,AI视频生成提速200倍,消费级显卡可秒出大片
清华大学TSAIL实验室与生数科技联合开源TurboDiffusion框架,将AI视频扩散模型的推理速度提升100-200倍,实现从分钟级到秒级的实时生成。该技术通过8位量化、稀疏线性注意力等优化,在消费级显卡上也能流畅运行,大幅降低硬件门槛,推动AI视频创作进入新纪元。