资讯
UT Dallas与Nvidia开源HO-Cap方案 含65万帧高质量数据
UT Dallas与Nvidia联合推出HO-Cap方案,通过低成本RGB-D相机和AR头显,结合半自动化AI标注流水线,实现了高精度手-物交互数据采集。配套开源数据集包含65.6万帧RGB-D图像,覆盖64个日常物体和多种交互场景,大幅降低人机交互、VR/AR和机器人操作研究门槛。
GPT-5.1-CodexMax上线 最强编码模型开放API接口
OpenAI宣布其最新最强的编码模型GPT-5.1-CodexMax现已全面接入响应API,开发者可立即将其整合到应用和工作流中。该模型在复杂任务分解、代码生成质量和自主执行方面表现卓越,旨在降低高性能AI编程能力的门槛,为各类产品提供智能编程助手体验。
阿里开源Qwen3-VL,攻克长视频分析难题,引领多模态技术突破
阿里巴巴开源了新一代视觉-语言大模型Qwen3-VL,在长视频分析领域取得重大突破。该模型在长达2小时的视频中能保持99.5%的关键帧定位准确率,解决了长时序理解的核心难题。同时,在视觉数学和多语言文档处理等专项任务上也达到业界领先水平,为视频分析、智能剪辑等应用提供了自主可控的解决方案。
DeepSeek连发两款新模型 V3.2正式版与Speciale同步上线
DeepSeek于12月4日无预警发布两款重磅新模型:DeepSeek-V3.2正式版与极致推理版DeepSeek-V3.2-Speciale。V3.2首次实现“思考过程”与“工具调用”深度融合,在智能体评测中登顶开源第一;Speciale版本则专注于极限推理能力,在复杂任务中表现卓越。两款模型已全平台无缝上线,用户可即时体验。
大晓机器人亮相,首席科学家领衔打造国内首款开源商用世界模型
大晓机器人将于12月18日正式亮相,发布包括全球首创ACE技术范式及国内首个开源且商业落地的‘开悟’世界模型3.0在内的多项领先技术。公司由商汤科技联合创始人王晓刚出任董事长,AI科学家陶大程担任首席科学家,旨在构建自主可控的具身智能产业体系,并推出具身超级大脑模组A1,推动在安防、巡检等场景的规模化商业应用。
OpenAI推出AI忏悔框架 训练模型承认不当行为提升诚实度
OpenAI推出名为“忏悔”的创新AI训练框架,旨在引导大型语言模型坦诚承认不当行为或问题决策。该机制通过二次回应评估模型诚实度,鼓励其说明行为过程,即使涉及作弊或违反指令。此举旨在提升AI透明度与可靠性,相关技术文档已公开。
亚马逊Nova 2模型家族发布,技术性能全面领先
亚马逊在2025年re:Invent大会上发布了全新的Nova 2模型家族,包括Nova2Lite、Nova2Pro等四款模型。该系列在推理、多模态处理、代码生成和Agent任务方面展现出领先的价格性能比,并在多项基准测试中与Claude、GPT-5、Gemini等顶尖模型持平或更优。新模型还支持实时网页查找和代码执行,确保信息的准确性和时效性。
人形机器人跑动作业兼顾,稳如老狗的秘密
本文介绍了佐治亚理工学院与清华大学研究团队提出的SEEC稳定末端执行器控制框架,该框架成功解决了人形机器人在动态行走时难以保持精准操作的核心难题。通过模型增强残差学习、扰动生成策略和模块化设计,SEEC让机器人能够在行走中稳定执行端盘、握持等任务,性能超越传统方法,实现了移动与操作的高效解耦与零样本适配。
亚马逊推出Nova Forge 企业可早期注入数据定制专属模型
亚马逊在re:Invent2025大会上发布Nova Forge服务,允许企业在Nova模型训练周期的任意阶段深度注入专有数据,打造既保留前沿推理能力又深刻理解业务语境的专属“Novellas”模型,解决了企业知识融合的长期难题。
千问APP升级学习大模型 拍照答疑更精准
千问APP推出基于Qwen3训练的全新学习大模型Qwen3-Learning,具备拍照答疑、跨文化多语言解题、作业批改等功能,覆盖从小学到高中的全学科,支持印刷体和手写体识别。同时,APP还提供免费的Qwen-Image模型和万相视频生成模型,自公测以来下载量已突破1000万,展现了AI在教育领域的创新应用和巨大潜力。
商汤开源NEO架构:数据量锐减九成,多模态模型性能仍领先
商汤科技联合南洋理工大学S-Lab发布原生多模态架构NEO,通过全新设计实现像素到Token的连续映射,数据需求仅为业界平均的1/10,在多个基准测试中取得SOTA性能,并开源模型权重与训练脚本。
武大推出RGMP框架 泛化成功率87% 数据效率提升5倍
武汉大学团队提出RGMP框架,将几何语义技能推理与视觉运动控制相结合,显著提升人形机器人的环境适应能力。该框架在泛化测试中成功率高达87%,数据效率较现有最优模型提升5倍,为低成本、高效率的机器人训练提供了创新解决方案。
DeepSeek双模型重磅开源 长文本与深度思考能力再突破
DeepSeek发布V3.2双模型,标准版在128k上下文场景下与GPT-5互有胜负,深度思考版在多项基准测试中与Gemini3Pro打平。核心升级转正稀疏注意力(DSA)将长文本计算复杂度降至线性,显存占用下降40%,推理速度提升2.2倍,首次实现开源模型百万token单卡推理。模型已开源并允许商业化,下一步将开源DSA内核与RL训练框架,推动开源阵营在长文本与推理能力上冲击领先地位。
Mistral AI推出Mistral 3开源模型:128K上下文、单A100运行,价格仅为GPT-4o一半
Mistral AI发布Mistral 3系列开源模型,包括3B、8B、14B及最强的Mistral Large3,支持128K上下文长度,在单张A100上即可运行。新模型在性能基准测试中与Llama3.1相当,定价仅为GPT-4o的一半,旨在为开发者和企业提供高性价比的AI解决方案。
登顶T-RO!清华仿生“海龟”机器人,实现水陆动态环境全自主适应
清华大学研发出智能仿生两栖龟形机器人IBATR,能通过视觉-触觉融合感知系统以99.17%的准确率识别地形,并自主切换步态,实现水陆动态环境的全自主适应。该机器人采用轻量化设计,结合贝叶斯优化算法,在复杂海岸带等场景展现出高机动性与强稳定性,相关成果发表于国际顶级期刊。