摩尔线程发布URPO框架:大模型训练新范式获AAAI 2026认可
2025年11月14日 15:35
本文共计640个字,预计阅读时长3分钟。
来源/互联网
责编/爱力方
AAAI2026的官方议程中出现了一个来自中国的技术坐标。摩尔线程AI研究团队提交的URPO框架论文,将"统一奖励与策略优化"这一概念首次引入大语言模型训练体系。
《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》论文摘要显示,传统训练流程中的指令遵循模块与奖励评判模块被整合进单一模型架构。模型在生成回答的同时完成自我评分,两个原本分离的优化目标开始共享同一组参数。
数据格式的统一化处理成为首个技术突破。偏好数据、可验证推理数据与开放式指令数据被转化为标准化的GRPO训练信号。 自我奖励循环机制随后启动。模型生成的候选回答经过自主评分后,直接转化为GRPO训练的奖励信号。 三类数据的混合训练最终形成协同进化。模型生成能力与评判能力的提升曲线开始出现正相关。
Qwen2.5-7B模型在URPO框架下的测试数据呈现明确趋势。AlpacaEval指令跟随榜单得分从基准线跃升至44.84。综合推理测试平均分由32.66提升至35.66。 RewardBench奖励模型评测出现反常数据:URPO模型的85.15分超越了专用奖励模型的83.55分。这个结果挑战了"专模专用"的传统认知。
摩尔线程自研计算卡的运行日志显示,URPO框架已完成与VERL强化学习框架的深度适配。训练效率提升曲线与能耗下降曲线在第三轮迭代后出现交叉点。 AAAI2026程序委员会将这场报告安排在"下一代训练范式"专题会场。
声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。