一场安静的“地震”,发生在人工智能领域最前沿的评测基准之上。
在最新的ARC-AGI2评测中,一个名不见经-传的、仅有40亿参数的小型模型——英伟达的NVARC——以27.64%的成绩,成功登顶。
其击败的对手,是来自OpenAI的、代表着当前大模型技术顶峰的GPT-5 Pro。后者的成绩,是18.3%。
然而,故事真正的内核,并非仅仅是性能上的超越。
是成本。
NVARC完成每个任务的成本,仅为20美分。
而GPT-5 Pro,是7美元。

这并非一次简单的技术迭代。这是一次,对过去数年来,由“规模决定一切”(Scale is all you need)这一信条所主导的、整个大模型技术路线的、精准而深刻的叩问。
一场“反共识”的胜利
NVARC的成功,源自其对一种独特的、几乎可以说是“反共识”的技术路径的押注。
其核心,是“零预训练”(Zero Pre-training)。
这一策略,从根本上,避免了在传统的大规模通用数据集上进行预训练。其背后的逻辑是,这种通用的预训练,不可避免地会带来领域的偏见,以及对海量、昂贵数据的依赖。
而此次ARC-AGI2评测,其难度也极高。它旨在考察模型,在没有任何直接训练数据的情况下,快速学习并掌握全新技能的能力。
这恰恰击中了传统大模型的“软肋”,也最大化了NVARC的优势。
用“离线推理”喂养“在线直觉”
当放弃了通用预训练之后,英伟达的团队,将所有的宝,都押在了一件事上:高质量的、可控的合成数据。
他们采取了一种极为聪明的创新思路:将复杂的推理过程,前置到一个离线的、合成数据的管道之中。
他们使用了一个更大、更强的开源模型(GPT-OSS-120B),但并非让它去直接解决问题,而是让它,去生成海量的、高质量的、用于训练NVARC的合成“谜题”。
为了确保这些生成数据的高质量,他们将推理的过程,分解为多个可以被独立验证的阶段。最终,形成了一个包含320万条增强样本的大型合成数据集。
——这是一种用一个强大模型的“离线深思熟虑”,去喂养一个小型模型的“在线敏捷直觉”的精妙战术——
它极大地降低了模型在实时推理时,对计算资源的需求。
在训练过程中,团队还利用了NeMo RL框架,以及一种名为TTFT(Task-Tuned Fine-Tuning)的技术,使得NVARC能够针对每一个新任务,进行快速的、专门的微调,从而极快地适应新的规则。
“做题机器”还是“专业利刃”?
尽管有人可能会质疑,这种在特定评测上表现出色的小模型,是否只是一台被过度优化的“做题机器”。
然而,这种质疑,可能忽略了一个更根本的问题。
NVARC的成功,恰恰凸显了其在特定领域内,无与伦比的适应能力与效率。
在无数的真实世界应用场景中,市场所需要的,或许并非一个无所不知、但成本高昂、反应迟缓的“数字上帝”。
它所需要的,正是一个成本极低、速度极快、能够被快速部署和微调的、解决特定问题的“专业利刃”。
小模型在成本、速度和适配性上的巨大优势,使其在许多应用场景中,显得尤为重要。
NVARC的这次胜利,其更深远的意义在于,它以一种极具说服力的方式,向整个行业证明:
在通往通用人工智能的漫长道路上,并非只有“更大、更强、更通用”这一条路径。
存在着另一条,更具效率、更具针对性、也可能更具商业价值的道路。
如何将正确的方法,应用于正确的领域,将是推动这场技术革命,走向下一个阶段的、最核心的课题。