在中国乃至全球的多模态AI赛道上,一场深刻的、旨在让AI从简单的“看图说话”,进化为真正的“视觉思考者”的范式革命,正由短视频巨头快手,悍然发动。
该公司近日,正式发布并宣布全面开源其新一代的旗舰级多模-态大模型——Keye-VL-671B-A37B。

这并非又一次常规的、在某个单一指标上的性能提升。
从其官方所强调的“善看会想”这一核心特性,以及其在技术架构和训练流程上,所进行的一系列系统性的、精妙的设计来看,快手,这一次,是直接地,将其技术的目标,对准了那个长期以来,一直制约着多模态AI发展的、最核心的“天花板”——复杂的多模态推理能力。
这场针对“多模态推理”的系统性升级,其核心,体现在Keye-VL模型,在技术架构上的、一次深思熟虑的“强强联合”。
-
其“大脑”——语言模型基座: 采用了目前业界最顶尖的、由深度求索所开源的DeepSeek-V3-Terminus。
-
其“眼睛”——视觉模型: 则采用了快手自研的、经过了多代迭代的KeyeViT。
而连接这两大“器官”的,则是一个看似简单、却至关重要的MLP(多层感知器)层。
这种架构,使得Keye-VL,能够在一个统一的、端到端的框架内,实现视觉信息与语言逻辑的、前所未有的深度融合。
而比其架构本身,更具“含金量”的,是其长达三个阶段的、极具章法和策略性的预训练流程。
-
第一阶段——“初步对齐”:
-
在这一阶段,视觉模型和语言模型的参数,都被冻结。训练的唯一目的,是通过中间的连接层,来让“眼睛”所看到的像素信息,与“大脑”所理解的语言概念,进行一个初步的、粗粒度的“对齐”。
-
-
第二阶段——“全面预训练”:
-
在完成了初步的对齐之后,模型的全部参数,都被开放。然后,模型,会在高达3000亿(300B)tokens的、经过了严格筛选的高质量多模-态数据上,进行全面的、端到端的预训练。
-
-
第三阶段——“退火精调”:
-
在最后阶段,模型,会在一批质量更高、标注更精细的数据上,进行“退火式”的精细化训练。这一步,旨在显著地,提升模型,对于图像和视频中,那些最细微的、最容易被忽略的细节的“细粒度感知能力”。
-
这种“先对齐、再融合、后精调”的三步走策略,使得Keye-VL,能够在有效地,控制其训练成本的同时,系统性地,构建起其强大的、扎实的多模态理解与推理能力。
在完成了预训练之后,Keye-VL,还会经历一个包含了监督微调(SFT)、冷启动和强化学习(RLHF)等多个步骤的、复杂的后训练(Post-training)过程。
其训练的任务,也全面地,覆盖了从基础的视觉问答(VQA),到更高级的图表理解、富文本光学字符识别(OCR)等、所有核心的多模态应用领域。
AIbase的分析认为,快手的这次Keye-VL开源,其意义,已远超一次简单的模型发布。
它更像是一份来自“多模态Agent”赛道的、极具前瞻性的“技术宣言”。
在其未来的规划中,快手,已经明确地,指出了其下一步的进化方向:
基础模型能力 + 多模态Agent能力,双轮驱动。
-
“会用工具”:
-
模型的多轮工具调用能力,将被持续地强化。这意味着,未来的Keye-VL,将不再仅仅,是一个被动的“信息处理器”。它将能够,像一个真正的“智能助理”一样,自主地,去调用外部的工具(例如,搜索引擎、计算器、API接口),来完成更为复杂的、需要进行信息整合与验证的任务。
-
-
“能解复杂问题”:
-
模型,将在“think with image”和“think with video”这两个关键的、前沿的方向上,进行更深入的探索。这意味着,模型,将不仅能够“理解”图像与视频的内容。它将能够,围绕着这些视觉信息,进行深度的、链式的、逻辑严谨的思考与推理。
-
当一个AI,不仅拥有了顶级的“视觉”,更拥有了顶级的“大脑”,并且,还学会了如何,去自主地,使用“工具”时,一场真正意义上的、由“多模态智能体”,所驱动的、对我们与数字和物理世界交互方式的深刻革命,才算真正地,拉开了序幕。