在AI基础设施的“军备竞赛”中,一场针对“推理效率”的、近乎于“暴力美学”式的性能革命,正由一个成立仅三个月的、名为xLLM的新兴开源社区,悍然发动。
该社区近日宣布,将于12月6日,举办其首届线下的开发者交流会(Meetup)。
而这场Meetup的核心,将是其自研的、下一代AI推理引擎——xLLM-Core——的首次公开亮相。
其在活动预告中,所公布的一系列,与当前行业“霸主”vLLM的、直接的、正面的性能对比数据,堪称“石破天惊”:
在同等级的GPU硬件之上,针对MoE(混合专家)、Text-to-Image(文生图)和Text-to-Video(文生视频)这三类最主流、也最消耗算力的AI任务:
- P99延迟(即99%的请求,其响应时间都低于该值),均被压缩至了20毫秒以下。
- 相比于vLLM,其平均延迟,降低了42%。
- 而其单位时间内的请求处理能力(吞吐量),则提升了2.1倍。
这组数据的背后,是xLLM-Core,在底层架构上,所进行的一系列,极具针对性的、系统性的创新。
它,不再是像vLLM那样,主要针对“语言模型”这一单一模态,进行优化。
它,从诞生的第一天起,就将目标,瞄准了更为复杂的、也更代表未来的“多模态并行推理”。
其核心的技术亮点,包括了:
-
统一的计算图(Unified Computation Graph):
- 它,创新性地,将看似截然不同的语言、视觉和视频生成任务,在底层,都抽象为了一个统一的“Token-in, Token-out”(令牌输入,令牌输出)的计算图。
- 这使得,单一的推理引擎,可以在同一时间,并行地,处理来自不同模态的、混合的推理请求,而无需,再为每一种模态,都去部署一套独立的、专用的服务。
-
Mooncake KV缓存的深度集成:
- 它,构建了一套包含了“GPU显存 → DDR内存 → NVMe固态硬盘”的、三级分层存储的KV缓存系统。
- 其在真实负载下的缓存命中率,高达99.2%。而即使发生了“缓存穿透”(即,所需的数据,不在GPU显存中),其从DDR或NVMe中,调取数据所产生的额外延迟,也低于5毫秒。
-
动态形状的批处理(Dynamic Shape Batching):
- 它,支持将不同尺寸的图像(从512x512到2048x2048),或不同长度的视频(从8帧到128帧),在推理时,进行动态的、在线的拼接,从而,最大化地,利用GPU的并行计算能力。
- 这项技术,据称,能够将推理过程中,所产生的显存碎片,减少38%。
而这场“性能革命”,也已经,在真实的、全球最大规模的商业场景中,得到了验证。
北京航空航天大学的杨海龙教授,将在这次的Meetup上,分享xLLM-Core,在刚刚过去的、京东“11.11”大促中的实战案例。
根据预告,xLLM-Core,成功地,支撑了京东,在峰值时刻,高达每秒40,000次的AI请求。
而其所带来的商业回报,是惊人的:机器的硬件成本,降低了90%;而整体的业务效率,则提升了5倍。
爱力方的分析认为,xLLM社区及其背后的xLLM-Core推理引擎的横空出世,深刻地,揭示了AI基础设施领域,一个正在发生的、不可逆转的“范式转移”。
当AI的应用,日益地,从单一的“文本对话”,走向复杂的“多模态生成”时,底层的推理引擎,也必须,从一个“专才”,进化为一个“通才”。
而xLLM-Core,正是这条“通才”之路上,目前看来,最强有力的、也是最具潜力的“挑战者”。
该社区,也宣布,将在Meetup的现场,正式发布其xLLM-Core的0.9版本,并以Apache 2.0这一最开放的协议,向全球开发者,全面开源。
其长期的、带有商业支持的1.0 LTS(Long-Term Support)版本,则预计,将在2026年6月推出。
一场由“性能”,所定义的、关于AI推理引擎“王座”的争夺战,其最精彩、也最残酷的篇章,才刚刚开始。而xLLM,这位年轻的“挑战者”,显然,已经做好了,向vLLM这位“卫冕冠军”,发起总攻的、一切准备。