AI推理的“新王”驾到?当xLLM-Core,用20毫秒的延迟,向vLLM发起挑战

爱力方

爱力方

2025年11月25日 16:39
本文共计1625个字,预计阅读时长6分钟。
来源/互联网 责编/爱力方

在AI基础设施的“军备竞赛”中,一场针对“推理效率”的、近乎于“暴力美学”式的性能革命,正由一个成立仅三个月的、名为xLLM的新兴开源社区,悍然发动。

该社区近日宣布,将于12月6日,举办其首届线下的开发者交流会(Meetup)。

而这场Meetup的核心,将是其自研的、下一代AI推理引擎——xLLM-Core——的首次公开亮相。

其在活动预告中,所公布的一系列,与当前行业“霸主”vLLM的、直接的、正面的性能对比数据,堪称“石破天惊”:

在同等级的GPU硬件之上,针对MoE(混合专家)、Text-to-Image(文生图)和Text-to-Video(文生视频)这三类最主流、也最消耗算力的AI任务:

  • P99延迟(即99%的请求,其响应时间都低于该值),均被压缩至了20毫秒以下。
  • 相比于vLLM,其平均延迟,降低了42%
  • 而其单位时间内的请求处理能力(吞吐量),则提升了2.1倍

这组数据的背后,是xLLM-Core,在底层架构上,所进行的一系列,极具针对性的、系统性的创新。

它,不再是像vLLM那样,主要针对“语言模型”这一单一模态,进行优化。

它,从诞生的第一天起,就将目标,瞄准了更为复杂的、也更代表未来的“多模态并行推理”。

其核心的技术亮点,包括了:

  1. 统一的计算图(Unified Computation Graph):

    • 它,创新性地,将看似截然不同的语言、视觉和视频生成任务,在底层,都抽象为了一个统一的“Token-in, Token-out”(令牌输入,令牌输出)的计算图。
    • 这使得,单一的推理引擎,可以在同一时间,并行地,处理来自不同模态的、混合的推理请求,而无需,再为每一种模态,都去部署一套独立的、专用的服务。
  2. Mooncake KV缓存的深度集成:

    • 它,构建了一套包含了“GPU显存 → DDR内存 → NVMe固态硬盘”的、三级分层存储的KV缓存系统。
    • 其在真实负载下的缓存命中率,高达99.2%。而即使发生了“缓存穿透”(即,所需的数据,不在GPU显存中),其从DDR或NVMe中,调取数据所产生的额外延迟,也低于5毫秒
  3. 动态形状的批处理(Dynamic Shape Batching):

    • 它,支持将不同尺寸的图像(从512x512到2048x2048),或不同长度的视频(从8帧到128帧),在推理时,进行动态的、在线的拼接,从而,最大化地,利用GPU的并行计算能力。
    • 这项技术,据称,能够将推理过程中,所产生的显存碎片,减少38%

而这场“性能革命”,也已经,在真实的、全球最大规模的商业场景中,得到了验证。

北京航空航天大学的杨海龙教授,将在这次的Meetup上,分享xLLM-Core,在刚刚过去的、京东“11.11”大促中的实战案例。

根据预告,xLLM-Core,成功地,支撑了京东,在峰值时刻,高达每秒40,000次的AI请求。

而其所带来的商业回报,是惊人的:机器的硬件成本,降低了90%;而整体的业务效率,则提升了5倍。

爱力方的分析认为,xLLM社区及其背后的xLLM-Core推理引擎的横空出世,深刻地,揭示了AI基础设施领域,一个正在发生的、不可逆转的“范式转移”。

当AI的应用,日益地,从单一的“文本对话”,走向复杂的“多模态生成”时,底层的推理引擎,也必须,从一个“专才”,进化为一个“通才”。

而xLLM-Core,正是这条“通才”之路上,目前看来,最强有力的、也是最具潜力的“挑战者”。

该社区,也宣布,将在Meetup的现场,正式发布其xLLM-Core的0.9版本,并以Apache 2.0这一最开放的协议,向全球开发者,全面开源。

其长期的、带有商业支持的1.0 LTS(Long-Term Support)版本,则预计,将在2026年6月推出。

一场由“性能”,所定义的、关于AI推理引擎“王座”的争夺战,其最精彩、也最残酷的篇章,才刚刚开始。而xLLM,这位年轻的“挑战者”,显然,已经做好了,向vLLM这位“卫冕冠军”,发起总攻的、一切准备。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯