AI推理的“新王”驾到？当xLLM-Core，用20毫秒的延迟，向vLLM发起挑战-A³·爱力方

在AI基础设施的“军备竞赛”中，一场针对“推理效率”的、近乎于“暴力美学”式的性能革命，正由一个成立仅三个月的、名为xLLM的新兴开源社区，悍然发动。

该社区近日宣布，将于12月6日，举办其首届线下的开发者交流会（Meetup）。

而这场Meetup的核心，将是其自研的、下一代AI推理引擎——xLLM-Core——的首次公开亮相。

其在活动预告中，所公布的一系列，与当前行业“霸主”vLLM的、直接的、正面的性能对比数据，堪称“石破天惊”：

在同等级的GPU硬件之上，针对MoE（混合专家）、Text-to-Image（文生图）和Text-to-Video（文生视频）这三类最主流、也最消耗算力的AI任务：

P99延迟（即99%的请求，其响应时间都低于该值），均被压缩至了20毫秒以下。
相比于vLLM，其平均延迟，降低了42%。
而其单位时间内的请求处理能力（吞吐量），则提升了2.1倍。

这组数据的背后，是xLLM-Core，在底层架构上，所进行的一系列，极具针对性的、系统性的创新。

它，不再是像vLLM那样，主要针对“语言模型”这一单一模态，进行优化。

它，从诞生的第一天起，就将目标，瞄准了更为复杂的、也更代表未来的“多模态并行推理”。

其核心的技术亮点，包括了：

统一的计算图（Unified Computation Graph）：
- 它，创新性地，将看似截然不同的语言、视觉和视频生成任务，在底层，都抽象为了一个统一的“Token-in, Token-out”（令牌输入，令牌输出）的计算图。
- 这使得，单一的推理引擎，可以在同一时间，并行地，处理来自不同模态的、混合的推理请求，而无需，再为每一种模态，都去部署一套独立的、专用的服务。
Mooncake KV缓存的深度集成：
- 它，构建了一套包含了“GPU显存 → DDR内存 → NVMe固态硬盘”的、三级分层存储的KV缓存系统。
- 其在真实负载下的缓存命中率，高达99.2%。而即使发生了“缓存穿透”（即，所需的数据，不在GPU显存中），其从DDR或NVMe中，调取数据所产生的额外延迟，也低于5毫秒。
动态形状的批处理（Dynamic Shape Batching）：
- 它，支持将不同尺寸的图像（从512x512到2048x2048），或不同长度的视频（从8帧到128帧），在推理时，进行动态的、在线的拼接，从而，最大化地，利用GPU的并行计算能力。
- 这项技术，据称，能够将推理过程中，所产生的显存碎片，减少38%。

而这场“性能革命”，也已经，在真实的、全球最大规模的商业场景中，得到了验证。

北京航空航天大学的杨海龙教授，将在这次的Meetup上，分享xLLM-Core，在刚刚过去的、京东“11.11”大促中的实战案例。

根据预告，xLLM-Core，成功地，支撑了京东，在峰值时刻，高达每秒40,000次的AI请求。

而其所带来的商业回报，是惊人的：机器的硬件成本，降低了90%；而整体的业务效率，则提升了5倍。

爱力方的分析认为，xLLM社区及其背后的xLLM-Core推理引擎的横空出世，深刻地，揭示了AI基础设施领域，一个正在发生的、不可逆转的“范式转移”。

当AI的应用，日益地，从单一的“文本对话”，走向复杂的“多模态生成”时，底层的推理引擎，也必须，从一个“专才”，进化为一个“通才”。

而xLLM-Core，正是这条“通才”之路上，目前看来，最强有力的、也是最具潜力的“挑战者”。

该社区，也宣布，将在Meetup的现场，正式发布其xLLM-Core的0.9版本，并以Apache 2.0这一最开放的协议，向全球开发者，全面开源。

其长期的、带有商业支持的1.0 LTS（Long-Term Support）版本，则预计，将在2026年6月推出。

一场由“性能”，所定义的、关于AI推理引擎“王座”的争夺战，其最精彩、也最残酷的篇章，才刚刚开始。而xLLM，这位年轻的“挑战者”，显然，已经做好了，向vLLM这位“卫冕冠军”，发起总攻的、一切准备。

通知

尊敬的用户

user

AI推理的“新王”驾到？当xLLM-Core，用20毫秒的延迟，向vLLM发起挑战

爱力方

相关图文

正文：数据修正：中国开源 AI 模型正重构全球算力供应链

告别复制粘贴！NotebookLM直接“读懂”文档，你只需动嘴，它来做PPT

人类知识的“终极备份”：马斯克要把整个Grokipedia，装上飞船送往火星

文心大模型5.0重磅发布！百度推全球首个“原生全模态”大模型，李彦宏：智能本身就是最大应用

Anthropic重磅投资500亿美元，全面建设AI基础设施

30亿美元重注AI基建！OpenAI“星门计划”获Blue Owl巨额融资，新墨西哥州将建超级算力中心

热门资讯

告别复制粘贴！NotebookLM直接“读懂”文档，你只需动嘴，它来做PPT

30秒生成应用的AI助手来了！蚂蚁集团灵光App正式上线

Pokee AI：核心技术与生态资源驱动的AI Agent平民化浪潮

人形机器人IRON发布：从实验室原型到商业场景的技术跃迁

Meta发布Omnilingual ASR系统：实现1600种语言的语音识别

日本AI玩具探店！LOVOT陪伴机器人测评

快讯

均普智能回应募投延期及场地出租重启10亿元定增布局机器人领域

大厂布局养龙虾产业腾讯小米纷纷涉足背后有何考量

AI助力养龙虾热潮腾讯小米布局上门安装服务

OpenClaw爆火引热议，不同群体以独特方式参与安装热潮

刘忠军教授：推动创新医疗技术在AI领域的应用

李萌：人形机器人何时迎来"iPhone时刻"？智能玩具或成新兴大产业

帕西尼再获超10亿融资估值突破百亿以全球唯一百亿级实采全模态数据重塑具身智能模型天花板

斯坦福李飞飞团队提出新框架机器人可从错误中学习

西南科大爬壁机器人实现全角度翻转突破

穆南杉提出人类AI智能体生命进化理论

推荐专栏

爱力方

机器人大讲堂

下一篇

user

AI推理的“新王”驾到？当xLLM-Core，用20毫秒的延迟，向vLLM发起挑战

爱力方

相关图文

正文：数据修正：中国开源 AI 模型正重构全球算力供应链

告别复制粘贴！NotebookLM直接“读懂”文档，你只需动嘴，它来做PPT

人类知识的“终极备份”：马斯克要把整个Grokipedia，装上飞船送往火星

文心大模型5.0重磅发布！百度推全球首个“原生全模态”大模型，李彦宏：智能本身就是最大应用

Anthropic重磅投资500亿美元，全面建设AI基础设施

30亿美元重注AI基建！OpenAI“星门计划”获Blue Owl巨额融资，新墨西哥州将建超级算力中心

热门资讯

告别复制粘贴！NotebookLM直接“读懂”文档，你只需动嘴，它来做PPT

30秒生成应用的AI助手来了！蚂蚁集团灵光App正式上线

Pokee AI：核心技术与生态资源驱动的AI Agent平民化浪潮

人形机器人IRON发布：从实验室原型到商业场景的技术跃迁

Meta发布Omnilingual ASR系统：实现1600种语言的语音识别

日本AI玩具探店！LOVOT陪伴机器人测评

快讯

均普智能回应募投延期及场地出租 重启10亿元定增布局机器人领域

大厂布局养龙虾产业 腾讯小米纷纷涉足背后有何考量

AI助力养龙虾热潮 腾讯小米布局上门安装服务

OpenClaw爆火引热议，不同群体以独特方式参与安装热潮

刘忠军教授：推动创新医疗技术在AI领域的应用

李萌：人形机器人何时迎来"iPhone时刻"？智能玩具或成新兴大产业

帕西尼再获超10亿融资 估值突破百亿 以全球唯一百亿级实采全模态数据重塑具身智能模型天花板

斯坦福李飞飞团队提出新框架 机器人可从错误中学习

西南科大爬壁机器人实现全角度翻转突破

穆南杉提出人类AI智能体生命进化理论

推荐专栏

爱力方

机器人大讲堂

下一篇

均普智能回应募投延期及场地出租重启10亿元定增布局机器人领域

大厂布局养龙虾产业腾讯小米纷纷涉足背后有何考量

AI助力养龙虾热潮腾讯小米布局上门安装服务

帕西尼再获超10亿融资估值突破百亿以全球唯一百亿级实采全模态数据重塑具身智能模型天花板

斯坦福李飞飞团队提出新框架机器人可从错误中学习