视频,这个我们早已习以为常的媒介,其作为“内容容器”的时代,可能正在迎来终结。
全球视频平台巨头、纳斯达-克上市企业Kaltura,近日宣布,以2700万美元的价格,收购了以色列AI数字人初创公司eSelf.ai。
这并非一次简单的“功能补全”式的收购。它是一次明确的战略宣言,标志着Kaltura正在将其未来的赌注,全部押在了一个全新的概念之上——“视频即服务界面”(Video as an Interface)。

这次收购案的核心,是eSelf.ai所掌握的一项关键技术:具备实时、同步、上下文感知能力的对话型虚拟人。
eSelf.ai,这家成立于2023年、团队仅有15人的初创公司,其技术与市面上常见的“预录语音+口型对齐”式的伪交互数字人,有着根本性的不同。
其虚拟人,不仅能实现逼真自然的唇形同步,更关键的是,它具备“看”和“听”的能力:
-
屏幕理解: 它能够“看到”用户当前正在浏览的屏幕内容,并据此进行实时的、智能的回应。例如,当一位潜在客户在复杂的保险产品页面上停留过久时,嵌入页面的数字人顾问,可以主动地、用自然的语言,为其解释该产品的核心条款。
-
低延迟语音识别: 它能够“听清”用户的实时语音提问,并进行毫秒级的响应,实现真正流畅的双向对话。
Kaltura的CEO Ron Yekutiel一针见血地指出了此次收购的核心价值:“我们需要的是一个能够与用户进行双向、动态、上下文感知对话的AI,而不是一个只会说话的视频片段。”
这次收购,也清晰地勾勒出了Kaltura的战略进化路径:从一个企业级的视频平台,向一个企业级的AI体验引擎,全面转型。
目前,Kaltura为全球超过800家企业客户(包括Amazon、Oracle、SAP、IBM等巨头)提供服务,其产品线覆盖了从企业内部的视频门户、虚拟课堂、网络研讨会系统,到面向公众的TV流媒体解决方案。
在整合了eSelf.ai的技术后,Kaltura将能够在其庞大的客户基础上,推出可被深度嵌入到销售、客户服务、员工培训等所有核心业务场景的、独立的AI代理。
这套“全栈式视频智能”解决方案的逻辑是:
-
前端: 以一个高拟真、可实时对话的数字人,作为全新的、更具亲和力的交互入口。
-
-中台: 这个数字人将深度对接企业现有的CRM(客户关系管理)、内部知识库、LMS(学习管理系统)等核心业务系统,获取数据和知识。
-
后端: 基于对用户实时行为(例如,鼠标的停留、页面的滚动)和屏幕内容的理解,动态地、个性化地,生成最恰当的语音和视频响应。
“我们始于视频,进阶至个性化视频,”Yekutiel说,“而如今,通过eSelf,我们赋予了AI以面孔、眼睛、耳朵和一张嘴,使其真正具备了人类级别的表达与理解能力。”
尽管近期有媒体报道称,Kaltura正在寻求以4亿至5亿美元的估值出售公司,但Yekutiel对此进行了明确的否认:“我们从未接近达成任何交易。”
相反,这次收购,是该公司历史上的第四次战略性并购,彰显了其持续投入AI与视频深度融合的决心。
根据财报,Kaltura在2024年的营收约为1.8亿美元,并已实现了调整后EBITDA(税息折旧及摊销前利润)与现金流的双重盈利,拥有一个超过600人的团队。这为其进行后续的战略投入,提供了坚实的基础。
爱力方的分析认为,Kaltura的这次转型,深刻地反映了企业级人机交互的一个重要趋势:
传统的、基于文本的聊天机器人(Chatbot),正在因为其体验的割裂和能力的局限,而逐渐达到其天花板。
下一代的企业级AI交互,将是多模态的、沉浸式的、并且是主动服务的。
当你的企业客服,不再只是屏幕右下角一个冰冷的聊天框,而是一个能够“注视”着你的操作、“理解”你的困惑,并用自然的音容笑貌,主动地、实时地为你提供引导的“数字专家”时,人与机器之间的信任边界和协作效率,都将被彻底重塑。
而Kaltura,正试图成为定义这个新时代的、最核心的基础设施提供商。