在全球AI竞赛的牌桌上,当所有巨头都将筹码压在自回归大模型(Autoregressive Models)——如GPT和Gemini——这条赛道上时,一家由斯坦福大学教授领衔的新锐初-创公司,正悄然开辟了第二条战线。
这家名为Inception的AI公司,近日宣布完成了堪称“豪华阵容”的5000万美元种子轮融资。
其投资方名单,几乎囊括了当前AI基础设施层的所有关键玩家:由Menlo Ventures领投,微软M12、英伟达NVentures、Snowflake Ventures、Databricks Investment跟投。吴恩达(Andrew Ng)与Andrej Karpathy这两位AI领域的标志性人物,也以天使投资人的身份赫然在列。
如此强大的资本背书,其目标只有一个:支持Inception去验证一个颠覆性的技术押注——将原本用于图像生成的扩散模型(Diffusion Models),全面地、系统性地,引入到文本与代码生成领域。
Inception的创始人,斯坦福大学教授Stefano Ermon,一针见血地指出了当前主流自回归范式的核心瓶颈。

GPT、Gemini这类模型,其工作方式是“逐词预测”。它们必须按照顺序、一个token接着一个token地生成文本,这种固有的串行处理机制,从根本上限制了其生成速度与计算效率。
而扩散模型,则采用一种完全不同的路径。
它从一团随机的“噪声”开始,通过并行的、多轮的迭代,不断地对整体输出进行优化,直至最终逼近目标。
“我们的架构,天生就是为并行计算而生的,”Ermon强调,“它更快、更高效,并且对算力成本极度友好。”
在处理需要高度整体性的大规模代码库或长篇技术文档时,扩散模型的这种并行迭代优势,展现出了远超自回归模型的潜力。
这一理念,已经落地为具体的产品。
Inception同步发布了其最新模型Mercury,专为软件开发场景设计,目前已集成至ProxyAI、Buildglare、Kilo Code等多款第三方开发者工具中。
实测数据显示,Mercury在执行代码补全、代码重构以及需要理解多个文件关联的跨文件任务时,其推理速度,已经突破了1000 token/秒——一个远超现有主流自回归模型的数字。
为什么扩散模型尤其适合代码这种高结构化的数据?
-
全局上下文: 代码的正确性,极度依赖于全局的逻辑一致性和跨文件的变量关联。自回归模型的“逐字生成”,很容易在长链条的生成中,出现“前言不搭后语”的逻辑错误。而扩散模型的“全局调整”,天然更适合维持这种整体性。
-
-并行计算亲和力: 其并行计算的特性,可以最大限度地发挥现代GPU/TPU集群的计算能力,显著降低延迟和单位token的能耗。这直接击中了当前所有AI应用都面临的“高成本”痛点。
微软、英伟达、Databricks这些巨头的集体押注,其背后的商业逻辑也因此变得清晰。
在AI模型的训练与推理成本持续飙升的背景下,“效率”,正在成为继“能力”之后的第二个、甚至更重要的战场。
所有正在构建AI开发栈和云平台的巨头们,都亟需一个高性能、同时又是低开销的底层模型,作为其服务的基础。
Inception所探索的这条“省算力、高吞-吐”的新路径,可能正是为AI大模型的规模化商业应用,提供了一条可持续的出路。
Inception的崛起,标志着AI基础架构的探索,已经正式进入了“深水区”。
当单纯的参数规模竞赛,其带来的边际效益开始递减时,来自底-层范式的创新,将成为决定下一轮竞争胜负的关键。
如果扩散式的大语言模型(Diffusion-based LLM),能够在代码生成、科学研究、金融分析等这些对结构性、逻辑性和效率要求极高的高价值场景中,持续地验证其优势,那么,这场由斯坦-福实验室发起的、看似小众的技术革命,或许将从根本上,重塑整个生成式AI的未来版图。