青岛发布国内首个全模态实时交互大模型 VisualGPT,打造“所见即所得”AI体验

爱力方

爱力方

2025年11月24日 16:43
本文共计1581个字,预计阅读时长6分钟。
来源/互联网 责编/爱力方

近日,在青岛虚拟智能体产业大会上,国内首个,支持全模态实时交互的视觉语言大-模型(VLM)——VisualGPT——正式发布。

这并非又一次在图像识别精度上的渐进式改良。

它是一次深刻的、从底层交互范式开始的、系统性的重塑。其核心,是让用户,能够彻底地,摆脱键盘的束缚,直接地,在**“视觉界面”**之上,通过最直观的、人类最本能的动作——圈选、标注、指点——来与AI,进行即时的、无缝的互动。

这场“视觉革命”的核心,是VisualGPT,在技术架构上,所实现的一次关键的突破。

它,创新性地,将一个高效的视觉编码器(Visual Encoder),与一个低延迟的流式解码器(Streaming Decoder),进行了深度的耦合。

其结果,是一种近乎于“心灵感应”般的<300毫秒的端到端交互体验。

在过去,如果你想让AI帮你分析一张复杂的图片或一段视频,你必须,先在自己的大脑中,将你的视觉观察,转化为一段精确的、结构化的文字描述,然后再,将这段文字,输入到AI的对话框中。

而现在,这个流程,被彻底地,简化了。

用户,可以直接地,在上传的图片或正在播放的视频画面上:

  • 用手指或鼠标,圈选出自己感兴趣的任何一个区域。

  • 用语音,直接地,向这个被圈选的区域,提问

而VisualGPT,则能够,在毫秒之间,“看懂”你的所指,“听懂”你的所问,并即时地,为你,返回结构化的答案、一段可被直接执行的代码,甚至是一个可被交互的33D场景。

这种“所见即所得,所指即所答”的全新交互范式,其背后,是青岛这座城市,在AI这一战略赛道上,一次倾其全力的“产业豪赌”。

与VisualGPT一同发布的,还有一个与之配套的、雄心勃勃的“青岛智能体训练平台”。

这个平台,在启动之初,便向全国的开发者,开放了:

  • 1000张A100/H100所组成的、强大的混合算力集群。

  • 以及,高达10PB的、经过精心标注的、高质量的多模态训练数据。

根据规划,到2026年,该平台的算力,将进一步地,扩容至5000张H100,旨在,将其,打造为中国北方,规模最大的AI训练集群。

而比算力和数据,更具“青岛特色”的,是其清晰的、以“场景落地”为导向的产业化路径。

大会,同步发布了一份名为“百企百景”的产业需求对接清单。

首批,便已征集了来自青岛本地及周边地区的、超过200个真实的、亟待用视觉交互技术来解决的行业痛点。

官方,已经为Visual-GPT,在教育、医疗和金融这三大核心场景,开放了SDK(软件开发工具包):

  • 在教育领域: 教师,可以在数字课件上,直接圈选出一个复杂的数学公式,而VisualGPT,便能即时地,为其,生成一段生动的、可视化的动画讲解视频。

  • 在医疗领域: 医生,可以在阅览CT或MRI影像时,一边用光标指向某个可疑的病灶区域,一边用语音向AI询问该区域的各项关键诊断指标。

  • 在金融领域: 分析师,可以对着一张包含了复杂数据的K线图,直接地用手指划出一段特定的时间区间,并提问,“如果我在这段时间内,执行XX策略,其最终的回测收益率,会是多少?”

爱力方的分析认为,VisualGPT的发布,以及其背后,那一整套“模型 + 平台 + 场景”的组合拳,其意义,已远超一次单纯的、地方性的产业大会。

它更像是一次深刻的“技术宣言”“城市名片”的完美结合。

  • 在技术上,它,标志着AI的人机交互,正在不可逆转地,从一个以“语言”为中心的、间接的时代,迈向一个,以“视觉”为中心的、更直接、更符合人类直觉的全新时代。

  • 在产业上,它,则清晰地,展现了青岛这座城市,试图在其传统的“海洋经济”与“制造业”的标签之外,为自己,打造一张全新的、极具未来感的“AI创新谷”的宏大雄心。

当AI,开始真正地,“看懂”我们所看的世界时,一场关于效率、体验与想象力的全新革命,才算真正地,拉开了序幕。而青岛,正试图,成为书写这场革命序章的、那支最引人注目的笔。

声明:本文来自互联网,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯