Mistral AI 推出新版文档识别技术 Mistral OCR 3

Mistral AI 推出新版文档识别技术 Mistral OCR 3

Mistral AI发布新一代文档识别技术Mistral OCR 3,在表格、扫描文档和手写识别方面表现卓越,整体准确性比前代提升74%。该技术支持Markdown输出和HTML表格重构,每1000页处理费用低至1-2美元,适用于发票处理、档案数字化等高容量企业级流程。

8
0

国内首个国标VLA大模型开源 北京人形机器人XR-1实现智能干活

国内首个国标VLA大模型开源 北京人形机器人XR-1实现智能干活

北京人形机器人创新中心开源国内首个通过国标测试的具身VLA大模型XR-1,配套RoboMIND2.0数据底座和ArtVIP数据集。该模型具备跨本体运行能力,能精准执行复杂操作,推动人形机器人从实验室走向真实场景应用,降低行业开发门槛。

9
0

京东工业大模型JoyIndustrial亮相中国工业论坛 入选工信企业新纪录

京东工业大模型JoyIndustrial亮相中国工业论坛 入选工信企业新纪录

京东工业大模型JoyIndustrial在第十八届中国工业论坛上入选中国工信企业新纪录,作为首个以供应链为核心的工业大模型,它依托海量工业品数据与行业积累,通过智能决策与流程优化,显著降低供应链成本并提升运营效率。文章介绍了其三大深度应用智能体在商品治理、供需匹配等场景中的实践成果,展现了人工智能技术驱动工业供应链变革的重要价值。

19
0

艾伦研究所发布Molmo 2开源视频语言模型

艾伦研究所发布Molmo 2开源视频语言模型

艾伦人工智能研究所发布Molmo 2开源视频语言模型系列,包括Molmo2-4B、Molmo2-8B和完全开源的Molmo2-O-7B版本。新模型支持多图像和视频输入,具备事件推理、生成描述性字幕、物体追踪等增强功能,并强调数据透明度和企业定制化需求。Ai2同时推出九个新数据集,彰显其在开源领域的坚定承诺。

4
0

腾讯推出混元世界模型1.5 实现实时交互虚拟世界

腾讯推出混元世界模型1.5 实现实时交互虚拟世界

腾讯发布了混元世界模型1.5,这是国内首个开放的实时互动体验平台。用户通过简单的文字或图片描述,即可快速生成独特的互动虚拟世界,并支持以24帧/秒的速度实时探索。模型具备长范围3D一致性和多样化交互体验,适用于游戏、影视及虚拟现实等领域。腾讯还首次开源了完整的训练体系,为AI生成内容开辟了新的可能性。

7
0

美的医疗发布国产医学影像大模型:胸部DR一键诊断,双量级架构适配端云部署

美的医疗发布国产医学影像大模型:胸部DR一键诊断,双量级架构适配端云部署

美的医疗近日发布国产医学影像大模型,实现对肺结核、肺炎等胸部疾病的自动检测与结构化报告生成,提升基层医疗效率。其创新的双量级架构兼顾设备端与云端部署,适应不同医院需求,并强调国产化与自主可控,助力AI医疗安全落地。

0
0

普渡大学研发类脑AI算法突破内存瓶颈大幅降低能耗

普渡大学研发类脑AI算法突破内存瓶颈大幅降低能耗

普渡大学与佐治亚理工学院的研究团队在《科学前沿》杂志上提出了一种创新的类脑AI算法,旨在通过‘内存计算’架构突破传统冯·诺依曼架构中的‘内存墙’瓶颈。该研究利用脉冲神经网络,将内存与处理能力整合,显著降低人工智能模型的能耗,有望推动AI从数据中心走向现实世界的广泛应用,如医疗设备、交通运输和无人机等领域。

0
0

字节跳动推出 Seedance 1.5 Pro 实现AI音视频创作100%视听同步

字节跳动推出 Seedance 1.5 Pro 实现AI音视频创作100%视听同步

字节跳动发布新一代音视频创作模型Seedance 1.5 Pro,实现了音视频的联合生成与100%视听同步。该模型通过文本或图像引导生成内容,提升了视觉冲击力、运动效果及音频同步能力,支持多语种和方言表达。具备先进镜头调度与语义理解技术,适用于影视、短剧、广告等多领域创作,已在即梦AI和豆包平台上线。

4
0

首个细胞级会思考机器人问世

首个细胞级会思考机器人问世

美国研究团队在《Science Robotics》上发表了突破性研究,成功制造出尺寸仅约340×210×50微米的细胞级微型机器人。该机器人集成了微型光伏电池、定制处理器、温度传感器和电动力推进系统,能够在极低功耗下自主感知环境、处理信息并做出反应,实现完全自主的智能行为。这一技术突破为靶向药物递送、微观手术和精密检测等领域带来了革命性应用前景。

9
0

快手AI编程模型KAT-Coder-Pro V1跻身全球榜单前十

快手AI编程模型KAT-Coder-Pro V1跻身全球榜单前十

快手研发的Agentic Coding模型KAT-Coder-Pro V1在Artificial Analysis Intelligence Index评测中取得突破性进展,以64分超越Claude4.5Sonnet,强势入围全球AI榜单Top10,并在Non-Reasoning Model榜单中斩获第一名。该模型不仅性能卓越,还实现了出色的价格与性能平衡,输出Token消耗量远低于同性能区间模型。

爱力方
17
0

地平线携手生态伙伴共促机器人产业繁荣

地平线携手生态伙伴共促机器人产业繁荣

文章介绍了地平线在2025年具身智能规模化落地关键期的战略布局,包括发布HoloMotion和HoloBrain两大开源模型,携手生态伙伴推出超100款智能产品。通过技术生态大会,地平线与清华大学、傅利叶、Vbot等伙伴探讨了从智能汽车到机器人的技术跃迁,聚焦反应式智能、情感交互等前沿方向,共同推动机器人产业向高端化、规模化发展。

9
0

Meta开源战略生变:闭源模型借力阿里Qwen,扎克伯格人才战略转向

Meta开源战略生变:闭源模型借力阿里Qwen,扎克伯格人才战略转向

Meta从开源先锋转向闭源战略,计划于2026年发布闭源AI模型'Avocado',其训练竟依赖阿里巴巴开源模型Qwen。这一转变源于Llama4的失败和内部重组,新任首席AI官亚历山大·王推动闭源路线,导致开源团队裁员和核心人物离职。文章揭示了Meta战略信仰的崩塌及全球AI竞争中开源与闭源的复杂博弈。

17
0

智谱开源周落幕 四项视频生成技术开放

智谱开源周落幕 四项视频生成技术开放

智谱多模态开源周圆满落幕,团队开源了四项视频生成核心技术:SCAIL、RealVideo、Kaleido和SSVAE。这些技术分别针对影视级角色动画生成、实时流式视频生成、多主体一致性生成以及训练效率优化,旨在解决视频生成领域的关键难题,推动AI视频技术的发展与创新。

6
0

阿里通义发布Qwen3-Omni-Flash新版本

阿里通义发布Qwen3-Omni-Flash新版本

阿里通义Qwen团队发布最新全模态大模型Qwen3-Omni-Flash-2025-12-01,该版本基于Qwen3-Omni构建,支持文本、图像、音频和视频等多种输入形式,实现实时流式响应。升级亮点包括音视频交互体验全面优化、系统提示自定义功能开放、多语言处理能力增强以及语音生成更拟人化,显著提升了人机交互的自然度与精准度。

3
0

杭州人形企业双线并进引领产业革命

杭州人形企业双线并进引领产业革命

杭州两家代表性人形机器人企业——云深处科技与智澄AI,揭示了行业在技术路线上的关键分野。云深处科技走的是“硬件优先”的务实路径,从四足机器人切入,强调稳定性和场景深耕;而智澄AI则高举“模型驱动”旗帜,以世界模型为核心,追求对物理世界的通用理解。文章探讨了两种技术哲学背后的商业化策略,展现了行业从概念炒作转向务实生存的发展趋势。

爱力方
1
0