美团开源多模态大模型LongCat-Flash-Omni:实时交互性能突破
美团开源多模态大模型LongCat-Flash-Omni在多项基准测试中超越闭源竞品,实现开源即SOTA突破。该模型支持文本、语音、图像、视频的实时融合处理,具备跨模态精准推理能力,在噪声环境语音识别和模糊图像理解方面表现优异。通过端到端统一架构和Flash推理引擎优化,在消费级GPU上即可实现近乎零延迟的交互体验。
ClickUp 4.0发布:双AI智能体驱动全能工作平台,剑指Notion、Slack和Teams
ClickUp 4.0重磅发布,通过双AI智能体和全面平台升级,打造全能办公操作系统。新版本深度融合任务管理、文档协作、即时通讯和日历调度,借助收购Qatalog技术实现跨工具知识打通。两大AI助手分别负责主动解答疑问和全能协作,同步升级音视频会议和智能日历功能,目标取代Notion、Slack和Teams等独立办公软件,重新定义智能工作方式。
大模型重构金融资源分配:从精英服务到普惠能力的范式转移
度小满CEO朱光在香港金融科技周上分享了大模型在金融服务领域的革命性应用。通过实时分析客户交互数据,企业能快速洞察用户需求;在信贷审批环节,AI助手将信审时间从10分钟缩短至30秒,风险指标降低50%以上。大模型技术正推动普惠金融发展,让普通用户也能获得量身定制的金融服务,同时展望了Web3时代AI助手的未来潜力。
字节跳动AI编程工具Trae移除Claude模型,Pro会员获专属补偿
字节跳动AI编程工具Trae宣布下架Claude模型,因服务中断不再提供该模型的访问权限。为缓解影响,Trae将为Pro会员提供补偿,在2026年1月31日前每月额外增加50%的快速请求,总计达300次。Trae承诺继续优化其他编程工具和服务,保持AI编程领域的竞争力。
Gemini Canvas PPT生成功能:资源优化视角下的生产力重构
谷歌Gemini AI最新推出Canvas工作空间PPT生成功能,用户只需输入提示词或上传文档,即可自动创建专业演示文稿。该功能由Gemini2.5Pro驱动,支持实时编辑和导出至Google Slides,大幅提升职场和学术场景的内容创作效率,让AI从辅助工具升级为创意合作伙伴。
千诀科技ICML 2025论文:“世界模型”破解AI“常识难题”,机器人有望迈向“知行合一”
千诀科技章天任博士团队在ICML 2025发表的研究首次捕捉到神经网络自发形成世界模型的瞬间,通过建立严格的数学定义揭示了简单性偏置与世界建模能力的关系。这项突破性工作让机器人有望实现'知行合一',具备泛化适应、高效学习和因果推理能力,为破解AI常识难题迈出关键一步。
Grab自研语言模型的战略哲学:从通用工具到专用解决方案的转向
Grab公司分享了自研视觉大型语言模型的开发经历,旨在解决现有模型在东南亚语言识别中的不足。该模型基于Qwen2-VL2B架构,通过微调和高质量数据训练,显著提升了印尼、泰语等非拉丁字母文档的文本提取准确率,在身份证、驾照等合规处理中表现优异,超越了传统OCR工具。
百度电商引入大模型,重塑风控审核流程,商家用户双赢!
百度电商通过引入大模型技术,重塑风控审核流程,实现了全机审、即时反馈和高可解释性。新方案整合多模态大模型、规则引擎和知识库,覆盖95%以上违规问题,将审核时间从数小时缩短至实时,并提供详细拒审理由和整改建议。这一创新不仅提升商家满意度和效率,也降低用户风险,推动电商行业智能化发展。
MiniMax Music 2.0 正式发布,音乐创作迎来新纪元
MiniMax稀宇科技正式发布新一代音乐生成模型MiniMax Music 2.0,这款被誉为'会唱歌的制作人'的AI工具在音乐理解与表达方面实现重大突破。它支持多种唱法与情感风格切换,用户通过提示词即可控制音色与演唱方式,还能生成最长5分钟的完整歌曲并精细控制多种乐器,为专业音乐人和爱好者带来全新的创作体验。
谷歌CEO确认:Gemini3年内发布,AI Agent能力或成突破口
谷歌CEO皮查伊确认Gemini3将在年内发布,重点提升AI Agent能力以处理复杂多模态任务。这款新模型旨在超越Gemini2.5Pro,缩小与GPT-5等竞争对手的差距。同时,Alphabet季度营收首次突破千亿美元,AI业务成为核心增长动力,Gemini App月活用户达6.5亿,显示谷歌在AI领域的强劲发展势头。
美团 LongCat 大模型 App 正式上线!语音通话与联网搜索让你与 AI 更亲密
美团 LongCat 大模型官方 App 正式上线,支持语音通话和联网搜索功能,未来还将增加视频通话。这款 AI 应用通过强大的文本处理和多模态理解能力,帮助用户高效获取信息、解答疑问,提升生活品质。安卓和 iOS 用户均可下载体验,开启与 AI 的亲密互动。
Canva 旗下 Affinity 全新版本重磅发布:免费开放挑战 Adobe 霸主地位
Canva旗下专业设计软件Affinity发布全新版本,宣布永久免费开放,直接挑战Adobe的订阅模式。新版软件将矢量设计、图像编辑与排版功能深度整合,支持macOS与Windows系统,并集成Canva AI Studio提供生成式填充、背景移除等AI工具。这一举措可能重塑设计软件市场格局,为设计师提供更普惠的专业创意工具选择。
智源研究院发布悟界Emu3.5,开启多模态世界大模型新纪元
智源研究院发布Emu3.5多模态世界大模型,通过自回归架构实现'Next-State Prediction',具备10万亿token训练规模和34B参数量。该模型突破性地融合了多模态理解与生成能力,能够执行复杂任务规划、动态世界模拟和具身交互操作,为通用人工智能发展提供了可度量的实践路径,开启了从数字世界迈向物理世界的新纪元。
阿里新研究:统一了VLA和世界模型
阿里巴巴达摩院联合浙江大学提出WorldVLA框架,首次将视觉语言动作模型与世界模型相统一。该框架通过三套独立分词器处理图像、文本和动作,采用创新的注意力掩码设计,实现了动作生成与视觉理解的相互增强。实验证明WorldVLA在机器人操作任务中显著优于独立模型,为具身智能发展提供了新思路。
字节跳动Seed团队宣布推出3D生成大模型Seed 3D 1.0
字节跳动Seed团队推出3D生成大模型Seed3D1.0,该模型能够从单张图像端到端生成高质量仿真级3D模型,包含精细几何、真实纹理和PBR材质。采用Diffusion Transformer架构,在几何生成、纹理一致性和材质准确性方面表现优异,超越业界同类模型。这一技术为具身智能提供强大的世界模拟器支持,推动机器人训练和交互式学习发展。