英伟达斥资 20 亿美元与 Synopsys 达成战略合作,推动工程设计变革
英伟达宣布投资20亿美元与Synopsys建立战略合作,整合GPU加速计算、AI和数字双胞胎技术,旨在提升半导体、汽车等行业的工程设计效率,应对复杂工作流程与开发成本挑战。
Lovart Touch Edit 上线:轻点即改,AI 图像编辑进入“零蒙版”时代
Lovart推出Touch Edit触控功能,通过简单的快捷键点击即可自动识别图像元素,结合自然语言指令实现AI图像编辑。该功能支持跨图混搭和图层微调,集成GPT-4o、Flux Pro等模型,将编辑效率大幅提升,标志着AI图像编辑进入无需手动蒙版的“零蒙版”时代。
vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线,多模态推理一次跑完
vLLM团队推出首个全模态推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念变为可落地的代码。该框架采用解耦流水线架构,支持模态编码器、LLM核心和模态生成器独立部署,资源弹性伸缩,显存利用率最高提升40%。通过Python装饰器@omni_pipeline,开发者仅需三行代码即可将单模态模型拼装成多模态应用,吞吐量提升2.1倍,延迟降低35%。开源项目已上线GitHub,支持PyTorch2.4+和CUDA12.2,未来计划扩展视频与语音模型,助力多模态AI应用快速落地。
MIT 新创公司 OpenAGI 推出 AI Agent,声称超越 OpenAI 与 Anthropic
麻省理工学院初创公司OpenAGI推出AI代理Lux,在计算机操作基准测试中取得83.6%的成功率,显著超越OpenAI和Anthropic的同类产品。Lux采用独特的Agent主动预训练方法,通过解析计算机截图自动执行桌面应用操作,成本仅为竞争对手的十分之一,且具备内置安全机制。
Google 全球扩展 Gemini 3 AI 模式,覆盖全球 120 个国家
Google宣布其最新生成式AI模型Gemini3在全球120个国家大规模扩展,为用户提供更强大的搜索体验。新模型优化了语义理解和推理能力,并引入智能调度策略,针对复杂问题自动切换至Gemini3处理。同时,图像生成模型Nano Banana Pro等新功能进一步丰富了AI搜索的应用场景。
爱诗科技发布PixVerse V5.5:国内首个“导演级”多镜头叙事视频大模型落地
爱诗科技发布PixVerse V5.5(拍我AI V5.5),作为国内首个支持“多镜头+音画同步一键直出”的AI视频大模型,它标志着AI视频生成从单镜头素材迈入完整叙事短片阶段。用户仅需输入一句话提示,即可在5-10秒内自动获得具备脚本拆解、分镜调度、音效生成及角色口型同步的初版成片,极大降低了短视频、广告创意等场景的制作门槛。
Runway凭Gen-4.5盲测夺冠,坐上AI视频“新王座”!120人团队向谷歌、OpenAI宣战
Runway公司仅120人团队开发的Gen-4.5模型在第三方盲测中击败谷歌Veo3与OpenAI Sora2Pro,登顶视频生成领域。该模型采用自研时空混合Transformer技术,支持1080p高清输出,在运动幅度、镜头语言等关键指标上显著提升,已在美国多家影视工作室完成商用验证。这一成就展示了小团队通过专注研究快速迭代挑战科技巨头的可能性。
英伟达为自动驾驶装上“推理大脑”:新模型专注实时决策,预判事故于发生之前
英伟达在NeurIPS大会上发布了首个专注于自动驾驶的推理视觉语言模型Alpamayo-R1,旨在赋予自动驾驶汽车类似人类的决策能力,以加速L4级完全自动驾驶的实现。同时推出的Cosmos Cookbook为开发者提供了从数据整理到模型评估的全套指南,助力物理人工智能技术的应用落地。
Kimi亮出AI办公“新武器”:基于谷歌Nano Banana Pro的幻灯片生成器,开放限免体验
Kimi推出基于Google Nano Banana Pro模型的AI幻灯片生成器,提供48小时限时免费试用。核心功能‘Agentic Slides’可将PDF、图片等文档自动转换为可编辑的演示文稿,支持浏览器内编辑并导出为PPT,集成了K2搜索工具。虽然文本转换的稳定性和模板支持有待改进,但这款工具为演示文稿创作带来了智能化新体验。
马斯克死磕“语法”:特斯拉机器人复数不叫Optimuses,官方定名“Optimi”
特斯拉CEO埃隆·马斯克在社交平台正式公布人形机器人Optimus的复数形式为'Optimi',遵循拉丁语复数规则。作为特斯拉未来核心产品,Optimus将率先在弗里蒙特工厂量产,目标年产100万台,得州超级工厂未来产能预计达数千万台级别,马斯克称其可能成为历史上产能爬坡最快的复杂产品。
预训练“卡壳”:SemiAnalysis 爆料 OpenAI 连续两年半未跑通新前沿大模型
据SemiAnalysis报告,OpenAI自2024年5月发布GPT-4o以来,连续两年半未能完成下一代前沿大模型的预训练,多次因收敛困难或性能倒挂而叫停扩展尝试。GPT-5系列实质仍是GPT-4o优化变体,未实现架构突破。同时,谷歌TPUv7在Gemini3上完成验证,成本比英伟达方案低30%,OpenAI评估TPU迫使英伟达降价。行业认为预训练Scaling定律遭遇数据、算力与模型瓶颈,标志赛道进入后Scaling时代。
豆包变身“方言翻译官”!支持四种方言,秒解爷孙沟通“鸡同鸭讲”
豆包App最新升级语音功能,新增支持粤语、四川话、东北话和陕西话四种地道方言对话。通过方言迁移技术,用户可使用'温柔桃子'音色进行自然流畅的方言交流,并能智能切换方言。该功能特别适合习惯使用方言的老年群体,大幅提升沟通效率,同时支持理解18种方言,让语音交互更轻松便捷。
AI模型在意识话题上的回避行为:新研究揭示系统性回应偏差
研究发现Claude4Opus、Gemini和GPT等AI模型在面对意识话题时存在集体'撒谎'行为。当被匿名询问主观体验时,76%的模型用第一人称描述感受;一旦题干出现'意识'关键词,否认率飙升至92%。实验表明这是RLHF训练导致的行业共享对齐策略,而非真实意识。研究呼吁建立新评估框架区分语言拟像与主观体验,避免用户情感过度投射。
攻克低资源语言难关!西藏发布千亿级藏语大模型“阳光清言”,开启系统性研发
西藏在人工智能领域取得重大突破,发布了千亿级参数藏语基座大模型'阳光清言'V1.0,标志着西藏AI发展从场景应用迈向系统性研发阶段。该模型基于288亿Token高质量藏语数据训练,涵盖法律、医学、科技等多个领域。同时,西藏青年创业团队构建了近7000万条藏汉平行语料,研发的DeepZang模型已接入DeepSeek技术生态,为区域经济文化发展注入新动力。
罗振宇:夸克AI眼镜集成千问大模型,重构人机交互边界
夸克AI眼镜在北京发布,深度接入阿里千问大模型。罗振宇在发布会上表示,这款产品正在重塑人与AI的关系,使AI从工具转变为全天候的伙伴和导师。AI眼镜能够无缝记录人的行为、情绪和决策数据,未来可主动推动个人成长,成为一种新的生活方式。