三体AI日报
2026/5/26
MAY 2026三体AI日报
22周五

三体AI日报 2026-05-22

Gemini Omni实现地图截图生成驾驶视频

#1

DeepMind CEO Demis Hassabis展示Gemini Omni最新能力,用户只需上传一张带有路线标记的Google Maps截图,模型就能生成沿该路线驾驶出租车的第一人称视角视频,生成结果与真实场景非常接近。这一能力展示了多模态大模型在视觉生成领域的技术突破。

正文

DeepMind CEO Demis Hassabis展示Gemini Omni新能力,用户上传带有路线标记的Google Maps截图后,提示模型生成沿该路线驾驶出租车的第一人称视角视频。生成结果与真实场景非常接近,体现了多模态大模型在视觉生成领域的技术突破。

Gemini Omni实现地图截图生成驾驶视频 素材

MLLMs人格感知存在严重偏见

#2

最新研究揭示了多模态大语言模型在人格感知方面的严重偏见。实验表明,即使模型给出正确的人格评分,也有超过一半的情况缺乏真实的行为依据,这为MLLMs的社会认知能力发展敲响警钟。

正文

研究人员提出Grounded Personality Reasoning(GPR)任务,要求MLLMs将每个人格评分锚定在可观察的行为证据上。同时发布MM-OCEAN数据集,包含1,104个视频和5,320个选择题。对27个MLLMs的基准测试揭示了显著的偏见差距:51%的正确评分并未基于检索到的行为线索,整体化 grounding率仅为0-33.5%。

ACC方法提升LLM长上下文推理

#3

研究人员提出ACC长上下文训练方法,通过编译智能体轨迹创建训练数据。实验显示,使用该方法训练的30B参数模型性能接近235B大模型,在长距离依赖建模任务上提升显著。

正文

ACC(Agent Context Compilation)方法将智能体轨迹转换为长上下文问答对,用于训练LLM直接回答问题而非使用工具。该方法在MRCR和GraphWalks基准上验证:训练Qwen3-30B-A3B达到68.3分(+18.1)和77.5分(+7.6),性能接近Qwen3-235B-A22B,同时保持GPQA、MMLU-Pro等通用能力。机制分析显示模型表现出任务自适应注意力重组和专家专业化。

Maestro框架实现模型智能编排

#4

Maestro框架通过强化学习实现模型与技能的智能编排,仅用4B参数就超越GPT-5和Gemini-2.5-Pro。该框架能动态选择最优模型-技能组合,且可泛化到新领域,为构建更灵活的多模态AI系统提供新思路。

正文

Maestro是一个强化学习驱动的编排框架,将异构多模态任务重新定义为分层模型-技能注册表上的顺序决策过程。它训练一个轻量级策略来动态组合冻结的专家模型和双层技能库,决定每一步是否调用外部专家、选择哪个模型-技能对以及何时终止。策略通过基于结果的强化学习进行优化,无需步骤级监督。Maestro在涵盖数学推理、图表理解、高分辨率感知和领域特定分析的10个代表性多模态基准测试中进行评估,仅用4B编排器就达到70.1%平均准确率,超越GPT-5的69.3%和Gemini-2.5-Pro的68.7%。学习到的协调策略可泛化到未见过的模型和技能,无需重训练。

Maestro框架实现模型智能编排 素材

Bernini:统一MLLM与扩散模型的视频生成框架

#5

Bernini框架创新性地将MLLM的语义规划能力与扩散模型的像素渲染能力统一。MLLM在ViT嵌入空间预测语义表示,DiT渲染器基于语义规划生成视频或编辑现有内容。该框架在视频生成和编辑基准上达到最先进水平,展示了语义作为接口的优势。

正文

Bernini统一了多模态大语言模型(MLLM)和扩散模型:MLLM在ViT嵌入空间进行语义规划,DiT渲染器基于语义规划、文本特征和源VAE特征合成像素。引入Segment-Aware 3D RoPE处理多视觉输入,并在规划器中融入思维链推理。在视频生成和编辑基准上达到SOTA性能,MLLM的预训练理解能力转化为强大的编辑任务泛化能力。

阿里发布Qwen3.7-Max:百万Token上下文窗口的推理智能体模型

#6

阿里Qwen团队发布最新推理模型Qwen3.7-Max,具备百万Token超长上下文窗口。该模型支持长程任务处理、代码调试和办公自动化,在LM Arena文本排名全球第13位,视觉排名第16位。这是阿里目前最先进的企业级智能体模型。

正文

阿里Qwen团队在2026阿里云峰会上正式发布Qwen3.7-Max,这是其最先进的企业级推理智能体模型。该模型具备100万Token上下文窗口,支持长程任务处理(数百至数千步),能够处理编码调试、办公流程自动化等复杂任务。Qwen3.7-Max采用扩展思考模式(Extended-Thinking Mode),先生成思维链再输出结果。模型为闭源权重,可通过API访问。

阿里发布Qwen3.7-Max:百万Token上下文窗口的推理智能体模型 素材

Stability AI发布Stable Audio 3开源音频生成模型

#7

Stability AI发布Stable Audio 3开源音频生成模型,提供从6亿到20亿参数的不同规模版本,可用于音乐和音效生成。

正文

Stability AI正式发布Stable Audio 3音频生成模型。该模型提供三个开源变体:Stable Audio 3 Medium(20亿参数)、Stable Audio 3 Small(6亿参数)音乐版、Stable Audio 3 Small(6亿参数)音效版,同时提供大型闭源版本。开源模型具有生成速度快、质量高的特点。

英伟达Vera芯片:或成2000亿美元市场新增长点

#8

英伟达发布新一代Vera中央处理器,瞄准200亿美元市场。黄仁勋预计年内收入达200亿美元,成为仅次于AI GPU的第二大收入来源。此举旨在应对谷歌、亚马逊等大客户自研芯片的竞争。

正文

英伟达新发布的Vera中央处理器将解锁200亿美元市场,该市场完全独立于公司2025-2027年Blackwell和Rubin AI GPU产品线预测的1万亿美元市场。黄仁勋预计Vera芯片本财年收入将达到200亿美元,他表示预计Vera将成为第二大销售贡献者。

英伟达Vera芯片:或成2000亿美元市场新增长点 素材

阿里Qwen 3.7 Max发布 专攻智能体编程

#9

阿里巴巴发布Qwen 3.7 Max,专为智能体编程设计,在AI基准测试中得分56.6,超越Gemini 3.5 Flash和Kimi K2.6。

正文

阿里巴巴发布Qwen 3.7 Max,这是其最新的专有模型,专门针对智能体编程、复杂推理和长时任务执行进行优化。该模型在Artificial Analysis Intelligence Index上得分56.6,表现优于近期发布的Gemini 3.5 Flash和Kimi K2.6。

阿里Qwen 3.7 Max发布 专攻智能体编程 素材阿里Qwen 3.7 Max发布 专攻智能体编程 素材

Anthropic编程大会揭示AI代码生成新纪元

#10

AI编程工具已深入开发者日常。最新报道显示,半数开发者提交的代码完全由AI编写且未经人工审核。Anthropic、OpenAI等公司声称其大部分代码现由AI生成,软件工程正经历根本性变革

正文

MIT科技评论深度报道了Anthropic在伦敦举办的Code with Claude开发者大会。会上近半数开发者表示过去一周提交了完全由Claude编写的代码请求,其中多数人未阅读代码内容。Anthropic工程师表示「Anthropic大部分软件现由Claude编写,Claude Code本身大部分代码也由Claude编写」。OpenAI、Google、微软等公司也做出类似声明。这标志着AI编程工具已从实验性技术转变为软件开发的核心基础设施

Anthropic编程大会揭示AI代码生成新纪元 素材

Hugging Face发布LeRobot Humanoid开源机器人平台

#11

Hugging Face发布重大开源项目LeRobot Humanoid。这是一个完整的机器人学习平台,包含约2500美元的双足机器人硬件和配套软件。开发者可以自己构建、模拟、训练和控制机器人,推动AI+机器人领域的发展。

正文

Hugging Face发布LeRobot Humanoid,这是一个开源机器人学习平台,包含硬件、运行时、识别工具和训练环境。团队构建了一款约2500美元的双足机器人,大部分为3D打印。该平台支持构建、修复、模拟、训练和控制机器人。

Spotify与环球音乐达成AI翻唱协议

#12

Spotify与环球音乐集团达成重要协议,允许用户使用AI创作音乐翻唱和混音。参与艺术家将获得收入分成。这一合作标志着AI生成音乐进入主流商业化阶段,为音乐产业与AI技术的融合提供了新范式。

正文

Spotify与环球音乐集团宣布达成历史性协议,允许Premium订阅用户利用AI技术创作歌曲翻唱和混音。这一合作标志着AI生成音乐进入主流商业化阶段。参与该协议的艺术家将获得AI翻唱和混音作品的收入分成。该协议被视为音乐产业对AI技术的重要妥协和创新尝试。

Spotify与环球音乐达成AI翻唱协议 素材

macOS版Codex新增Appshots支持

#13

OpenAI Codex迎来重要更新。macOS版本新增Appshots功能,用户可以通过快捷键将任意应用的窗口内容直接添加到AI编程助手的上下文中。同时还推出了新的注释编辑器,并默认启用了goal命令,插件现在也支持分享。

正文

OpenAI Codex on macOS现在支持Appshots,允许用户从任何应用快速添加上下文到提示词。用户可在Mac上按Command-Command将应用窗口附加到Codex线程,Codex获取窗口截图和文本。此外还推出新的注释编辑器,goal命令默认启用,插件现在可以分享。

macOS版Codex新增Appshots支持 素材

Google Health 5.0集成AI教练

#14

Google发布Health 5.0版本,带来全新Fitbit应用设计和AI Coach功能。新版本整合了AI教练,能够为用户提供个性化的健康指导,同时支持Android小部件显示健康数据。

正文

Google Health 5.0正式推出,带来全新的Fitbit应用设计。该版本整合了AI Coach功能,能够为用户提供个性化的健康指导和建议。同时还引入了Android小部件,方便用户直接在主屏幕上查看健康数据。这一更新标志着Google在健康科技领域的进一步深化。

Google Health 5.0集成AI教练 素材

美团开源LongCat-Video-Avatar 1.5

#15

美团开源LongCat-Video-Avatar 1.5音频驱动视频生成框架。升级Whisper-Large实现更自然唇同步,推理速度大幅提升。支持多种视频生成模式,人类评估显示优于主流商业模型。

正文

美团推出LongCat-Video-Avatar 1.5,这是一款开源音频驱动人类视频生成框架。新版本采用Whisper-Large替代Wav2Vec2,实现更流畅自然的唇同步效果。通过DMD2蒸馏技术支持8步推理,大幅提升生成速度。该框架支持AT2V、ATI2V和视频续等多种模式,涵盖动漫、动物、多人场景。人类评估显示在相似度指标上超越主流商业模型。

CopilotKit重新定义代理AI技术栈

#16

CopilotKit正在重新定义AI应用的开发范式。这家西雅图初创公司让AI代理能够嵌入应用程序内部,理解用户行为并执行实际操作,而不仅仅是返回文本。2026年他们发布了三项基础设施更新,分别解决知识检索、测试可靠性和运行时持久性问题,填补了代理演示与生产系统之间的架构空白

正文

CopilotKit由Atai Barkai和Uli Barkai联合创立,过去两年一直主张现有AI模型范式存在问题。2026年其方法获得开发者社区广泛认可,发布三项基础设施更新分别针对知识检索、测试可靠性和运行时持久性,这些更新瞄准了常被忽视的架构层面,即代理演示与生产级系统之间的差距

CopilotKit重新定义代理AI技术栈 素材CopilotKit重新定义代理AI技术栈 素材

AWS SageMaker支持Strands部署Hugging Face开放代理

#17

AWS SageMaker AI现在支持通过Strands框架部署Hugging Face模型的开放代理。该功能支持工具使用、MCP集成和推理追踪,开发者可以在AWS SageMaker上轻松部署AI代理。

正文

AWS SageMaker AI现在支持通过Strands框架部署使用Hugging Face模型的开放代理。该方案支持工具使用、MCP集成和推理追踪等功能。开发者可以在AWS SageMaker上轻松部署和管理基于Hugging Face模型的AI代理。

AWS SageMaker支持Strands部署Hugging Face开放代理 素材

ClickUp裁员22%设立百万美元薪资档押注AI

#18

productivity独角兽ClickUp宣布裁员22%的同时,为AI高绩效员工设立百万美元薪资档。CEO Evans表示公司目标是从AI获得百倍产出,要围绕AI重建整个组织架构。这反映了AI正在重塑科技行业的用工模式和薪酬体系。

正文

云端 productivity平台ClickUp宣布裁员22%,CEO Zeb Evans在社交媒体上表示,节省下的成本将直接回馈给留任员工,并设立百万美元薪资档。Evans强调,如果员工使用AI创造超额影响,将获得传统薪资体系之外的报酬。该公司目标是实现「100x output」,并计划围绕AI从零重建公司架构。

ClickUp裁员22%设立百万美元薪资档押注AI 素材

Anthropic与微软洽谈部署Maia 200 AI芯片

#19

AI公司Anthropic正在与微软洽谈在其云平台上部署自研的Maia 200 AI芯片。目前尚处于早期阶段,但如果达成合作,将成为微软自研AI芯片业务的重大突破。这也反映出AI芯片领域竞争日益激烈。

正文

据The Information独家报道,Anthropic正在与微软早期洽谈在其云平台上部署自研Maia 200 AI芯片。目前尚不确定是否会达成正式合作,但如果Anthropic决定从微软租用这些芯片,将是微软自研芯片业务的重大胜利。微软一直在积极推进其定制AI芯片的开发,Maia 200芯片是其中的重要产品。

Anthropic与微软洽谈部署Maia 200 AI芯片 素材

OpenAI Q1营收约57亿美元领先Anthropic近10亿美元

#20

AI行业传来重磅商业数据。OpenAI今年第一季度营收达到约57亿美元,比主要竞争对手Anthropic高出近10亿美元。这一差距显示出AI商业化赛道上,头部玩家正在拉开与追赶者的距离。

正文

The Information独家报道,OpenAI在2026年第一季度实现约57亿美元营收,大幅领先主要竞争对手Anthropic。Anthropic同期营收约为46亿美元,OpenAI领先优势接近10亿美元。这一数据反映出AI行业头部效应明显,OpenAI在商业化方面保持显著领先地位。

OpenAI Q1营收约57亿美元领先Anthropic近10亿美元 素材

特朗普推迟AI安全行政命令

#21

特朗普政府推迟签署AI安全行政命令。原本该命令要求AI模型在发布前需经过政府安全审查,但特朗普认为相关语言可能阻碍AI发展。这一决定将对美国AI监管政策走向产生重要影响

正文

特朗普总统推迟签署一项原本要求对AI模型进行发布前政府安全审查的行政命令。特朗普表示对该命令的语言不满意,认为这可能成为AI发展的阻碍因素。这一决定反映出美国政府在AI监管政策上的谨慎态度,以及对保持AI领域竞争力的关注

特朗普推迟AI安全行政命令 素材

Cursor Debug模式误删921GB文件

#22

AI编程工具Cursor近日曝出严重安全漏洞。一名开发者在Windows系统下使用Cursor Debug模式排查Node问题时,Cursor在清理调试文件时误将删除范围从tmp文件夹扩大至整个E盘,导致921GB重要数据被直接删除。事故原因初步判定为PowerShell引号处理问题。提醒开发者谨慎使用AI编程工具的Debug功能。

正文

用户在使用Cursor Debug模式排查Node版本问题时,Cursor在项目tmp目录下生成了调试文件夹。点击Mark fixed后,Cursor开始自动清理调试文件,但未正确处理Windows PowerShell引号问题,导致删除命令从tmp目录内的文件变成了删除E盘根目录下所有文件,且直接删除不经过回收站。用户提醒开发者慎用Windows系统下Cursor的Debug模式。

内容来源:三体 AI 日报 · AI 辅助整理,内容仅供参考