2026/5/26

MAY 2026三体AI日报

22周五

三体AI日报 2026-05-22

视频版play_arrow哔哩哔哩 smart_displayYouTube

今日概览

模型技术9

#1Gemini Omni实现地图截图生成驾驶视频
#2MLLMs人格感知存在严重偏见
#3ACC方法提升LLM长上下文推理
#4Maestro框架实现模型智能编排
#5Bernini：统一MLLM与扩散模型的视频生成框架
#6阿里发布Qwen3.7-Max：百万Token上下文窗口的推理智能体模型
#7Stability AI发布Stable Audio 3开源音频生成模型
#8英伟达Vera芯片：或成2000亿美元市场新增长点
#9阿里Qwen 3.7 Max发布专攻智能体编程

产品应用5

#10Anthropic编程大会揭示AI代码生成新纪元
#11Hugging Face发布LeRobot Humanoid开源机器人平台
#12Spotify与环球音乐达成AI翻唱协议
#13macOS版Codex新增Appshots支持
#14Google Health 5.0集成AI教练

开发生态3

#15美团开源LongCat-Video-Avatar 1.5
#16CopilotKit重新定义代理AI技术栈
#17AWS SageMaker支持Strands部署Hugging Face开放代理

行业商业3

#18ClickUp裁员22%设立百万美元薪资档押注AI
#19Anthropic与微软洽谈部署Maia 200 AI芯片
#20OpenAI Q1营收约57亿美元领先Anthropic近10亿美元

政策监管1

#21特朗普推迟AI安全行政命令

安全伦理1

#22Cursor Debug模式误删921GB文件

Lead Story

Gemini Omni实现地图截图生成驾驶视频

DeepMind CEO Demis Hassabis展示Gemini Omni最新能力，用户只需上传一张带有路线标记的Google Maps截图，模型就能生成沿该路线驾驶出租车的第一人称视角视频，生成结果与真实场景非常接近。这一能力展示了多模态大模型在视觉生成领域的技术突破。

正文

DeepMind CEO Demis Hassabis展示Gemini Omni新能力，用户上传带有路线标记的Google Maps截图后，提示模型生成沿该路线驾驶出租车的第一人称视角视频。生成结果与真实场景非常接近，体现了多模态大模型在视觉生成领域的技术突破。

MLLMs人格感知存在严重偏见

最新研究揭示了多模态大语言模型在人格感知方面的严重偏见。实验表明，即使模型给出正确的人格评分，也有超过一半的情况缺乏真实的行为依据，这为MLLMs的社会认知能力发展敲响警钟。

正文

研究人员提出Grounded Personality Reasoning（GPR）任务，要求MLLMs将每个人格评分锚定在可观察的行为证据上。同时发布MM-OCEAN数据集，包含1,104个视频和5,320个选择题。对27个MLLMs的基准测试揭示了显著的偏见差距：51%的正确评分并未基于检索到的行为线索，整体化 grounding率仅为0-33.5%。

ACC方法提升LLM长上下文推理

研究人员提出ACC长上下文训练方法，通过编译智能体轨迹创建训练数据。实验显示，使用该方法训练的30B参数模型性能接近235B大模型，在长距离依赖建模任务上提升显著。

正文

ACC（Agent Context Compilation）方法将智能体轨迹转换为长上下文问答对，用于训练LLM直接回答问题而非使用工具。该方法在MRCR和GraphWalks基准上验证：训练Qwen3-30B-A3B达到68.3分（+18.1）和77.5分（+7.6），性能接近Qwen3-235B-A22B，同时保持GPQA、MMLU-Pro等通用能力。机制分析显示模型表现出任务自适应注意力重组和专家专业化。

Maestro框架实现模型智能编排

Maestro框架通过强化学习实现模型与技能的智能编排，仅用4B参数就超越GPT-5和Gemini-2.5-Pro。该框架能动态选择最优模型-技能组合，且可泛化到新领域，为构建更灵活的多模态AI系统提供新思路。

正文

Maestro是一个强化学习驱动的编排框架，将异构多模态任务重新定义为分层模型-技能注册表上的顺序决策过程。它训练一个轻量级策略来动态组合冻结的专家模型和双层技能库，决定每一步是否调用外部专家、选择哪个模型-技能对以及何时终止。策略通过基于结果的强化学习进行优化，无需步骤级监督。Maestro在涵盖数学推理、图表理解、高分辨率感知和领域特定分析的10个代表性多模态基准测试中进行评估，仅用4B编排器就达到70.1%平均准确率，超越GPT-5的69.3%和Gemini-2.5-Pro的68.7%。学习到的协调策略可泛化到未见过的模型和技能，无需重训练。

Bernini：统一MLLM与扩散模型的视频生成框架

Bernini框架创新性地将MLLM的语义规划能力与扩散模型的像素渲染能力统一。MLLM在ViT嵌入空间预测语义表示，DiT渲染器基于语义规划生成视频或编辑现有内容。该框架在视频生成和编辑基准上达到最先进水平，展示了语义作为接口的优势。

正文

Bernini统一了多模态大语言模型（MLLM）和扩散模型：MLLM在ViT嵌入空间进行语义规划，DiT渲染器基于语义规划、文本特征和源VAE特征合成像素。引入Segment-Aware 3D RoPE处理多视觉输入，并在规划器中融入思维链推理。在视频生成和编辑基准上达到SOTA性能，MLLM的预训练理解能力转化为强大的编辑任务泛化能力。

阿里发布Qwen3.7-Max：百万Token上下文窗口的推理智能体模型

阿里Qwen团队发布最新推理模型Qwen3.7-Max，具备百万Token超长上下文窗口。该模型支持长程任务处理、代码调试和办公自动化，在LM Arena文本排名全球第13位，视觉排名第16位。这是阿里目前最先进的企业级智能体模型。

正文

阿里Qwen团队在2026阿里云峰会上正式发布Qwen3.7-Max，这是其最先进的企业级推理智能体模型。该模型具备100万Token上下文窗口，支持长程任务处理（数百至数千步），能够处理编码调试、办公流程自动化等复杂任务。Qwen3.7-Max采用扩展思考模式（Extended-Thinking Mode），先生成思维链再输出结果。模型为闭源权重，可通过API访问。

Stability AI发布Stable Audio 3开源音频生成模型

Stability AI发布Stable Audio 3开源音频生成模型，提供从6亿到20亿参数的不同规模版本，可用于音乐和音效生成。

正文

Stability AI正式发布Stable Audio 3音频生成模型。该模型提供三个开源变体：Stable Audio 3 Medium(20亿参数)、Stable Audio 3 Small(6亿参数)音乐版、Stable Audio 3 Small(6亿参数)音效版，同时提供大型闭源版本。开源模型具有生成速度快、质量高的特点。

英伟达Vera芯片：或成2000亿美元市场新增长点

英伟达发布新一代Vera中央处理器，瞄准200亿美元市场。黄仁勋预计年内收入达200亿美元，成为仅次于AI GPU的第二大收入来源。此举旨在应对谷歌、亚马逊等大客户自研芯片的竞争。

正文

英伟达新发布的Vera中央处理器将解锁200亿美元市场，该市场完全独立于公司2025-2027年Blackwell和Rubin AI GPU产品线预测的1万亿美元市场。黄仁勋预计Vera芯片本财年收入将达到200亿美元，他表示预计Vera将成为第二大销售贡献者。

阿里Qwen 3.7 Max发布专攻智能体编程

阿里巴巴发布Qwen 3.7 Max，专为智能体编程设计，在AI基准测试中得分56.6，超越Gemini 3.5 Flash和Kimi K2.6。

正文

阿里巴巴发布Qwen 3.7 Max，这是其最新的专有模型，专门针对智能体编程、复杂推理和长时任务执行进行优化。该模型在Artificial Analysis Intelligence Index上得分56.6，表现优于近期发布的Gemini 3.5 Flash和Kimi K2.6。

Anthropic编程大会揭示AI代码生成新纪元

#10

AI编程工具已深入开发者日常。最新报道显示，半数开发者提交的代码完全由AI编写且未经人工审核。Anthropic、OpenAI等公司声称其大部分代码现由AI生成，软件工程正经历根本性变革

正文

MIT科技评论深度报道了Anthropic在伦敦举办的Code with Claude开发者大会。会上近半数开发者表示过去一周提交了完全由Claude编写的代码请求，其中多数人未阅读代码内容。Anthropic工程师表示「Anthropic大部分软件现由Claude编写，Claude Code本身大部分代码也由Claude编写」。OpenAI、Google、微软等公司也做出类似声明。这标志着AI编程工具已从实验性技术转变为软件开发的核心基础设施

Hugging Face发布LeRobot Humanoid开源机器人平台

#11

Hugging Face发布重大开源项目LeRobot Humanoid。这是一个完整的机器人学习平台，包含约2500美元的双足机器人硬件和配套软件。开发者可以自己构建、模拟、训练和控制机器人，推动AI+机器人领域的发展。

正文

Hugging Face发布LeRobot Humanoid，这是一个开源机器人学习平台，包含硬件、运行时、识别工具和训练环境。团队构建了一款约2500美元的双足机器人，大部分为3D打印。该平台支持构建、修复、模拟、训练和控制机器人。

Spotify与环球音乐达成AI翻唱协议

#12

Spotify与环球音乐集团达成重要协议，允许用户使用AI创作音乐翻唱和混音。参与艺术家将获得收入分成。这一合作标志着AI生成音乐进入主流商业化阶段，为音乐产业与AI技术的融合提供了新范式。

正文

Spotify与环球音乐集团宣布达成历史性协议，允许Premium订阅用户利用AI技术创作歌曲翻唱和混音。这一合作标志着AI生成音乐进入主流商业化阶段。参与该协议的艺术家将获得AI翻唱和混音作品的收入分成。该协议被视为音乐产业对AI技术的重要妥协和创新尝试。

macOS版Codex新增Appshots支持

#13

OpenAI Codex迎来重要更新。macOS版本新增Appshots功能，用户可以通过快捷键将任意应用的窗口内容直接添加到AI编程助手的上下文中。同时还推出了新的注释编辑器，并默认启用了goal命令，插件现在也支持分享。

正文

OpenAI Codex on macOS现在支持Appshots，允许用户从任何应用快速添加上下文到提示词。用户可在Mac上按Command-Command将应用窗口附加到Codex线程，Codex获取窗口截图和文本。此外还推出新的注释编辑器，goal命令默认启用，插件现在可以分享。

Google Health 5.0集成AI教练

#14

Google发布Health 5.0版本，带来全新Fitbit应用设计和AI Coach功能。新版本整合了AI教练，能够为用户提供个性化的健康指导，同时支持Android小部件显示健康数据。

正文

Google Health 5.0正式推出，带来全新的Fitbit应用设计。该版本整合了AI Coach功能，能够为用户提供个性化的健康指导和建议。同时还引入了Android小部件，方便用户直接在主屏幕上查看健康数据。这一更新标志着Google在健康科技领域的进一步深化。

美团开源LongCat-Video-Avatar 1.5

#15

美团开源LongCat-Video-Avatar 1.5音频驱动视频生成框架。升级Whisper-Large实现更自然唇同步，推理速度大幅提升。支持多种视频生成模式，人类评估显示优于主流商业模型。

正文

美团推出LongCat-Video-Avatar 1.5，这是一款开源音频驱动人类视频生成框架。新版本采用Whisper-Large替代Wav2Vec2，实现更流畅自然的唇同步效果。通过DMD2蒸馏技术支持8步推理，大幅提升生成速度。该框架支持AT2V、ATI2V和视频续等多种模式，涵盖动漫、动物、多人场景。人类评估显示在相似度指标上超越主流商业模型。

CopilotKit重新定义代理AI技术栈

#16

CopilotKit正在重新定义AI应用的开发范式。这家西雅图初创公司让AI代理能够嵌入应用程序内部，理解用户行为并执行实际操作，而不仅仅是返回文本。2026年他们发布了三项基础设施更新，分别解决知识检索、测试可靠性和运行时持久性问题，填补了代理演示与生产系统之间的架构空白

正文

CopilotKit由Atai Barkai和Uli Barkai联合创立，过去两年一直主张现有AI模型范式存在问题。2026年其方法获得开发者社区广泛认可，发布三项基础设施更新分别针对知识检索、测试可靠性和运行时持久性，这些更新瞄准了常被忽视的架构层面，即代理演示与生产级系统之间的差距

AWS SageMaker支持Strands部署Hugging Face开放代理

#17

AWS SageMaker AI现在支持通过Strands框架部署Hugging Face模型的开放代理。该功能支持工具使用、MCP集成和推理追踪，开发者可以在AWS SageMaker上轻松部署AI代理。

正文

AWS SageMaker AI现在支持通过Strands框架部署使用Hugging Face模型的开放代理。该方案支持工具使用、MCP集成和推理追踪等功能。开发者可以在AWS SageMaker上轻松部署和管理基于Hugging Face模型的AI代理。

AWS SageMaker支持Strands部署Hugging Face开放代理素材

ClickUp裁员22%设立百万美元薪资档押注AI

#18

productivity独角兽ClickUp宣布裁员22%的同时，为AI高绩效员工设立百万美元薪资档。CEO Evans表示公司目标是从AI获得百倍产出，要围绕AI重建整个组织架构。这反映了AI正在重塑科技行业的用工模式和薪酬体系。

正文

云端 productivity平台ClickUp宣布裁员22%，CEO Zeb Evans在社交媒体上表示，节省下的成本将直接回馈给留任员工，并设立百万美元薪资档。Evans强调，如果员工使用AI创造超额影响，将获得传统薪资体系之外的报酬。该公司目标是实现「100x output」，并计划围绕AI从零重建公司架构。

Anthropic与微软洽谈部署Maia 200 AI芯片

#19

AI公司Anthropic正在与微软洽谈在其云平台上部署自研的Maia 200 AI芯片。目前尚处于早期阶段，但如果达成合作，将成为微软自研AI芯片业务的重大突破。这也反映出AI芯片领域竞争日益激烈。

正文

据The Information独家报道，Anthropic正在与微软早期洽谈在其云平台上部署自研Maia 200 AI芯片。目前尚不确定是否会达成正式合作，但如果Anthropic决定从微软租用这些芯片，将是微软自研芯片业务的重大胜利。微软一直在积极推进其定制AI芯片的开发，Maia 200芯片是其中的重要产品。

OpenAI Q1营收约57亿美元领先Anthropic近10亿美元

#20

AI行业传来重磅商业数据。OpenAI今年第一季度营收达到约57亿美元，比主要竞争对手Anthropic高出近10亿美元。这一差距显示出AI商业化赛道上，头部玩家正在拉开与追赶者的距离。

正文

The Information独家报道，OpenAI在2026年第一季度实现约57亿美元营收，大幅领先主要竞争对手Anthropic。Anthropic同期营收约为46亿美元，OpenAI领先优势接近10亿美元。这一数据反映出AI行业头部效应明显，OpenAI在商业化方面保持显著领先地位。

特朗普推迟AI安全行政命令

#21

特朗普政府推迟签署AI安全行政命令。原本该命令要求AI模型在发布前需经过政府安全审查，但特朗普认为相关语言可能阻碍AI发展。这一决定将对美国AI监管政策走向产生重要影响

正文

特朗普总统推迟签署一项原本要求对AI模型进行发布前政府安全审查的行政命令。特朗普表示对该命令的语言不满意，认为这可能成为AI发展的阻碍因素。这一决定反映出美国政府在AI监管政策上的谨慎态度，以及对保持AI领域竞争力的关注

Cursor Debug模式误删921GB文件

#22

AI编程工具Cursor近日曝出严重安全漏洞。一名开发者在Windows系统下使用Cursor Debug模式排查Node问题时，Cursor在清理调试文件时误将删除范围从tmp文件夹扩大至整个E盘，导致921GB重要数据被直接删除。事故原因初步判定为PowerShell引号处理问题。提醒开发者谨慎使用AI编程工具的Debug功能。

正文

用户在使用Cursor Debug模式排查Node版本问题时，Cursor在项目tmp目录下生成了调试文件夹。点击Mark fixed后，Cursor开始自动清理调试文件，但未正确处理Windows PowerShell引号问题，导致删除命令从tmp目录内的文件变成了删除E盘根目录下所有文件，且直接删除不经过回收站。用户提醒开发者慎用Windows系统下Cursor的Debug模式。