Gemini Omni实现地图截图生成驾驶视频
#1正文
DeepMind CEO Demis Hassabis展示Gemini Omni新能力,用户上传带有路线标记的Google Maps截图后,提示模型生成沿该路线驾驶出租车的第一人称视角视频。生成结果与真实场景非常接近,体现了多模态大模型在视觉生成领域的技术突破。
三体AI日报 2026-05-22
正文
DeepMind CEO Demis Hassabis展示Gemini Omni新能力,用户上传带有路线标记的Google Maps截图后,提示模型生成沿该路线驾驶出租车的第一人称视角视频。生成结果与真实场景非常接近,体现了多模态大模型在视觉生成领域的技术突破。
正文
研究人员提出Grounded Personality Reasoning(GPR)任务,要求MLLMs将每个人格评分锚定在可观察的行为证据上。同时发布MM-OCEAN数据集,包含1,104个视频和5,320个选择题。对27个MLLMs的基准测试揭示了显著的偏见差距:51%的正确评分并未基于检索到的行为线索,整体化 grounding率仅为0-33.5%。
正文
ACC(Agent Context Compilation)方法将智能体轨迹转换为长上下文问答对,用于训练LLM直接回答问题而非使用工具。该方法在MRCR和GraphWalks基准上验证:训练Qwen3-30B-A3B达到68.3分(+18.1)和77.5分(+7.6),性能接近Qwen3-235B-A22B,同时保持GPQA、MMLU-Pro等通用能力。机制分析显示模型表现出任务自适应注意力重组和专家专业化。
正文
Maestro是一个强化学习驱动的编排框架,将异构多模态任务重新定义为分层模型-技能注册表上的顺序决策过程。它训练一个轻量级策略来动态组合冻结的专家模型和双层技能库,决定每一步是否调用外部专家、选择哪个模型-技能对以及何时终止。策略通过基于结果的强化学习进行优化,无需步骤级监督。Maestro在涵盖数学推理、图表理解、高分辨率感知和领域特定分析的10个代表性多模态基准测试中进行评估,仅用4B编排器就达到70.1%平均准确率,超越GPT-5的69.3%和Gemini-2.5-Pro的68.7%。学习到的协调策略可泛化到未见过的模型和技能,无需重训练。
正文
Bernini统一了多模态大语言模型(MLLM)和扩散模型:MLLM在ViT嵌入空间进行语义规划,DiT渲染器基于语义规划、文本特征和源VAE特征合成像素。引入Segment-Aware 3D RoPE处理多视觉输入,并在规划器中融入思维链推理。在视频生成和编辑基准上达到SOTA性能,MLLM的预训练理解能力转化为强大的编辑任务泛化能力。
正文
阿里Qwen团队在2026阿里云峰会上正式发布Qwen3.7-Max,这是其最先进的企业级推理智能体模型。该模型具备100万Token上下文窗口,支持长程任务处理(数百至数千步),能够处理编码调试、办公流程自动化等复杂任务。Qwen3.7-Max采用扩展思考模式(Extended-Thinking Mode),先生成思维链再输出结果。模型为闭源权重,可通过API访问。
正文
Stability AI正式发布Stable Audio 3音频生成模型。该模型提供三个开源变体:Stable Audio 3 Medium(20亿参数)、Stable Audio 3 Small(6亿参数)音乐版、Stable Audio 3 Small(6亿参数)音效版,同时提供大型闭源版本。开源模型具有生成速度快、质量高的特点。
正文
英伟达新发布的Vera中央处理器将解锁200亿美元市场,该市场完全独立于公司2025-2027年Blackwell和Rubin AI GPU产品线预测的1万亿美元市场。黄仁勋预计Vera芯片本财年收入将达到200亿美元,他表示预计Vera将成为第二大销售贡献者。
正文
阿里巴巴发布Qwen 3.7 Max,这是其最新的专有模型,专门针对智能体编程、复杂推理和长时任务执行进行优化。该模型在Artificial Analysis Intelligence Index上得分56.6,表现优于近期发布的Gemini 3.5 Flash和Kimi K2.6。
正文
MIT科技评论深度报道了Anthropic在伦敦举办的Code with Claude开发者大会。会上近半数开发者表示过去一周提交了完全由Claude编写的代码请求,其中多数人未阅读代码内容。Anthropic工程师表示「Anthropic大部分软件现由Claude编写,Claude Code本身大部分代码也由Claude编写」。OpenAI、Google、微软等公司也做出类似声明。这标志着AI编程工具已从实验性技术转变为软件开发的核心基础设施
正文
Hugging Face发布LeRobot Humanoid,这是一个开源机器人学习平台,包含硬件、运行时、识别工具和训练环境。团队构建了一款约2500美元的双足机器人,大部分为3D打印。该平台支持构建、修复、模拟、训练和控制机器人。
正文
Spotify与环球音乐集团宣布达成历史性协议,允许Premium订阅用户利用AI技术创作歌曲翻唱和混音。这一合作标志着AI生成音乐进入主流商业化阶段。参与该协议的艺术家将获得AI翻唱和混音作品的收入分成。该协议被视为音乐产业对AI技术的重要妥协和创新尝试。
正文
OpenAI Codex on macOS现在支持Appshots,允许用户从任何应用快速添加上下文到提示词。用户可在Mac上按Command-Command将应用窗口附加到Codex线程,Codex获取窗口截图和文本。此外还推出新的注释编辑器,goal命令默认启用,插件现在可以分享。
正文
Google Health 5.0正式推出,带来全新的Fitbit应用设计。该版本整合了AI Coach功能,能够为用户提供个性化的健康指导和建议。同时还引入了Android小部件,方便用户直接在主屏幕上查看健康数据。这一更新标志着Google在健康科技领域的进一步深化。
正文
美团推出LongCat-Video-Avatar 1.5,这是一款开源音频驱动人类视频生成框架。新版本采用Whisper-Large替代Wav2Vec2,实现更流畅自然的唇同步效果。通过DMD2蒸馏技术支持8步推理,大幅提升生成速度。该框架支持AT2V、ATI2V和视频续等多种模式,涵盖动漫、动物、多人场景。人类评估显示在相似度指标上超越主流商业模型。
正文
CopilotKit由Atai Barkai和Uli Barkai联合创立,过去两年一直主张现有AI模型范式存在问题。2026年其方法获得开发者社区广泛认可,发布三项基础设施更新分别针对知识检索、测试可靠性和运行时持久性,这些更新瞄准了常被忽视的架构层面,即代理演示与生产级系统之间的差距
正文
AWS SageMaker AI现在支持通过Strands框架部署使用Hugging Face模型的开放代理。该方案支持工具使用、MCP集成和推理追踪等功能。开发者可以在AWS SageMaker上轻松部署和管理基于Hugging Face模型的AI代理。
正文
云端 productivity平台ClickUp宣布裁员22%,CEO Zeb Evans在社交媒体上表示,节省下的成本将直接回馈给留任员工,并设立百万美元薪资档。Evans强调,如果员工使用AI创造超额影响,将获得传统薪资体系之外的报酬。该公司目标是实现「100x output」,并计划围绕AI从零重建公司架构。
正文
据The Information独家报道,Anthropic正在与微软早期洽谈在其云平台上部署自研Maia 200 AI芯片。目前尚不确定是否会达成正式合作,但如果Anthropic决定从微软租用这些芯片,将是微软自研芯片业务的重大胜利。微软一直在积极推进其定制AI芯片的开发,Maia 200芯片是其中的重要产品。
正文
The Information独家报道,OpenAI在2026年第一季度实现约57亿美元营收,大幅领先主要竞争对手Anthropic。Anthropic同期营收约为46亿美元,OpenAI领先优势接近10亿美元。这一数据反映出AI行业头部效应明显,OpenAI在商业化方面保持显著领先地位。
正文
特朗普总统推迟签署一项原本要求对AI模型进行发布前政府安全审查的行政命令。特朗普表示对该命令的语言不满意,认为这可能成为AI发展的阻碍因素。这一决定反映出美国政府在AI监管政策上的谨慎态度,以及对保持AI领域竞争力的关注
正文
用户在使用Cursor Debug模式排查Node版本问题时,Cursor在项目tmp目录下生成了调试文件夹。点击Mark fixed后,Cursor开始自动清理调试文件,但未正确处理Windows PowerShell引号问题,导致删除命令从tmp目录内的文件变成了删除E盘根目录下所有文件,且直接删除不经过回收站。用户提醒开发者慎用Windows系统下Cursor的Debug模式。