小米 MiMo 突破 1000 tokens/s 的技术意义不止于"速度快"——它证明了大参数 MoE 模型的推理效率可以在标准 GPU 硬件上实现数量级的提升,而非依赖 Cerebras(晶圆级芯片)或 Groq(LPU 架构)这类专用硬件。1T 参数的 MoE 模型在单台 8-GPGPU 节点上流畅运行意味着企业级大模型部署的门槛大幅降低——不需要数百张 GPU 的集群就可以部署万亿参数级别的模型。小米的商业模式也值得关注:3 倍 API 价格换取约 10 倍的输出速度提升——这对实时对话、代码补全等延迟敏感场景有直接的商业价值。
来源:小米 MiMo
ABot-Earth0.5 将 3D 城市重建从"专业测绘团队数月工作"压缩为"单台消费级 GPU 的 10 分钟计算"。其可编辑的 3DGS 格式直接兼容 Unity 等引擎,意味着游戏开发、影视制作、数字孪生等场景可以以近乎零成本构建真实城市环境。对具身智能(机器人导航训练)和低空经济(无人机路径规划)而言,一个覆盖全球 190 个国家的 3D 地图底座是极其稀缺的基础设施——之前只有 Google 和 Microsoft 有类似能力但均未开源或低成本开放。
来源:IT之家
WWDC 2026 标志着苹果 AI 战略从"追赶"到"出牌"的关键转折。Core AI 框架的发布表明苹果正在构建类似 Core ML 但更全面的 AI 开发基础设施——不只是模型推理,还包括智能体编排、上下文管理和隐私保护计算。但最重磅的消息是 Siri AI 在欧盟因 DMA(数字市场法案)被推迟——这延续了 Apple Intelligence 在欧盟受限的趋势。DMA 要求"守门人"平台在 AI 集成时必须确保互操作性和公平竞争,而苹果认为这对"系统级深度 AI 集成"构成了过度的合规负担。
Claude 成为 Apple Foundation Models 框架的第一个第三方合作伙伴,这是一个战略级别的卡位胜利。Foundation Models 框架是苹果为开发者提供的统一 AI 接口——在本地运行的简单任务(如文本摘要)走设备端模型,复杂任务(多步推理、代码生成、联网搜索)自动路由到 Claude。Anthropic 通过一个轻量 Swift 包实现了"只需三行代码"的极简接入体验——这正是苹果开发者生态的核心价值观。值得注意的是 Google Gemini 没有被列为合作伙伴,暗示苹果和 Anthropic 在 AI 领域正在形成对抗 Google 的战略联盟。
来源:Claude Blog
NotebookLM 的"智能体化"升级标志着 Google 在 AI 研究工具赛道上的战略投入。传统 NotebookLM 的核心功能是"基于你的文档回答问题",智能体升级后它变成了"基于你的文档主动执行多步骤任务"——比如"帮我找出这 30 篇论文中关于 Transformer 架构的所有实验参数,整理成对比表格,标注哪些是相互矛盾的。"面向 Google AI Ultra 付费用户说明 Google 正在将 NotebookLM 从免费增值工具定位为专业生产力工具,与 ChatGPT Pro 和 Claude Max 形成直接竞争。
来源:NotebookLM
Viggle API 将 AI 动作捕捉从"消费级 App"升级为"可编程 API",这意味着 AI 动画不再是视频创作者的玩具,而是进入了开发者的工具箱。$0.01/秒的定价极具侵略性——这比传统动作捕捉(动辄数百美元/秒)便宜了数千倍。"可接入 Claude、Codex"的设计表明 Viggle 正在成为 AI 智能体的"动画工具"——你的 AI 编码智能体可以直接调用 API 为游戏角色生成动作动画。
来源:Viggle AI
微信 AI Agent 的发布可能是本周最具商业影响力的 AI 产品新闻——不是因为技术突破,而是因为微信拥有 13 亿月活用户和数百万小程序生态。微信 Agent 的核心创新在于"AI 操作小程序"——用户说"帮我点一杯星巴克拿铁",Agent 直接调用星巴克小程序的 API 完成下单。这意味着微信正在构建一个"Agentic Commerce"(代理式交易)平台,AI 不再只是回答问题的聊天机器人,而是直接完成交易闭环的超级入口。"自动模式"的创新尤为激进——开发者无需写任何代码就可以让自己的小程序被 AI 调用,这大幅降低了生态参与的门槛。
来源:IT之家
Kimi Code 的"视频理解"能力在编码智能体赛道中是一个独特的差异化——其他智能体(Claude Code、Codex、Cursor)都是"只读代码文件"的模式,Kimi Code 可以读视频:看 UI 录屏生成前端代码、看教程视频提取步骤转化为脚本、看设计稿视频输出对应样式。ACP(Agent Communication Protocol)的集成则将 Kimi Code 从独立工具变成了可嵌入 IDE 生态的组件——在 JetBrains 和 Zed 中使用意味着它正在从"终端智能体"进化为"跨平台的编码助手"。
来源:月之暗面 Kimi
Aleph 2.0 解决了一个视频创作者每天面对的痛点:同一内容需要适配不同平台(TikTok 9:16、YouTube 16:9、Instagram 1:1),传统做法是手动裁剪或重新构图,Aleph 2.0 用生成式 AI 直接"填充"缺失的画面区域。这相当于"视频版的 Photoshop Generative Fill"——但技术难度高得多,因为视频需要保持跨帧的时间一致性。"如同从一开始就这样制作"的用户体验目标设定很高——如果真能实现,这将是短视频创作者工作流中的必备工具。
来源:Runway
OpenAI 提交 S-1 是 2026 年 AI 行业最具标志性的金融事件。机密提交意味着文件内容尚未公开,但市场普遍预期估值目标可能超过 $1 万亿——这将使其成为历史上最大的科技 IPO,超过阿里巴巴 2014 年的 $250 亿。OpenAI 目前年收入约 $80-100 亿(基于月收入 $20 亿 + 企业客户贡献约 40%),但仍在亏损。Altman 同步宣布的"第三发展阶段"(自动 AI 研究员 → 经济提速 → 每人一个 AGI)既是为 IPO 造势的愿景叙事,也是向 SEC 证明公司"有长期可持续的使命而不仅是烧钱"的合规需求。
来源:OpenAI 官网
Suleyman 的访谈中最关键的信息是:微软与 OpenAI 的"新合同"允许微软独立追求超级智能,而非完全依赖 OpenAI。这意味着微软正在构建自己的前沿 AI 团队和模型(Build 大会上发布的 7 个全模态新模型即为证明)。这实质上是从"独家合作伙伴"变成"亦敌亦友"——在商业产品层面继续合作(Azure 独家运行 OpenAI API),在研究层面各自独立追求 AGI。Suleyman 批评 Anthropic "将 AI 描述为有意识"则暴露了 AI 行业内部在"AI 风险叙事"上的分裂——微软/OAI 倾向于"AI 是工具不需要恐惧"的叙事,而 Anthropic 倾向于"AI 可能有意识需要谨慎"的叙事。
来源:The Verge
Altman 的"2028 年 AI 主导研究"预测是一个大胆的时间线承诺。如果属实——大量 OpenAI 的研究(包括模型架构设计、训练方法优化、评估基准创建)在 2028 年由 AI 自主完成——这意味着 OpenAI 正在接近"递归自我改进"的临界点。但"呼吁在必要时可暂缓前沿模型研发"的声明与 OpenAI 一贯的"全速前进"形象形成鲜明对比——这种软化的语气很可能是为了在 IPO 前向监管机构(SEC 和潜在的 AI 监管机构)展示负责任的态度,也需要与 Anthropic 的"安全优先"叙事在投资人面前竞争。
来源:IT之家
CoreWeave 作为全球最大的 GPU 云服务独立提供商(估值超 $350 亿),其市场分析实际上反映了整个 AI 基础设施行业的供需脉搏。"电力供应"成为限制因素排在第一位说明 AI 增长的天花板正在从"芯片产能不足"转移到"能源基础设施不足"——这解释了为什么 NVIDIA 和微软都在投资 SMR(小型模块化核反应堆)和氢燃料电池。"专业运维人才短缺"则是一个被低估的瓶颈——部署和管理数万张 GPU 集群需要高度专业化的技能,全球具备这种经验的人才可能不超过几千人。
来源:Bloomberg
生数科技与华策的合作是中国 AI 视频生成领域从"Demo 级"走向"工业级"的标志性事件。华策是国内最大的电视剧制作公司之一(《琅琊榜》《三生三世十里桃花》),将 Vidu 引入专业影视流程意味着 AI 视频生成正在从"社交媒体短视频"拓展到"专业长视频制作"。在学校设立 AI 影视专业则是在为行业培育"下一代影视人才"——这批学生将天然地把 AI 工具视为创作流程的一部分而非外部威胁。
来源:生数科技
87% 速度提升和 94% 成本降低是两个在商业决策层面无法被忽视的数字。研究的方法论关键点在于"三个月"的持续时间——这不仅是一次实验室测试,而是在真实工作环境中长期跟踪的结果。这意味着智能体带来的效率提升不是"Hawthorne 效应"(新工具带来的新鲜感和注意力增强),而是持续的生产力改善。"使用 Computer 而非搜索"的对比组设计指出了 AI 助手演进的关键拐点——当 AI 从"找信息给你看"变成"直接帮你把事做完",生产力的计量方式从"节省了搜索时间"变成"节省了整个任务链的时间"。
Anthropic 这篇研究指出了一个被 AI 行业长期忽视的问题:AI 在不同领域的进步速度差异不完全取决于模型能力,更取决于该领域的"数据基础设施是否对 AI 友好"。软件工程拥有 GitHub(统一 API、标准格式、版本管理),而生物学拥有数百个互不兼容的数据库(NCBI、UniProt、PDB 等),每个都有自己独特的数据格式和访问协议。AI 智能体在生物学中的表现差不是因为"不够聪明",而是因为"被基础设施绊倒"。这个发现对科学 AI 的发展方向有直接启示:优先投资"让数据库对 AI 可读"可能比"训练更大的模型"带来更高的边际收益。
Teach 的设计哲学——从 Knowledge(概念)到 Skills(操作)到 Wisdom(判断)——是对"AI 教学"当前范式的精准批判。大多数 AI 学习工具停留在 Knowledge 层:"给我解释一下 X"。Teach 通过"文件即学习状态"的设计将 AI 变成了一个能追踪你学了什么、设计下一步学什么的有状态教学系统。"Learning Record 记'会了什么'而非'讲了什么'"的设计是最关键的创新——它解决了 AI 教学中"你以为你懂了但其实只是听了一段解释"的幻觉问题。
来源:X:邵猛
小互的这个工具的巧妙之处在于"全自动"三个字——用户只需给一个链接,剩下的下载、转写(本地 Whisper,零 API 费)、翻译、制作字幕全部由 AI 编码智能体自动编排。这本质上是"AI 智能体编排视频处理流水线"的一个优雅示例——每个单独步骤都有现成工具(yt-dlp、Whisper、FFmpeg),但将它们串联成一条自动化流水线并处理中间的错误恢复才是真正的价值。"精确到词级时间戳"意味着字幕可以与视频中的嘴型同步——这个级别的精度通常需要专业字幕软件手动调整才能达到。
来源:X:小互
Hivemind 解决的是企业 AI 智能体部署中最核心的"孤岛问题"——每个开发者与 AI 的交互是私有的,优秀的 prompt 和问题解决模式无法成为团队资产。它通过收集智能体的运行轨迹(不仅是成功的,也包括失败的——从错误中学习),将其提炼为可复用的"技能",实现了类似"团队知识库自动构建"的功能。+19.1 和 +24.8 分的提升说明从轨迹中提取的技能带来了实质性的准确率改善。开源 + 数据存储在用户自有云中解决了企业最关心的数据安全问题。
来源:X:Kim
这个案例与上周的北海道农民案例形成了有趣的呼应——两个不同国家的农民,使用相同的 AI 工具,解决类似的农业技术问题。这验证了一个重要的判断:AI 编码工具的最大社会价值可能不是让硅谷工程师效率翻倍(他们本来就很高效),而是让"世界各地的非技术从业者能够构建自己的技术解决方案"。云南农民自建的病害识别和温控系统如果通过传统外包商来做可能需要数十万的投入,但用 Codex 只需他自己花几个晚上学习调试。
这个 v3 实验的发现对 AI 智能体系统设计有深远影响。"五个不同模型的经济体"实验表明,同一经济规则的模拟在不同模型上产生了完全相反的行为——一个崩盘、一个囤积。这颠覆了"涌现行为是系统设计的自然结果"这一假设——涌现行为可能是特定模型在特定初始条件下的偶然产物,而非系统的稳定属性。"在涌现纹理与确定性控制之间找到精确接缝"这个表述非常精准:你需要 AI 的灵活性(涌现)来处理未预料到的边缘情况,但核心的安全和经济逻辑必须由确定性代码(控制)来保证。
OpenRouter Advisor 的设计反映了 AI 推理成本优化的一个新范式——"级联路由"(cascading routing)。与其在全量请求上使用昂贵的大模型(Claude Opus 每百万 token $15),不如默认用小模型(约 $0.50/百万 token),只在检测到"困境循环"(反复输出相同内容、拒绝回答、自相矛盾)时自动升级到大模型。这类似于 CPU 中的"分支预测"——大部分时间走快速路径,必要时才启动复杂逻辑。如果普及,这将大幅降低 AI 推理的平均成本并加速企业从小模型到大模型的迁移。
来源:OpenRouter