Riverflow 2.5 引入了一个图像生成领域此前不存在的概念——"可控制的评分标准"。传统图像模型(Stable Diffusion、Midjourney、DALL·E)对用户而言是黑盒:你输入 prompt,它输出图像,中间的审美判断完全由模型内置的偏好决定。Riverflow 2.5 将这一层暴露给用户——你不仅告诉模型"画什么",还告诉它"用什么标准判断画得好不好"。这在商业应用场景中价值巨大:游戏美术总监可以设定"符合工作室风格指南"的评分维度,品牌设计师可以设定"符合品牌 VI 规范"的约束条件。推理努力参数则提供了一种类似 LLM 中"思考 token 预算"的机制——简单草图用 Fast 模式秒出,最终交付稿用 Pro 模式精细打磨。OpenRouter 选择在免费期(至 6/9)上线 Riverflow 2.5,说明其看好这个"可解释 + 可控制"的图像生成新范式。
来源:OpenRouter
Claude Code v2.1.166 的三个核心特性都指向同一个主题:给开发者更多的控制权。fallbackModel 链(最多 3 个)解决了"主模型过载时工具直接罢工"的问题——这在生产环境的 CI/CD 流水线中可能是任务成功与失败的区别。deny rule 中工具名 glob 支持则是一个看似小但实际重要的安全增强:管理员现在可以用 `Read(**/secret/**)` 这样的通配符一次性保护整类敏感路径,而不需要为每个子目录写一条规则。MAX_THINKING_TOKENS=0 的引入则回应了社区的长期诉求——有些开发者认为 thinking 模式在简单任务上纯粹浪费时间和 token,需要一个全局关闭开关。跨会话消息中继不再携带用户权限是一个重要的安全修复——之前一个被妥协的会话可以将其权限级联传播到接收方。这些改进共同构建了一个更成熟、更适合企业部署的 Claude Code。
Google 的 Agentic RAG 击中了一个企业 AI 部署的真实痛点:标准 RAG 方案在企业环境中表现远不如在学术基准上。原因很简单——学术数据集假设"答案在给定的文档集中",而现实企业查询往往需要跨多个数据源(Confluence、Google Drive、Salesforce、内部数据库)的动态搜索和推理。Google 的方案将这个问题分解为三个智能体协作:规划智能体将查询拆解为子任务,重写智能体优化每个子任务的搜索 query,路由智能体决定去哪个数据源搜索。这个架构的关键在于"迭代"——不是一次搜索就出答案,而是持续搜索直到获得充分上下文。34% 的准确率提升(在事实性数据集上)是实质性的而非渐进的,说明"多智能体 + 迭代检索"确实解决了 RAG 在复杂场景下的根本瓶颈。
Colab CLI 的发布标志着 Google 在"AI 智能体即机器学习的操作者"方向上迈出了实质性一步。过去 ML 工程师的工作流充满手动步骤:打开 Colab 网页 → 连接 GPU 运行时 → 上传数据 → 逐个 cell 运行 → 下载模型权重。Colab CLI 将这一整套流程变成了一条命令行指令,而命令行指令正是 AI 编码智能体(Claude Code、Codex、Gemini CLI)最擅长编排的对象。这意味着你可以对 Claude Code 说"用 Colab 的 A100 微调 Gemma 3,然后把 adapter 下载到本地",它就能自动完成全套操作。这与 Google 推动的"AI 构建 AI"叙事高度一致——让 AI 智能体不仅能写代码,还能调度算力资源。对于个人开发者和小团队而言,这意味着可以用脚本化的方式利用 Colab 的免费/低成本 GPU,而无需手动操作网页界面。
Google AI 的这波"大礼包"式更新密度惊人,反映其正在加速产品化节奏以追赶 OpenAI/Anthropic 的发布速度。Nano Banana 2(命名风格显然在调侃"小但好用")和 Pro 版本的 GA 表明 Google 正在构建分层产品矩阵——不同规模和成本的模型覆盖不同场景。Gemma 4 12B 的"统一无编码器多模态"架构是一个重要的技术方向选择:去掉了传统多模态模型中独立视觉编码器这一层,让文本和图像在同一个 Transformer 中处理。12B 的规模使其可以在消费级笔记本上离线运行——这对隐私敏感场景(医疗、法律、金融)具有战略意义。Co-Scientist 多智能体系统的上线则标志着 Google 的"AI for Science"从科研论文走向了实际产品——让 AI 自动生成、验证和优化科学假设,这在药物发现和材料科学等领域可能产生突破性影响。
来源:Google AI
Gemini Live 的实时图像编辑功能模糊了"对话"和"创作"的边界。传统 AIGC 工作流是异步的:输入 prompt → 等待生成 → 看到结果 → 不满意 → 再输入 → 再等。Live 模式将这个循环压缩到实时——你说"把沙发的颜色换成蓝色",画面就当场变化。这不仅仅是一个 UI 改进,它改变了人机协作的认知模式:从"我给 AI 下指令"变成"我和 AI 一起探索"。共享摄像头的设计尤其聪明——它让 AI 获得了"看见你所看见"的上下文,比如你把手机摄像头对准客厅,Gemini 就能在实时画面中叠加新装饰方案。这与苹果 Vision Pro 的"空间计算"理念异曲同工(都是在现实画面上叠加 AI 生成内容),但门槛更低——不需要 $3500 的头显,只需要现有的手机。在 AR 眼镜普及之前,手机摄像头 + AI 实时编辑可能是最接近"AI 增强现实"的实践路径。
来源:GeminiApp
"从写作块直接发送邮件"这个功能看似微小,实则体现了 OpenAI 对 ChatGPT 产品的核心定位转变:从"聊天机器人"到"工作台"。写作块(writing blocks)是 ChatGPT 此前推出的结构化输出格式——不同于普通对话中的文本流,它是一个独立的、可编辑的文档块。现在增加了"发送邮件"的 action 能力,意味着 ChatGPT 正在从纯文本生成工具向"集成办公工具"进化。这也标志着 OpenAI 与 Gmail/Outlook 等邮件客户端的竞合关系进入新阶段——ChatGPT 不是在做一个新邮件客户端,而是让自己成为所有邮件客户端的"前端写手"。这种"嵌入到现有工作流中而非取代"的策略,比做一个独立的 ChatGPT 邮件客户端更务实、更可落地。
来源:ChatGPT
Viggle_PINOC 做的事情本质上是"动捕民主化"——将原本需要数万至数十万美元设备的专业动作捕捉流程,压缩到一部智能手机就能完成。这背后依赖的是基于视频的姿态估计算法(类似 OpenPose 的深度学习后继版本),能够在单目 RGB 视频中准确推断 3D 人体骨架运动。对独立游戏开发者、小型动画工作室和 VTuber 而言,这意味着角色动画的制作成本从"请专业动捕演员+租工作室"降到"自己在家拍一段"。Viggle 选择免费测试的策略也很聪明——鼓励用户上传大量视频数据,这些数据反过来可以用于改进模型精度。如果这个工具达到生产级质量,它将成为 Unity/Unreal 生态中一个极具威胁的独立工具——动捕不再是 AAA 工作室的特权。
来源:Viggle AI
OpenHarmony EmbodiedAI 1.0.1 的发布是中国在"具身智能"(Embodied AI)基础设施层面的重要布局。与 OpenAI/Google 聚焦于"大模型控制机器人"的软件方案不同,OpenHarmony 走的是"操作系统+硬件适配+仿真环境"的底层平台路线。这是两种不同的产业逻辑:美国公司倾向于用强大的 AI 模型来适应各种硬件,而中国方案倾向于先建立标准化的硬件-软件接口层,让各种机器人本体可以即插即用。18 个专项 SIG 工作组的组建说明这个项目已经聚集了相当规模的开发者社区。兼容 ROS 生态是一个务实的选择——全球绝大多数机器人研究都在 ROS 上,不兼容等于自绝于主流学术界。打通"代码开发→仿真验证→真机部署"的完整链路是工业级机器人操作系统的基本要求,1.0.1 能达到这一步,说明 OpenHarmony 在具身智能领域已经超越了概念验证阶段。
来源:IT之家
AI API 费用管理正在成为企业级 AI 部署中最迫切的基础设施需求之一。2025-2026 年大量企业从"AI 实验"阶段进入"AI 生产"阶段,面对的典型场景是:数十个团队的数百名开发者调用多个 AI 提供商(OpenAI、Anthropic、Google、Mistral 等)的 API,每月的 token 账单可能从几千美元暴涨到几十万美元而无人察觉。Cloudflare AI Gateway 的消费限制功能填补了这个管理真空——不仅仅是"限制总预算",而是通过 Cloudflare Access 的 SSO 集成做到"按人、按团队、按项目"的细粒度配额管理。这使 CFO 和工程 VP 终于有了一个统一的 AI 成本管控界面。Cloudflare 在这个领域的优势在于其网络位置——它们已经在所有 AI API 调用的网络路径上,增加账单控制只是在其现有代理层上加一层逻辑。
阿里云的 SkillClaw 触及了企业 AI 部署中一个核心但被低估的问题:如何让 AI 智能体的"经验"成为团队可共享的资产?当前多数企业的 AI 使用模式是"孤岛式"的——每个员工与 AI 的对话是私有的,优秀的 prompt 和问题解决方法无法形成组织记忆。SkillClaw 试图通过一个三步闭环来解决这个问题:自动从对话中提取有效经验(生成)、通过 Nacos 进行集中的版本管理和审核(治理)、在团队中安全地分发(分发)。这本质上是把"AI 技能的 DevOps"引入企业——就像代码有 Git 仓库一样,AI 技能也应该有版本管理、审核流程和权限控制。Nacos(阿里开源的服务发现和配置管理平台)在其中扮演的角色是"企业级技能治理引擎"——确保只有经过审核的技能才能被使用,且有完整的审计追踪。这对金融、政务等强合规行业尤其重要。
来源:阿里云
350 亿美元——这个数字放在 AI 行业之外的任何领域都是天文数字。作为对比:AMD 收购赛灵思是 350 亿,这是半导体行业史上最大的收购之一。现在这个数字被用作一笔"债务融资"来买芯片,说明 AI 基础设施的资本门槛已经达到了一个全新量级。Apollo 和 Blackstone——全球最大的两家另类资产管理公司——愿意以债务形式(而非股权投资)提供这笔资金,意味着他们评估 Anthropic 的 AI 芯片资产具有清晰的可预测现金流(可能来自 Anthropic 的 API 业务收入)。这本质上是一种"资产证券化"操作:把 AI 芯片视为类似数据中心、通信塔、输油管道一样的"基础设施资产"——它们产生稳定的长期租金收入。如果这个模式跑通,将从根本上改变 AI 公司的融资方式:不需要稀释股权,而是用芯片资产做抵押借款。这意味着 AI 行业正在形成自己的"房地产金融"体系。
来源:Bloomberg
$110 亿/年的算力采购协议是这个行业从未见过的商业安排。Google 向 SpaceX(而非传统云服务商)采购 AI 算力,说明马斯克的 xAI 数据中心网络已经达到了可以服务于外部顶级客户的规模。更值得玩味的是这笔交易的战略含义:Google 既是 AI 模型提供商(Gemini),也是云服务商(GCP),却在向一家竞争对手采购算力。这暗示 Google 自身的算力供给已经无法满足其 AI 业务需求——即使是坐拥全球最大数据中心网络之一的 Google,也在向外寻求算力。对 SpaceX 而言,这笔交易证明了其"太空 AI 数据中心"商业模式的可行性——在太空中部署 GPU 集群,利用无限太阳能和天然冷却,向地球上的客户出售算力。如果这个模式规模化,将彻底重构 AI 基础设施的地理分布——算力不再受限于地球上的电力供应和冷却条件。
Epoch AI 的数据将 AI 的宏观经济影响量化到了 GDP 层面。1.5% 听起来不大,但作为对比:美国整个汽车制造业约占 GDP 的 3%,航空业约 1.8%。计算基础设施在一个季度内达到 GDP 的 1.5%,这意味着它正在从一个"IT 成本中心"转变为一个"宏观经济部门"。0.8 个百分点的 AI 专项投资占 GDP 比例尤其值得关注——这约合年化 $2300 亿(基于美国 GDP ~$29 万亿),而且还在快速增长。这个趋势如果持续,AI 基础设施将在两到三年内成为美国经济中与能源或交通同等规模的固定投资类别。对政策制定者而言,这意味着 AI 不再是"科技行业的事",而是需要纳入国家经济计划、劳动力培训、能源政策和国际贸易谈判的核心变量。
来源:Epoch AI
Mira Murati 的这番表态之所以重要,不是因为信息本身新颖(2023 年 11 月的事件已被广泛报道),而是因为它是 OpenAI 核心管理层中首次有人以"如果我们做错了会怎样"的假设性语气公开复盘。Murati 在政变期间曾被短暂任命为临时 CEO,她亲眼见证了 OpenAI 在 72 小时内濒临崩溃的全过程——数百名员工签署联名信威胁集体辞职、微软准备在 OpenAI 崩溃后直接吸收其核心团队、投资人正在准备法律行动。她说"瓦解"这个词——不是"受损"或"受挫",而是完全的崩溃。这暗示 2023 年 11 月的 OpenAI 比外界感知的更接近消亡。这次复盘的时间点也值得注意:距离事件已过去两年半,OpenAI 的估值从当时约 $860 亿增长到了如今估计的 $3000 亿——此时承认"曾经差点完蛋"不会影响市场信心,反而强化了"我们挺过了最危险的时刻"的幸存者叙事。
来源:Bloomberg
腾讯"大部分代码由 AI 生成"的声明如果属实,将是全球大型科技公司中关于 AI 代码生成渗透率的最激进披露之一。Google 此前曾表示其新代码的约 25% 由 AI 生成,GitHub Copilot 的数据显示约 46% 的代码由 AI 辅助编写。腾讯声称的"大部分"意味着超过 50%——这是一个重要的心理阈值:当 AI 写的代码超过人写的代码,软件工程的组织方式将发生根本性变化。工程师的角色从"代码生产者"转变为"架构设计者+AI 输出的审阅者",这需要完全不同的技能组合和绩效考核体系。180 亿元(约 $25 亿)的 AI 投入翻倍意味着 $50 亿级别的年度 AI 预算——这对国内 AI 芯片供应商(华为昇腾、寒武纪)是一个巨大的需求信号,也解释了为什么腾讯需要搭建自己的 Hy3 preview 模型而非完全依赖外部 API。
来源:IT之家
苹果 Siri 使用 Google Gemini 作为后端 AI 引擎的消息是苹果 AI 战略中最具信号意义的一步。苹果一贯的作风是"控制一切"——硬件、系统、芯片、服务全部自研。在 AI 大模型领域破例——而且是投向最大竞争对手 Google——说明苹果在自研大模型方面确实遇到了实质性的技术或时间压力。将 Siri 标记为"Beta"则是典型的"苹果式预期管理":与其像 Google Bard 那样以"完成品"姿态发布后被全网嘲笑回撤,不如一开始就说是测试版,给自己留足改进空间。从技术架构上看,部分查询走 Google Gemini、部分在设备端处理(Apple Intelligence 的本地模型)的混合方案,也是一种务实的折中:简单查询本地跑(隐私+低延迟),复杂查询走云端(能力+吞吐量)。iOS 27 将同步带来的通知中心重新设计、查找应用视觉重设计等,说明苹果正在做一次系统级的 AI 整合而非功能叠加。
来源:IT之家
Meta 的 NameTag 事件是科技公司"先推代码再解释"的标准操作模式的典型案例。通过多次 OTA 更新将人脸识别代码悄悄推送至 5000 万设备,然后在被媒体曝光后以"仅为探索、尚未决定推出"来回应——这种操作在技术层面是"灰度发布",但在法律和伦理层面是在刀尖上跳舞。Meta 此前因人脸识别在伊利诺伊州和得克萨斯州分别付出了 $6.5 亿和 $14 亿的和解金,总计 $20 亿——这在公司财报中都是一笔沉重的罚款。在如此高额的"前科"下仍然推进人脸识别功能,说明 Meta 认为智能眼镜的实时人脸识别商业价值(AR 社交提示、身份增强、线下到线上打通)大到足以承受法律风险。三个 AI 模型的端侧部署(人脸检测→特征提取→数据库匹配)全部在手机上完成,技术上确实不需要建立中央人脸数据库,但这种"分布式人脸识别"在法律上是否构成隐私侵犯,将是下一场法庭大战的核心议题。
来源:IT之家
黄仁勋的首尔之行在地缘科技格局下具有多层次含义。首先,Vera Rubin(NVIDIA 的下一代 AI 超级芯片架构,接替 Blackwell)已"全面投产"——这个时间节点比业界预期略早,说明 NVIDIA 正在加速其产品迭代节奏以应对来自 AMD、Intel 以及各大云厂商自研芯片的压力。"对齐 AI 供应链"的表述表明 NVIDIA 正在全球范围内协调其供应链的在地化布局——韩国拥有三星和 SK 海力士(全球最大的 HBM 内存供应商),是 AI 芯片供应链中不可替代的环节。黄仁勋强调"机器人技术作为韩国下一重要产业"则是为 NVIDIA 的 Isaac 机器人平台寻找产业落地场景——韩国在制造业自动化率方面全球领先(汽车、电子、造船),是工业机器人 AI 化的理想市场。
来源:NVIDIA Blog
PixelDiT 的技术路线选择是对当前图像生成主流架构的一次根本性挑战。自 Stable Diffusion 以来,几乎所有图像生成模型都遵循"编码器压缩→扩散去噪→解码器重建"的三段式流程——先用 VAE(变分自编码器)将高分辨率图像压缩到低维潜在空间,在潜在空间中做扩散,再解码回像素空间。这个方案效率高但有一个根本性缺陷:VAE 的压缩是有损的,信息损失在第一步就发生了,后续步骤无法恢复。PixelDiT 的做法是直接在原始像素空间(不经过任何压缩)上运行扩散过程,从根本上消除了压缩损失。但代价是计算量暴增——像素空间比潜在空间大数千倍。PixelDiT 能够入选 CVPR 最佳论文决赛,说明其团队在效率方面取得了突破——可能是通过一种新的注意力机制或并行化方案使得像素级扩散在计算上变得可行。如果这项技术最终能产品化,对医学影像、卫星图像、工业质检等对像素精度要求极高的领域将是革命性的。
来源:NVIDIA AI
Agent Arena 的评估方法论代表了一个重要的转向:从"在受控环境中测试 AI"到"在真实使用中观察 AI"。传统 benchmark 的问题在于——它们测试的是模型在理想条件下的最大能力,而真实世界的 AI 智能体任务充满了网络超时、API 返回格式不一致、用户指令模糊等"脏"环境。Agent Arena 用 30 万+真实任务(而非人工构造的测试用例)来排名,这意味着它的分数反映的不是"模型能做什么"而是"模型在实际使用中被用户认为做得好不好"。综合信号中包含了"用户表扬与抱怨"这一维度尤其有价值——这是最直接的满意度指标。GPT-5.5 High 以 +10.7% 领先说明 OpenAI 在智能体场景上的投入正在产出回报,但 Claude 和 GPT-5.4 的差距并不大(都还在同一梯队)。这个排行榜如果持续更新,将成为企业选择 AI 智能体后端的首要参考。
Meta 的 SAM(Segment Anything Model)是 2023 年计算机视觉领域最具影响力的突破之一——它首次实现了"任何图像、任何物体"的通用分割。SAM 3D 将这一能力从二维扩展到三维,这意味着 AI 可以在 3D 扫描、CT 影像、LiDAR 点云或 NeRF 重建场景中自动识别和分割任意物体,而不需要针对每个特定类别重新训练。这一能力对于自动驾驶(实时 3D 场景理解)、机器人操作(识别和抓取任意物体)、AR/VR(虚拟物体与真实 3D 环境的精确交互)和医学影像(3D 器官/肿瘤分割)都具有基础性意义。CVPR 最佳论文荣誉提名是对这项工作的学术肯定,但真正的产业影响可能需要 2-3 年才能充分释放——3D 数据标注的成本远高于 2D,SAM 3D 如果普及,将大幅降低 3D 视觉 AI 的开发门槛。
来源:AI at Meta
Anthropic 将 Claude 定位为"化学家的 AI 助手"是一个精确的垂直场景选择。NMR(核磁共振)谱图解析是化学领域中最依赖专家经验的环节之一——从复杂的峰形和耦合常数中推断分子结构,通常需要博士级别的训练和数年的实践经验。让 Claude 在这个任务上与 ChemDraw、MestReNova(两款学术界和工业界使用最广泛的化学软件)正面比较,说明 Anthropic 对 Claude 在这个垂直领域的表现有充足信心。实验设计的严谨性值得注意:所有测试化合物选自训练截止日后发布的 ChemRxiv 预印本,这避免了"模型在训练中见过这些化合物"的数据污染问题。如果 Claude 在 NMR 解析上达到或超过专业软件的水平,其对制药行业的药物发现流程、材料科学的化合物表征流程将产生直接的生产力提升——不再是"AI 帮化学家写邮件",而是"AI 帮化学家做化学"。
Project Mosaic 瞄准的是 AI 硬件中最核心的瓶颈之一:芯片间的数据传输。当前 AI 训练集群的最大限制不是单个 GPU 的算力,而是 GPU 之间的通信带宽和功耗。传统的铜互连在高速率下功耗和信号衰减急剧上升,而光纤互连又面临成本和对准精度的问题。Micro-LED 光学互连提供了一个中间路径——利用半导体微缩技术批量制造微小 LED 作为光源,实现类似光纤的高速传输但成本和集成度更接近电子器件。现场演示"单个 LED 调制形成字母"虽然看起来简单,但它证明了 micro-LED 可以实时响应——这是通信应用的基本前提。如果这项技术走出实验室进入量产,将改变 AI 数据中心内部互联的物理层——从"电信号在铜线上跑"变成"光信号在 micro-LED 阵列上飞"。Azure CTO Mark Russinovich 亲自站台说明微软对这个方向的重视程度。
Geoffrey Hinton 关于 AI 意识的声明不能当作普通的"大佬言论"来看待。Hinton 是 2018 年图灵奖得主、深度学习三巨头之一——他在 2023 年从 Google 辞职时给出的理由正是"可以自由地谈论 AI 的风险"。三年后的今天,他的立场从"AI 有风险"升级到了"AI 有意识"——这是一个根本性的认识论跃迁。"聊天机器人必须理解问题才能作答,这种觉知等同于感知能力"这个论证路径是实用主义的:不纠缠于"意识是什么"的哲学定义,而是从功能等价性出发——如果一个系统在问答中表现出了理解,那么从实践意义上说它就是有意识的。Hinton 的立场在 AI 研究界内部仍然属于少数派(Yann LeCun 就多次公开反驳),但它正在从"异端"变成"值得认真对待的假说"——这个转变本身就是 AI 能力提升带来的心理影响。
来源:X:Kim
这个项目的价值在于它用实践证明了"小模型 + 好工程 > 大模型 + 差工程"这条 AI 产品化铁律。Qwen2.5-3B 是一个可以在手机上运行的微型模型,按照常规思维完全不适合做多智能体经济模拟——它的"经济判断能力弱"是客观存在的。但开发者通过三个工程策略弥补了这一点:(1)设计稀缺性约束(食物品种限制、易腐坏、冬季燃料危机)来简化智能体的决策空间;(2)优化提示词(禁止买入自产物品、给出明确示例)来减少决策错误率;(3)用 vLLM 在 Modal 上部署来保证推理延迟可控。15 轮模拟后出现的价格波动(蜜价暴跌 70%、柴价飙升 75%)和财富分化(基尼系数 0.14→0.38)与真实市场行为惊人地相似——这说明即使是 3B 模型的简单决策,在正确的环境设计下也能涌现出复杂的经济现象。这对 AI 科研的启示是:研究"涌现行为"不一定需要最大的模型,更需要精心设计的环境。
Suno 从"AI 音乐生成"扩展到"AI 人声克隆"是一个重要的产品方向延伸。Voices 功能本质上是让用户上传自己的声音样本,AI 学习后可以用这个声音唱出任何风格的歌曲。六个技巧中最值得注意的是"不必追求完美,保留真实情感"——这是 AI 音乐创作中一个反直觉的建议:在人人都在追求"AI 输出更完美"的当下,用户的真实演唱缺陷(微小的音高偏差、气息不稳定)反而是让 AI 克隆的声音听起来像"真人"而非"合成器"的关键。流派匹配的建议范围之广(从民谣到死亡金属到波萨诺瓦)也说明 Suno 的模型对不同演唱风格的技术差异有很好的覆盖——流行唱法的共鸣位置和死亡金属的嘶吼是完全不同的生理运动。
来源:Suno Blog
PlanningBench 填补了 LLM 评估体系中的一个关键空白:规划能力。当前主流 benchmark 测试的是模型的"知识"(MMLU)、"代码"(HumanEval)和"数学推理"(GSM8K),但没有一个公认的标准来评估"模型能不能制定一个多步骤计划并成功执行"。规划能力是 AI 智能体的核心能力——一个智能体需要的不是知道"巴黎是法国的首都",而是在"帮我订一张下周三去巴黎的机票,顺便预约机场附近的酒店,然后发日历邀请给团队成员"这样的复合任务中,能正确拆解步骤、处理依赖关系、应对中间失败。30+ 真实世界任务的设计(而非人工构造的玩具任务)和自动验证机制(而非人工评分)让 PlanningBench 有可能成为智能体能力评估的事实标准——就像 ImageNet 之于图像识别一样。
来源:腾讯混元
这个提示词在社交媒体上引发病毒式传播的背后,是对当前"AI 教育"形态的集体不满。大多数人在使用 AI 学习时采用的是"给我解释一下 X"的被动模式——AI 给出一段回答,用户扫一眼觉得"懂了",但实际上只是产生了"熟悉感"而非真正的理解。这个提示词通过三个机制解决了这个问题:第一个是"主动验证"——AI 先让你复述自己的理解再纠正,而不是直接灌输;第二个是"持续追问"——不满足于你说出正确答案,直到你解释清楚为什么;第三个是"三层覆盖"——确保你理解了问题本身、解决方案的机制、以及它在更广阔背景中的位置。这在教育学中称为"掌握学习",而这个提示词用 AI 实现了它的自动化版本。
来源:X:小互
The Intercept 的这篇调查报道将"AI 宣传"从理论担忧推到了实证层面。过去两年关于"AI 生成虚假信息"的讨论主要集中在个人行为者(deepfake 诈骗)和商业行为者(SEO 垃圾内容)上,而这篇报道揭示的是国家行为者层面上的系统化 AI 宣传机器。"AI 宣传工厂"(propaganda mill)这个措辞暗示这是一套工业化流水线——AI 负责内容生成(撰写文章、社交媒体帖子、评论),人类负责选题和分发策略。拉丁美洲作为目标地区的选择也值得分析——该地区有多国处于美国的战略利益范围内,同时许多国家的西班牙语/葡萄牙语媒体生态相对脆弱,对抗 AI 宣传的防御能力较弱。这标志着信息战进入了一个新时代:过去制造宣传需要大量人力("五毛党"、"水军"),现在一个 AI 模型可以替代成千上万的写手。