普通视图

发现新文章,点击刷新页面。
昨天 — 2026年4月22日首页

Claude 封号限流砍权益,OpenAI 趁机用 Codex 稳稳接住你

作者 张子豪
2026年4月22日 17:01

天下苦 A 社久矣。

这是前段时间 Anthropic 持续推出各种功能,但是一边又不断加强使用限制,读者在评论区最普遍的反应。

本身就是御三家(OpenAI、Google、Anthropic)里对使用限制最严格的一个,另一边又加码推出身份验证,实名制才能使用。今天凌晨,再把 Pro(20 美元/月)用户的 Claude Code 使用权给砍了。

Anthropic 的增长负责人出来回应,提到他们正在对约 2% 的新专业用户注册者进行小规模测试,现有 Pro 和 Max 用户不受影响;并表示目前的订阅计划无法应对用户大量的 Token 消耗,他们在研究新的付费方案。

▲来源:https://x.com/TheAmolAvasare/status/2046724659039932830

OpenAI 这边也立马回应了 Claude Code 踢掉 Pro 会员的争议,一位 Codex 负责人 Rohan Varma 直接怼脸和 Claude Code 竞争,连发文格式都和 Claude Code 一样。

▲来源:https://x.com/rohanvarma/status/2046769635350241292

Anthropic 为 2% 的用户测试更贵的计划,而 Codex 给 100% 用户测试,让免费和付费套餐都能使用 Codex。还特别调皮的加了一句「Claude Code 用户不受影响。」

▲Claude Code 用户 PAY(付钱),Codex 用户 PLAY(玩)

另一位 Codex 负责人 Tibo,也在 X 发文说 Codex 将继续提供免费版和 PLUS 版(20 美元/月),还提到 OpenAI 拥有足够的算力和厉害的模型来支持 Codex 的运作

奥特曼也转发了这条推文,表示 「我们希望你们可以有大量的 AI。

▲来源:https://x.com/sama/status/2046752492093165708

Codex 口碑在社交媒体上一直不算太差,尤其是前段时间 OpenAI「大撒币」,先是说为了让每个人都能体验到 Codex 推出的相关插件,给所有订阅计划都重置了使用限制

4 月初,Codex 发现用户达到使用限制的频率增加,且未找到背后的原因,干脆就重置了所有用户的额度限制。几天前,为了庆祝 Codex 周年庆和新功能上线,又一次重置了所有套餐的用量限制

今天,Codex 负责人和奥特曼再发推文,表示不到两周 Codex 增加了 100 万新用户,为了庆祝这件事,Codex 的速率限制又又又重置了。

▲来源:https://x.com/sama/status/2046604989527912590

早在上周 Anthropic 发布 Opus 4.7 的那天,Codex 就更新了一大堆重要功能,Computer Use、内置浏览器、持久记忆,以及 90 多项插件。

这些更新几乎是直接对标 Claude Cowork 的功能,把 Codex 从一个听着就像是给开发者用的工具,重新变成了一个适用于电脑所有场景的效率助手工具。

昨天,Codex 在此前推出记忆功能的基础上,又上线了一项名叫「Chronicle」的研究预览功能,让 AI 能读我们的屏幕,把我们最近做过的事整理成记忆。

Codex 不再只依赖聊天记录来理解上下文,结合它读取的近期屏幕内容,我们给它发送「这个」、「那个」,Codex 能知道我们到底指的是什么。

今天刚刚发布的 GPT Image 2 也已经集成到了 Codex 里。我们可以在 Codex 生成并迭代图像,在一套工作流里,从产品原型、前端设计,到视觉效果图和游戏开发等任务,使用 GPT Image 2 快速生成视觉元素。

如果你的 Claude 账号总是被封,用不了官方的 Claude Cowork、Claude Code 桌面版,又或者是那 2% 的新用户,开通了 20 美元/月的 Pro 会员也用不了 Claude Code,不妨来试试 OpenAI 出品的 Codex。

从代码工具到全能助手

Codex 最近这段时间的更新,最重要的莫过于上周发布的 Computer Use。这项能力并不算新鲜,之前是模型有 Computer Use 的能力,现在是需要工具也要有配套的支持,才能发挥模型能力。

它本质上就是 Agent 工具可以像人类操作电脑一样,通过视觉识别、点击和输入,自主操控电脑上的各类应用程序。

之前的 Codex 操作电脑上的软件,是通过一些命令来执行不同的应用任务,整体更像是我们喊「Siri,明天的天气怎么样」,做这些比较简单的任务。

有了 Computer Use 的能力之后,不仅支持一些调用 API 或者终端命令的工具,还能真的能帮我们完成一些电脑上的实际操作,尤其适合前端调试、应用测试、操作没有开放 API 的软件。

而且支持多个智能体并行在 Mac 上工作,不会影响我们正常使用其他应用。

需要注意的是,Computer Use 的能力只支持 macOS 15 以上的版本,我们的电脑(macOS 14.6.1)在测试 Codex 时,会自动弹出一个 SkyComputerUseClient 的问题报告。

另外,现在 Codex 支持内置浏览器,能更好地处理 Web 场景。我们在 Codex 里生成的网页,可以直接在网页上标注,给 Codex 更精准的操作指令,对一些前端、应用和游戏开发的快速迭代非常有用。

▲从 Coding、设计、生活方式、生产力到研究,Codex 现在有丰富的插件系统来处理各项任务

这次的更新还新增了 90 多个插件和更丰富的工具集成,让 Codex 能接入更多工具、获取更多上下文,并跨平台执行操作,提到的热门插件包括 Atlassian Rovo(JIRA)、Microsoft 套件、Neon by Databricks、Remotion、Render、Superpowers 等。

在 Codex 应用里,我们只需要输入斜线就能快速进入一些关于 Codex 的配置,输入 $,则可以选择不同的 Skills,包括我们安装在本地的各种 Skills。

同时,在自动化任务上,Codex 的 Automation 功能升级后,可以复用之前的对话线程,保留已有上下文。新的自动化还支持 Codex 自主规划后续工作、自动在未来某个时间继续执行任务,以及支持持续数天甚至数周的长期任务。

官方提到这项更新主要用于代码的提交合并、跟进日常工作生活的待办事项,以及跨越不同平台和工具的信息追踪等任务。

还有一些对于桌面应用交互的小更新,像是增加了多标签页的终端窗口,侧边栏可以直接打开文件,预览 PDF、表格、PPT 等文档。

新的摘要面板,也可以持续跟踪当前执行任务的计划和进度、参考信息来源,和输出结果等。这些应用上的增强,也让 Codex 在整体上更像是一个统一的工作台,而不再是单一的对话窗口。

用定时截屏的方式来维护 Agent 记忆

个性化的记忆功能向来就是 AI 的一大难题,虽然 AI 博古通今能记住所有的知识,但是对于每个用户的私人记忆处理,工作记忆等,AI 需要用不会占据大量的 Token,同时又能记清楚的方式来处理日复一日的对话。

尤其是现在到了 Agent 这类巨消耗 Token 的任务上,每个用户每天产生的上下文,如果 Agent 要全部记住,估计再来一百万 Token 上下文也难顶住。

上周 OpenAI 就已经为 Codex 带来了记忆功能,它可以记住我们的个人偏好、之前做过的修正,以及一些不容易获取但很重要的信息。

而为了获取更多的记忆,更快地处理我们的工作流。Codex 这次推出的 Chronicle 功能,说白了就是看我们的屏幕,记住我们的工作,再把这些记忆喂给 AI。

具体来说,在 Codex 设置>个性化里面,开了 Chronicle 功能之后,会自动执行这些操作:屏幕上下文捕获 → 本地临时截图 → 后台代理分析 → 临时 Codex 会话总结 → 生成本地 Markdown 记忆 → 后续会话中作为上下文使用。

Codex 获取了屏幕录制和无障碍权限之后,Chronicle 会在后台运行一个沙箱 Agent,这些 Agents 使用默认模型 GPT-5.4-mini,基于捕获到的屏幕图像,周期性地启动一个临时的 Codex 会话,把最近的屏幕上下文整理出记忆。

屏幕截图只会临时保存在本地,Codex 提到运行期间,超过 6 个小时截图会被自动删除。

▲GPT Image 2 生成的信息图

以后我们和 Codex 对话,它会自动检索这些记忆文件,作为上下文来使用,减少我们重复描述背景的需要。

OpenAI 官方也给了多个案例,像是如果不开启 Chronicle,Codex 不知道我们说的「这里会失败」,是指的什么。

以及针对一些个人任务中出现的人名、项目名等,在通用知识外的内容,Codex 也会根据 Chronicle 获取的信息,自动补充上下文。

能够捕获屏幕图像,也意味着使用 Codex 处理任务的全流程,Chronicle 都能记住。包括我们的工作流,常用的工具。像下面的例子里,使用了 Chronicle 的 Codex 会知道这份宣传材料使用何种格式,以及何种工具,是 Google 文档还是 Markdown 文档。

不过这项功能也面临着一些争议,例如视觉识别的方法会消耗大量的 token,更严重的是这些截图可能包含我们屏幕上可见的敏感信息。

虽然 OpenAI 说所有保存的记忆都会存放在本地的 markdwon 文档里,用户可以随时查看,Codex 根据这些截屏获取到了哪些信息。但是他们也提醒用户,当 Chronicle 截屏到一些有风险的网站时,网站可能通过提示词注入的方式,在屏幕上隐藏一些恶意指令,让 Codex 执行。

Chronicle 这项功能目前仅向 ChatGPT Pro(200 美元/月)用户开放,支持 macOS 版本的 Codex 应用,作为研究预览版推出。待 Chronicle 正式上线之后,相信 Codex 会把它开放给更多用户使用。

手机遥控、电子宠物、「Hermes Agent」都有机会上线

这段时间,Codex 被网友们称作是一款正在用力追赶 Claude 的产品。虽然一方面是在说 OpenAI 没有主见,随大流。但另一方面,能看到好的产品之间展开你追我赶的竞争,对我们用户来说未尝不是一件好事。

Codex 开发者在 X 上问大家对 Codex 有何意见,网友们非常积极的表示,要加上手机控制功能,还有人说 Codex 也应该从 ChatGPT App 里面进入。而这些都是 Claude 目前已经做到的功能。

也有网友在下面反馈 Codex 存在的各种 Bug,像是内存泄露、会话只能存档不能删除等问题。

最新的 Codex 更新爆料里还提到,Codex 也打算做一个小小电子宠物,放在 Codex 桌面上,来提示用户目前会话的各种状态。

这个电子宠物共有 8 种预设形象,用户还可以创建使用自己的虚拟形象。

▲来源:https://x.com/testingcatalog/status/2046366630528143827

另一个爆料则提到 OpenAI 正在为 ChatGPT 开发智能体(代号 Hermes),其中包括智能体构建器、模板、日程安排、在 Slack 中使用智能体的选项、添加应用程序、技能、文件、内存、指令等功能。

▲来源:https://x.com/btibor91/status/2046545878538961304/

眼下的 Codex 是一个活跃开发的产品,OpenAI 必然不会把本地 Agent 产品这一块的市场拱手让给 Claude。

别说 OpenAI 这位 AI 界的老大哥,前几天,Gemini 也不声不响地发布了桌面版应用,但是被一众网友评价「拉爆了」。

只能鼓励一下 OpenAI 和 Gemini,赶快结束 Claude 在本地 Agent 助手和代码这块的领先地位。

天下苦 A 社久矣。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

昨天以前首页

等等,这些图是GPT-Image-2出的?!

作者 张子豪
2026年4月21日 19:31

在互联网上吃瓜、维权、实锤一件事,过去我们靠的是五个字:有图有真相。

哪怕 AI 生图已经铺天盖地,但只要图里出现复杂的中文排版,或者某款软件的真实界面,AI 就会立刻露馅,变成一个彻底的「文盲」。

▲ 图片来源:X@hx831126

但现在,这个时代到头了。

那个靠找错别字、找 UI 漏洞来鉴别 AI 图片的年代,随着 ChatGPT 旗下图像模型 GPT Image 2 的全量推送,已经轰然收场。

APPSO 第一时间用最刁钻的中文场景和商业需求对它展开了压力测试,不用抽卡,每张都出乎意料的好。

打开 ChatGPT,点击 + 号,选择「创建图片」,或在右侧边栏更多中找到「图片」,就可以使用 GPT Image 2。目前,任何订阅计划,包括免费用户,都可以直接使用。

数学试卷都能伪造,中文渲染新王

当初 Nano Banana 就是靠着文字渲染,一举成为 AI 生图界的「神」。但尽管 Nano Banana 在文字处理上比其他模型强上不少,面对一些超量文本时,Nano Banana 的表现,还是会出现个别文字的错位,以及对文字的排版布局比较生硬。

现在,GPT Image 2 的出现,把这个局面彻底翻过去了。它不仅懂中文字形,还懂极其复杂的中文排版。

使用 GPT Image 2 甚至不太需要过于复杂的提示词,我们的测试都是一两句简单的画面描述。

例如让它生成广州市小学数学试卷。

▲提示词:生成广州市小学数学试卷

结果相当震撼。卷头标题、填空题下划线、几何图形标注,以及试卷特有的宋体 / 楷体排版风格,全被精准还原。第一眼看,这完全就是一张拿手机对着真实考卷拍出来的照片。

如果这种统一字体的文字,算不上有难度的话,我们尝试继续用中国传统书法去难倒它。

▲提示词:生成《蜀道难》真迹图片

GPT Image 2 表示,这仍然难不倒我。生成的书法真迹图片,里面的文字不仅准确,还做到了书法作品应有的行云流水、笔锋苍劲。甚至连纸张的做旧纹理,一些印鉴都到位了。

对于一些图文并茂的排版测试, GPT Image 2 的表现同样严丝合缝,没有任何乱码或字体重叠。

▲提示词:一张泛黄的今日人工智能晚报,时间是 2049 年 4 月 21 日

当一个 AI 模型能以假乱真地生成带题目的试卷、完美渲染中文日历,这句过去的成语「眼见为实」,真的彻底被击破了。

相信把那张四年级的试卷给小学生看,真的会找不到破绽。

配合文字,可以 1:1 还原整个数字世界

中文渲染只是基本功的补全,GPT Image 2 更惊艳的,是它展现出的世界知识的厚度。

包括前段时间 GPT Image 2 爆料中疯传的那些图片,马斯克在抖音直播买老干妈、奥特曼同平台竞争,都是基于 GPT Image 2 强大的文本渲染能力和世界知识。

世界知识这个概念,在 Nano Banana 爆火的时候,就开始流行,意思是就是生图模型也会有通用模型的知识,可以联网搜索,会思考,它真的知道我们每天盯着的屏幕、玩的游戏、看的直播,到底长什么样。

我们随手输入了一个极具互联网特色的场景。

▲提示词:一个漂亮的美女主播在抖音直播

出来的图里不只有人物,更恐怖的是它完整复刻了抖音的 UI 界面。左下角的评论区、右侧的点赞和分享按钮、顶部的观众人数和跑马灯,所有交互元素的层级逻辑全部正确。

游戏玩家可能感受更深。当我们让它还原英雄联盟的团战画面,它不仅画出了峡谷地形,英雄头顶的血条、技能特效的光影、小地图的 UI 框,也一并安排到位了。

▲提示词:英雄联盟游戏画面,召唤师峡谷地图,经典的等距俯视视角,几个英雄正在进行激烈的团战。

甚至科技圈的名场面,它也了如指掌。一句话,就能精准还原 Sam Altman 的面部特征、OpenAI 极简的舞台打光,以及套着视频播放器外壳的直播界面。

▲提示词:GPT-Image-2 发布会直播画面,包含 Sam Altman

GPT Image 2 对这个数字世界视觉规律的掌握程度,比我们想象的都要更深。

XX is Dead,再一次颠覆设计、营销、广告……

技术的快速推进背面,是一批旧工作流的终结。

AI 跨过了文字和 UI 的门槛,生图这件事就彻底脱离了「艺术创作」的范畴,成了一种硬核的商业生产力工具。这次实测里,GPT Image 2 的商业落地能力,足以让许多设计师坐不住。

工业与产品设计领域,复杂的机械结构和建模往往耗费大量时间,而现在只需几秒。

▲提示词:给「张雪机车」的摩托车设计一张酷炫的产品分解图

悬浮的零件排布、极具科技感的光影,这种过去需要 3D 建模师肝上几天的图,它能瞬间给出高品质的原型参考。

图片来源:X@hx831126

电商和广告视觉方面,苹果那种冷峻高级的质感,或者电商平台要求的高饱和度、带中文促销文案的网感图,它都游刃有余。

▲提示词:iPhone 16 Pro Max 高端商业广告

▲提示词:产品广告照片,一个游泳圈,有吸引力,能获得大量点击率,16:9,使用中文

宣发和 IP 创作上,GPT Image 2 的排版逻辑和特征抓取同样表现出现。中文字体排版直接可用,分镜逻辑清晰,连各家大模型的 Logo 特征,都能被它做成颇具网感的 IP 延展。

▲提示词:给电影拯救计划设计一张横屏海报(虽然他不知道高司令的拯救计划,但是选的几个演员确实是大片演员)

▲提示词:经典漫画书内页,包含分镜格子、人物动态动作、对话气泡

▲提示词:生成一系列不同的 AI 大语言模型(Gemini、deepseek、ChatGPT、Claude、Grok 等)的表情包设计

过去设计师对齐需求时,找各种参考、搭复杂的设计框架、排版修字。现在,一段清晰简单的提示词进去,一张可以直接用于商业提案、电商投放甚至直接出街的成品就出来了。

在我们测试过程中,无论是 Plus 账号还是免费账号,都已经上线了 GPT Image 2,大家可以在自己的 ChatGPT 对话框里试试。

不过,目前仍然会有速率限制的提示,当我们频繁发送提示词,要求 ChatGPT 生成时,他会直接回复一段错误代码,显示「你的图片生成速度太快了,为了保证所有人最好的体验,我们有速率限制,请在 13 分钟后生成。」

不得不说,每当我们觉得 OpenAI 陷入停滞,它总能在你毫无防备的时候甩出一张新牌。

过去几个月,外界吐槽它发新模型是挤牙膏、Sora 关闭、ChatGPT Atlas 浏览器爆冷,仿佛那个曾经不可一世的 AI 霸主真的变菜了。

今天 GPT Image 2 的出现,也算是给了这些唱衰一次有力的回应。

当一个模型能以假乱真地生成数学试卷、完整复刻抖音直播界面,「这是 AI 做的」我想很难是一眼能看穿的事了。

那个「有图有真相」的时代,是真的回不去了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

一句话,AI 直接给我建了个能跑能跳的「吉卜力」3D小镇

作者 张子豪
2026年4月17日 17:50

这周的大模型热点除了 Anthropic 刚刚发布的 Opus 4.7,世界模型成了另一块角力的阵地。

短短几天内,AI 圈几乎是连珠炮式地发布了一系列重磅世界模型。

先是李飞飞的 World Labs 开源了 Spark 2.0,紧接着腾讯在昨天正式发布并开源了混元 3D 世界模型 2.0(HY-World 2.0)。

▲腾讯混元 3D 世界模型 2.0 体验地址:https://3d.hunyuan.tencent.com/sceneTo3D

阿里也马不停蹄,新成立的 ATH 旗下创新事业部团队,刚刚才官宣了 HappyHorse,立刻又发布世界模型 HappyOyster。

▲阿里 HappyOyster 官网截图:https://www.happyoyster.cn/

最容易忽略的还有英伟达 Lyra 2.0,没有发布会和新闻稿,旗下的空间智能实验室直接甩出一篇论文,「可探索的生成式 3D 世界。」

▲英伟达研究博客:https://research.nvidia.com/labs/sil/projects/lyra2/

这种密集程度让人产生一种错觉,那些生图生视频模型是不是都弱爆了。现在的 AI 已经从「生成一张图、一段视频」的平面阶段,大步来到「构建一个世界」的 3D 空间时代。

不仅技术端在狂飙,资本市场也给出了强烈的回应。

今天,群核科技正式登陆港交所。这家空间智能公司一直致力于推动 AI 进入物理世界。它的成功上市,标志着「世界模型第一股」的正式诞生,也向外界释放了一个明确信号:世界模型,真的开始火了。

而在热闹之余,我们也发现虽然这些公司都叫世界模型,但是路线完全不同,只能生成视频的像是一个 Demo 产品;能生成 3D 资产的看似可以融入开发设计的工作流;还有在论文里的未来工作畅想,希望用于机器人的训练。

目前,腾讯混元 3D 世界模型 2.0 已经开放了申请。我们第一时间进去体验了一波,试图从中找到一个答案:这些被认为是 AI 下一阶段的世界模型,到底能解决真实世界的哪些问题?

从看电影到开始游戏

此前我们聊世界模型,大多像在聊一个「更长、更懂物理规律、一致性保持更强的视频」。但这次体验混元 2.0,最直接的冲击力在于,它生成的不再是 MP4,而是真正的 3D 资产文件。

在体验中,我用简单的提示词输入了「吉卜力风格的山间小镇,黄昏」。在几分钟的计算后,出现在屏幕上的画面像是一个大世界游戏。

点击下载,混元 3D 提供了全景图、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四种 3D 资产文件格式。

四种文件类型涵盖了 Mesh(三角面片网格)、3DGS(3D 高斯泼溅)、点云等多种格式的 3D 资产文件,这些文件可以直接导入 Unity、Unreal Engine,游戏开发者拿到手之后可以继续编辑、调整、搭建关卡。

▲所生成的世界同样可以保存为全景图片,原图约 20MB。

在世界生成任务上,除了常见的文生世界,混元 3D 同样支持图生世界。我们找了一张《拯救计划》电影截图,Rocky 最后在波江座人给他搭建的世界里漫步,让混元来还原整个波江座。

▲由于电影截图里就有显示一个外壳包围着 Rocky 居住的海边,所以混元生成的世界也有一块「黑影」

当使用 Unsplash 上下载的高清雪山图片时,混元 3D 世界模型 2.0 生成的雪景,画质和真实感都更强。

▲全景图和导演模式下的角色漫游

无论是上传图片还是文字提示词,应用内都有相关的指引,例如上传的图片分辨率不能小于 512*512,避免画面出现人物,不要有动物/人物特写,避免使用纯色、纯纹理图片;以及天空、星空等画面占比较大图片也不适合等。

而文本提示词,最好是场景类别(沙漠、海面、房间等)+ 场景特征(物体、天空等视觉描述)+ 风格(可选,卡通/写实/油画风格等)。

混元 3D 世界模型 2.0 的风格化控制表现也很好,从官网已有的世界案例能看到,无论是温馨的绘本风还是写实的游戏风,它对语义的解析非常精准;墙壁的纹理、地牢的阴影和光感都极具沉浸感。

除了能生成可用的 3D 资产,混元 2.0 真正让我感到「世界」属性的,是它的角色模式。

现在我们可以直接操控一个角色在刚刚生成的场景里行走、加速、跳跃、转弯、探索,整个过程就像是在玩一个大世界游戏。同时,它自带物理碰撞,角色不会穿墙而过,也不会掉出地图边缘。

这种即刻生成、即刻可玩的体验,确实在模糊了 AI 生成与游戏引擎之间的边界,随着能生成世界的范围不断扩大,角色的探索或许会更有意思。

实时生世界时,我们能直接控制角色的行动,混元 3D 模型会自动生成对应的世界,单次生成的时长是一分钟。

对比之前的混元 3D 模型,这次的 2.0 版本在一句话/一张图生世界任务上,不仅支持下载 3D 资产文件,推出了全新的角色模式,而且在画面精细度和真实感方面,也从底层的模型架构进行了重新设计。

▲混元世界模型 2.0 多模态世界架构|https://3d-models.hunyuan.tencent.com/world/

新的模型架构,打通了「理解、生成、重建」的闭环。

  • HY-Pano-2.0: 不需要专业的相机参数,普通图片就能映射出 360° 全景。
  • 空间 Agent 技术: 像给 AI 装上了导航,它能智能规划漫游轨迹,确保护理和视觉上的衔接不会穿帮。
  • HY-WorldMirror 2.0: 保证了即使是在大幅度的视角变换下,物体侧面和背面的完整度依然在线。

在世界重建任务上,混元世界模型 2.0 输入多张图或视频流,就能做到重建真实场景。

在过去,我们想要构建/重建一个可互动的 3D 世界,需要成体系的团队和数月的打磨;而现在,通过混元 2.0 这样的工具,只需要一个创意。

并且,这个创意,无论是以文字、图片还是视频的形式呈现,它都可以生成一个拖进 Unity 的原型,哪怕质量还需要调整,哪怕很多细节还要人工修改,但整个设计的工作流,AI 也开始在发力了。

疯狂的世界模型周,疯狂的 AI

当我们再把视线从混元 3D 世界模型 2.0 的资产生成、角色模式、世界重建,拉回本周连发的其他几个世界模型,我们会发现,这些不同在不同维度突围的世界模型,正共同拼凑出世界模型更明确的样子。

阿里 HappyOyster 目前还在主打漫游和导演模式,让我们用自然语言随时介入世界演化,改写剧情走向和角色动作。

英伟达 Lyra 2.0 用一张图就能生成长达 90 米的连贯 3D 环境,它生成的场景甚至能直接丢进 Isaac Sim 给机器人做物理训练。

李飞飞 Spark 2.0 打通「交付最后一公里」,前面那些模型都在解决怎么造世界,而 Spark 2.0 已经开始解决怎么给人看。它通过独创的流式加载和虚拟内存技术,把上亿个 3DGS 粒子的超大世界,硬生生塞进了普通手机的网页浏览器里。

▲World Lab 生成界面,提示词:吉卜力风格的山间小镇,黄昏

看着这些各显神通的世界模型界面,一个现实的结论是:很明显,世界模型还没迎来它的 ChatGPT 时刻。

四家公司这一周的密集发布更像是在为这个时刻做准备,画面质量、交互能力、资产格式、交付方式、仿真精度,每个都在朝着自己的方向优化。但把这些块拼成一个「让普通人愿意每天打开」的产品,还没有模型做到。

在过去两年里,随着 AI Coding 重塑代码开发、Nano Banana 等模型颠覆平面设计,前端工程师和平面设计师们已经经历了「xxx is DEAD」。现在,这朵雪花大概是要飘到 3D 设计的护城河上。

随着更多模型厂商的下场,3D 设计的工作流也会慢慢从 AI 辅助走向 AI 主导。到那时,生成并体验一个 3D 互动世界,将会像今天我们在手机上刷短视频一样流畅、低成本且理所当然。

毕竟,在所有的科幻叙事里,没有任何人会抗拒自己成为「造物主」,去自定义一个新世界。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

卸载龙虾后,我找到了更香的爱马仕 Agent,5 分钟带你极速上手

作者 张子豪
2026年4月16日 19:18

「人红是非多」,Hermes Agent 最近真的火了,一边是 GitHub 积累了超过 8 万星,增长趋势完全是直线上升。

另一边是来自国内开发者的公开指责,说 Hermes Agent 是抄袭了他们的项目 EvoMap,Hermes Agent 的负责人在 X 上回应,表示这是无中生有,从没听说过有 EvoMap 这个项目。

双方都僵持不下,但无论是 EvoMap 所提出的三层记忆系统、主动学习,还是 Hermes Agent 内一样的逻辑架构与核心概念,这种形态的 Agent 或许在此刻都比 OpenClaw 更值得关注。

之前 APPSO 介绍过 Hermes Agent 的基本情况,以及与 OpenClaw 的差别。

它最大的特点就是能自动学习进化,把我们反复用的流程,自动保存为可复用的技能;每一次的任务,都会自动从里面总结经验,是一个用的越多越顺手的 Agent。

目前 MiniMax 已经推出了 MaxHermes,能让我们在云端「无痛养马」,腾讯云也推出了一键部署到其轻量服务器上的 Hermes Agent 应用模板。

Hermes 也从「这东西牛不牛」来到了「这玩意怎么装,装完怎么用」的阶段。这篇文章,APPSO 手把手教大家在自己的电脑上安装 Hermes Agent,并上手用简单的例子来说明它和 OpenClaw 的不同。

这次安卓手机也能养马

和 OpenClaw 不同的是,Hermes Agent 不支持单纯的 Windows 系统。如果我们想要在 Windows 电脑上使用 Hermes Agent 必须先安装 WSL2,WSL 是 Windows Subsystem for Linux 的简称,它允许用户在 Windows 上运行 Linux 操作系统。

苹果表示在这波的本地 AI Agent 大战里,不用下场做大模型做产品,也吃到了 AI 最大红利。

不过,Hermes Agent 支持安卓手机,通过 Termux 应用,一台不需要 root 的闲置安卓手机,直接就能变成一台随身 Linux 服务器。

▲安装地址:https://termux.dev/cn/

Termux 是一个运行在 Android 手机上的「终端模拟器 + Linux 环境」,项目在 GitHub 上开源,目前已经获得了 5 万星。

我们可以简单地把它理解成在安卓里开了一个接近 Linux 的命令行世界;不用 root,也能安装很多常见开发工具、能像在服务器上一样敲命令、装软件、跑脚本。

在 Hermes Agent 的官方文档里,有一栏专门用来介绍如何在 Android 系统上使用 Termux 运行,我们只需要在手机上安装好 Termux 应用之后,其他操作和电脑类似,部分的功能像 Docker 隔离、后台常驻、语音能力会受限制。

▲官方文档:https://hermes-agent.nousresearch.com/docs/getting-started/termux

本地安装之外的选项,云端部署则是和 OpenClaw 一样,目前腾讯云已经宣布率先支持 Hermes Agent 一键部署,通过旗下轻量应用服务器 Lighthouse 内的 Hermes Agent 应用模板。

仿佛过去的记忆在又一次敲打我,接下来大概是各家的云平台,都逐渐推出相关的一键接入服务。

MiniMax 在今天也宣布推出第一个云端沙箱 Hermes,MaxHermes。和 MaxClaw 的体验类似,我们需要订阅 MiniMax 付费计划,同时连接 MiniMax Token Plan,完成两项升级后才能在 MiniMax 上部署 MaxHermes。

从安装到连接飞书/微信/QQ,只要五分钟

打开终端(macOS 用 Terminal,Windows 用 WSL2),粘贴这一行命令。

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

它会自动处理好所有依赖——Python、Node.js、ripgrep、ffmpeg,以及 Hermes 本体。不需要你提前安装任何东西。

等它跑完,再执行,

source ~/.bashrc

这一步是让终端认识新装的 hermes 命令,如果跳过,下一步执行 Hermes,会报错「找不到命令」。整个安装过程大约两到三分钟,取决于网速。

安装完成之后是和 OpenClaw 类似的配置阶段。我们需要配置模型 API,选择对应的模型供应商,并复制粘贴 API。以及选择连接何种即时通讯软件,微信、QQ、企业微信等。

▲选择 Quick Setup

这些配置可以在之后的 Hermes setup 命令下再次进入,这里我们演示一遍按照 Hermes Agent 推荐的流程进行设置。

关于模型,第一项 Nous Portal 是 Hermes Agent 公司所推出的 API 订阅方案。目前小米 MiMo V2 模型可以透过 Nous Portal 连接,免费使用到本月 22 号。

其余的 OpenRouter、OpenAI Codex、Kimi、MiniMax、智谱 Z.ai 等,都可以在对应的模型开放平台,订阅相关的 Token Plan 之后,创建专门用于 Hermes Agent 的 API。

▲这里我们选择了 OpenRouter,OpenRouter 提供了多款可以免费使用的模型

使用 Nous Portal 服务,必须先订阅 Nous Research 计划,才能免费使用小米 MiMo 模型。这里可以选择免费计划,每月 0 元。不过即便是 0 元的订阅计划,也需要使用 Stripe 完成支付,必须有一张 VISA/万事达的信用卡,才能完成订阅。

▲订阅网址:https://portal.nousresearch.com/products

选择了模型供应商之后,继续选择 Hermes Agent 使用的具体模型。Nous Portal 支持的模型非常多,免费的小米 MiMo V2 Pro 需要滑动到最下面的位置才能看到。

▲ 我们使用 OpenRouter 上的免费模型,来自英伟达的 Nemotron 3

继续设置聊天平台,目前最新的 Hermes Agent 版本已经支持了钉钉、飞书、企业微信、微信、QQ、iMessage,以及 Telegram 等常见聊天平台。

▲键盘上下切换不同的平台,按空格代表选中,Enter 进入配置。这里我们选择飞书作为消息通道。

不同的平台配置方式不同,按照 Hermes Agent 推荐的操作执行。如果你选择飞书,它会给我们一段链接,要求在手机飞书,或者飞书网页版内打开,打开后是自动创建机器人的界面,创建完成,选择默认操作,就连接成功了。

▲ 飞书连接成功,这里的网关安装可以选择 Yes,亦可在之后的终端中执行命令 hermes gateway install

在飞书应用内,和机器人发起聊天,机器人会回复一条要求执行 hermes pairing approve feishu XXXXXXX 的消息,将这行命令复制到终端里执行,我们就能在飞书内和 Hermes Agent 聊天。

一切配置完成,在终端里输入 hermes,这匹马就算是牵到了我们电脑里。

询问它能为我们做点什么,可以看到它可以执行的操作,包括终端命令、文件操作、网页交互、代码执行、任务管理、记忆和技能、会话回溯、后台作业、子代理等多个功能。

在最新版本的 Hermes Agent,也提供了可视化、界面友好的控制台,可以让我们不用在终端里,完成一切的操作。在终端里输入 hermes dashboard,会自动打开一个地址为:http://127.0.0.1:9119 的本地网页。

▲Hermes Agent WebUI 控制面板,可以在里面设置不同的模型,连接不同消息平台。

用的越多,越省事

安装很容易,怎么用好 Hermes Agent,才能感受到它和 OpenClaw 最大的差别。

我们现在用 AI 的逻辑,无论是 OpenClaw 还是 ChatGPT,本质上还是我们输入,AI 输出,关掉对话,任务就结束。

Hermes 要改掉的就是这件事,有着和 OpenClaw 同样多的功能,另外还有会自动累积的记忆,会生长的能力。每一次交互,它都在变得更了解我们,偏好、工作方式、我们反复做的那些事。

▲使用 Hermes 是一个飞轮,从执行任务,到创建 Skills,写入记忆到下一次的任务执行

例如我们简单地在 Hermes 里面告诉它要求设计一个老少皆宜的益智类小游戏,并且在后续的交流中告诉它要多设计一些关卡,有难度的区分,界面要更精美等。

▲在 Hermes Agent 内,所使用的模型,和当前上下文窗口使用占比,会一直固定在终端底部。

这轮任务结束,我们问 Hermes,要它说说我的用户画像是什么。它很快就从上一个做益智小游戏的项目里,定位到我使用中文交流、表达直接具体、注重细节和精致度等特点。

和大部分 AI Agents 所使用的关键词检索不同,Hermes 使用的是语义相似性的向量查询,它会根据「基于之前的反馈进行迭代改进」,得到我重视反馈循环,并将这一点放进用户画像内。

基于 Hermes 的持久记忆和累积学习,用它来搭建知识库是再合适不过。

我们使用 Hermes 内置的 LLM-Wiki Skill,结合 Obsidian 笔记平台和飞书,在手机上把自己想到的任何事情,发给飞书,Hermes 就会自动帮我们把这些碎片的内容整理成知识库,并在 Obsidian 内以结点的形式呈现。

▲输入 /llm-wiki 之后会提醒我们输入想要创建什么主题的知识库

这里我们告诉它创建一个类似于我的「第二大脑」的知识库,我会把我看到的好文章、有意思的选题、素材统统发给它,Hermes 需要帮助我整理。

当把文章发送给 Hermes 之后,我们在 Obsidian 里面立刻能看到它的处理,把文章的要点总结,同时下载文章全文到 raw 文件夹内的 article 分类下,同时会自动处理不同的概念和主题,彻底贯彻 Wiki 的逻辑。

▲一开始的微信公众号链接 Hermes 没有顺利抓取,使用爱范儿网页链接后,能抓取原文并自动保存

在 Hermes Agent 里还有许多 Skills,我们在安装时,就已经内置了有 79 个 Skills。官方的 Skills Hub 显示目前提供了 16 个类别,来自 Anthropic、Lobe Hub 等社区公开的 Skills 平台,共计 521 个 Skills。

这些 Skills 涵盖了从日常的生产力工具,到代码审查、PPT、PDF、OCR、YouTube 转写,再到模型微调、vLLM 部署、Stable Diffusion、Whisper、音乐生成,几乎把「数字办公 + 开发 + 创作 + AI 工程」串成了一整套工作流。

例如我们可以直接使用 manim-video.skill,在 Hermes Agent 内就能创建一个简单的视频。

▲官方提供的视频案例,大多数时候用来创建一些简单的视觉,解释数学公式等视频

多 Agents 协作也是现在的热门玩法,在 Hermes Agent 内,我们可以用 Profiles(配置文件) 来跑多个独立 Agent。每个 profile 都是一个完全隔离的 Hermes 环境,有自己单独的个性化设置,像是网关、SOUL.md、记忆、SKills 以及环境变量等。

也就是说,我们可以同时有一个写代码的 Agent、一个研究用的 Agent、一个私人助理 Agent,它们互不污染。通过定义的流程,这些 Agents 能在 Hermes 里面形成多 Agent 工作流。

在 Hermes Agent 的官方文档内,有相当多的 Hermes 指令和教程,还有一篇专门教大家如何从 OpenClaw 迁移到 Hermes 的文章。

▲https://hermes-agent.nousresearch.com/docs/guides/migrate-from-openclaw

如果你想从 OpenClaw 转到 Hermes,按照官方教程,三行命令就能快速迁移。

一键卸载指南

装到一半发现不知道怎么继续,或者使用了一段时间觉得不行,想要卸载也很简单。

官方提供了一键卸载命令 hermes uninstall,在终端运行之后,我们会看到保留数据、完全卸载和取消三个选项。

其中保留数据会将 Hermes Agent 的相关配置,像是模型的 API、以及连接到不同第三方通讯工具的 API 保留,只是将整个框架删除。我们可以直接输入 2,表示完全卸载。

如果仍然不放心,回到初始的终端页面,执行下面这三行命令,也会将电脑上所有关于 Hermes Agent 的内容全部删除。

rm -f ~/.local/bin/hermes
rm -rf /path/to/hermes-agent
rm -rf ~/.hermes

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Claude Opus 4.7 或本周上线,但 Anthropic 要查你证件了

作者 张子豪
2026年4月16日 10:15

生产队的驴都没有 Anthropic 这么忙,从今年年初 Claude Cowork 发布之后, Anthropic 的更新就没有停止过,说一天一项都不为过。

根据 the information 的报道,Anthropic 在本周甚至会推出 Opus 4.7,和前几天社交媒体上爆料,类似 Lovable 的 AI 设计工具。

与此同时,Anthropic 在帮助中心更新的一则内容,引发了更大的争议。

官方正在为 Claude 的「部分使用场景」引入身份验证,例如在触及到某些能力、平台例行完整性检查、安全与合规要求时,用户会被要求验证身份,此举被很多网友推测是针对中国用户的「实名制」。

▲ https://support.claude.com/en/articles/14328960-identity-verification-on-claude

Anthropic 给出的核心理由很直接,强大技术要负责任地使用,平台需要知道「谁在使用」。

▲目前,已经有网友发现,在 Claude 内尝试订阅 Max(即最高档会员计划)时,会被触发身份验证。

能不能继续用成了个问题,但 Anthropic 这边的发货是马不停蹄。今天凌晨,Anthropic 再对桌面版的 Claude Code 进行了重新设计。

Claude Code 支持一个窗口内并行运行多个 Claude 会话,同时还新增了侧边栏管理会话、集成终端、文件编辑、HTML / PDF 预览、更快的 diff 查看器、拖拽式布局等多项新功能。

除了软件交互层面的更新,Anthropic 还给 Claude Code 加了一个很关键的新能力,「Routines」。

顾名思义,它是把这些可重复执行的日常任务,完全自动化,支持定时和触发运行。同时,这些任务可以跑在 Anthropic 的 Web 基础设施上,不依赖于本地 Mac 在线。

关掉电脑,Claude Code 还在干活

定时任务在 OpenClaw 出来之后并不算新鲜,无论是使用已有的工具配置 Cron Job,还是通过编写 HEARTBEAT.md 文档来告诉 Agent 需要以什么周期来跑什么任务。

Claude Code 这次更新的 Routine 功能,一方面是接管了这些重复性的任务,另一方面它既可以本地也可以远程,能做到不依赖我们的电脑在线,运行在 Anthropic 托管的云基础设施上,笔记本合上也能继续跑。

本质上,Routine 是一个保存在云端的 Claude Code 配置包,里面包括提示词、代码仓库、连接器和运行环境。

Routine 触发方式有三种,三种触发方式分别瞄准三种不同场景。

  • 定时触发:按小时、每天、工作日、每周,或者用 cron 自定义
  • API 触发:外部系统发一个 HTTP POST 就能拉起任务
  • GitHub 触发:PR、push、issue、workflow run 等事件发生时自动执行

定时触发最直觉,每天晚上跑一次日志整理,给新 issue 贴标签、分配负责人,早上团队上班时收到一份整理好的摘要。这些任务的共同点是:重复,规律,不需要人实时参与判断。

▲Claude Code 在网页端也能使用 Routine

API 触发针对的是已有工具链的接入场景。例如监控系统发现错误率异常,触发 Routine,Claude 自动拉取内容跟踪,并给出修复建议。

GitHub 事件触发则把 Routine 直接嵌进代码协作流程。Routine 能按照项目配置,自动对代码进行审查,以及决定是否要合并仓库等。

一个 Routine 可以叠加多种触发方式。比如同一个任务,既能定时每天夜里跑,也能在有事件触发时跑,还能被部署脚本手动触发。

这些场景的共同特征都是人工也可以做,但是做起来很枯燥又容易忘记。Routine 的重点就是把这些「无人值守、可重复、有明确结果」的工作流完全自动化。

Routine 主要是配合 GitHub 使用,官方给出的典型场景都是集中在项目开发上,例如代码审查、项目部署验证、文档修复等软件开发常见的流程。这也符合 Anthropic 一路以来在 B 端,在 AI Coding 方向上的发力。

目前 Routines 只对 Pro、Max、Team 和 Enterprise 用户开放,而且每天有次数限制。Pro 用户每天最多运行 5 个 routines,Max 用户 15 个,Team 和 Enterprise 用户是 25 个。

桌面端大改版,从工具到工作台

同一天发布的还有 Claude Code 桌面端的大改版。

▲ 右下角的 Claude Code 像素吉祥物,点击它,还会有鞭子抽打的效果

新版桌面端将顶部的 Chat、Cowork,和 Code 分类栏移动到左边的侧边栏顶部。增加的多对话并排,也是通过左侧边栏管理,现在我们可以在一个窗口里同时跑多个 Claude Code 对话,以拖拽的形式就能分屏显示或置顶不同对话。

我们也在 Claude Code 桌面端体验了一波这次的更新。

和之前的 Claude Code 终端处理多个会话不同,我们不再需要维持多个终端窗口。现在的 Claude Code 同样如此,一个人就能同时监督多条不同的任务线。

▲在电脑上是应用可以这样分屏拖拽,在应用内是文件,在 Claude Code,是每一个运行的 Agent

此外,Claude Code 还内置了终端、文件编辑、HTML 和 PDF 预览,原先需要用浏览器打开,或者编辑器处理,这些反复切换的场景,现在在同一个窗口就能完成。

如果你是开发者,想要查看每次更新后 Claude 动了哪些地方,现在也提供了像 Git 一样的 diff 视图,开发者可以快速看到不同版本之间的区别。

以前是在 Cursor、终端里面用 Claude 模型,现在 Claude Code 直接把这些常见的代码编辑器会有的功能,统统搬上来。

这次桌面端改版的方向,很明显是要把 Claude Code 从一个单一的工具,变成一整套全面的工作台。

把两个更新放在一起看,Routines 解决了「我不在时谁来做」,桌面端升级解决了「我们在时怎么同时做多件事」。这两项更新既让 Claude Code 有了在后台独立运行的能力,也让用户在前台的操作密度和体验更强了。

Claude Code 桌面端负责人 Anthony Morris 也发推文说,他自己连续好几周没有用过终端、代码编辑器、集成开发环境这类产品了。

现在的 Claude App,已经完全从一个聊天的对话工具,进化到了真正接管任务的调度和执行本身。

▲Karpathy 此前发文表示传统的编程开发软件形态正在改变,文件不再作为基本处理单元,而是 Agents。

网友@Yuchen Jin 也说 Claude Code 走了一条和 Cursor 完全不同的路,这两项更新很清楚地说明,Anthropic 正在重新设计用于智能体编码的 IDE,完全地脱离之前 VS Code 变体(像是 Cursor、Windsurf、TRAE、CodeBuddy 等应用)的形态。

Anthropic 表示这周还有更新

根据 The Information 今天的独家消息显示,Anthropic 还在准备下一个旗舰模型 Claude Opus 4.7,以及一款 AI 设计工具,帮助用户用自然语言生成网站、演示文稿和落地页。

这两款产品最快本周就会发布,消息一放出来,Adobe、Wix 和 Figma 的股价在几小时内跌超 2%。

▲Figma 股价

模型本身的能力边界、面向(企业)开发者的 Agent 工作流、面向普通用户的生产力工具,Anthropic 在这三条线上同时加速,收获不少新增用户和好评的同时,也带来了不少的算力压力。

除去此前宣布「封杀」OpenClaw,以减少额外的 Token 支出。Anthropic 近期还调整了 Claude 企业版的定价方式,不再主要按「席位」收费,而是在每月每用户 20 美元基础上,额外按实际 AI 使用量收费。

这次变动主要影响大企业客户,尤其是 150 人以上、重度使用 Claude Code 和 Claude Cowork 的团队,部分客户成本可能翻倍,甚至涨到 3 倍。

Uber CTO Praveen Neppalli Naga 透露,Uber 在 2026 年才过去几个月,就已经用了一整年的 AI 预算,核心原因就是 AI 编程工具使用量飙升,尤其是来自 Anthropic 的 Claude Code。

▲Anthropic面临的成本压力,随着运行AI模型的成本激增,Anthropic下调了其最乐观的毛利率预期,其中绿色代表收入,红色代表模型推理支出,后面两项分别是截止到 2025 夏天和 12 月中旬预期

算力紧张,定价调整是必然的,但 Anthropic 增长的势头目前没有停下来的迹象。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

微信龙虾插件上线72小时,就被OpenClaw一次更新干崩了

作者 张子豪
2026年3月24日 12:01

一觉醒来,很多网友发现微信里的虾不能用了,原因是 OpenClaw 昨天一次大更新。

APPSO 在开头强烈建议,如果你想在微信养虾,先别升级到 OpenClaw 最新版。

当我们尝试把手边的 OpenClaw 更新到最新版本时,果然在更新的过程中,就接连报出好几个警告。

不只是微信(下图中 openclaw-weixin),我们之前配置的腾讯系 qqbot、企业微信 wecom-openclaw-plugin,以及飞书等聊天应用,都遇到了「包含危险代码模式」的警告。

▲我们在从 3.13 版本更新到 3.23 的过程中,腾讯系的 qqbot、企业微信和微信几乎都遇到了类似的警告。

所谓的检测到危险的代码模式警告,一般是说在相关的插件代码里,有一些写法,可能带来安全风险、稳定性问题,或者被恶意利用。

它和报错不同,报错是代码已经出现明确问题,程序没法正常继续,或者结果不可信。

更新完成后,我们尝试在微信里面和 Clawbot 对话,控制部署在本地的 OpenClaw,连发好几条消息都没有回应。

查看 OpenClaw 的官方日志,我们发现,在微信里发给 Clawbot 的信息,完全不能同步到 OpenClaw 处理。反而好几条都是 error 的报错信息,提示找不到 OpenClaw 的 plugin-sdk 的模块。

Error: Cannot find module ‘openclaw/plugin-sdk’

但是 QQ Bot 却还能正常回应。

▲微信 ClawBot 在更新后连接不上 OpenClaw

在我们按照微信官方的 Clawbot 插件提示,重新在终端里输入命令安装 Clawbot 时,开始像 OpenClaw 的运行日志里面,报出找不到相关模块的问题。

OpenClaw 更新了什么,它也是「屎山」?

OpenClaw 现在可以说是 GitHub 上的顶流开源项目,几乎每天都有人在为他提交优化代码,而官方基本上也是保持在 2-3 天就会更新一个新的发布版本,每次都是大量的 fixes 代码修复、changes 变更,和 breakings 大改动。

▲从 GitHub 能看到,OpenClaw 的更新相当频繁

在这次 2026.3.22-beta.1 的更新中,Openclaw 团队就进行了一次重构。对于插件系统,他们做了两个大幅度的变动。

拆除了原有的总大门: 以前所有的插件都可以直接从 openclaw/plugin-sdk 这个统一的入口拿到需要的功能。这次更新,官方直接把这个总入口给删了。

不提供任何过渡方案: 更新日志里明确写了 no compatibility shim(无兼容垫片)。意思就是,他们不仅直接把这个模块删除了,连个转移和过渡的接口都不给。

OpenClaw 为什么会这么大刀阔斧地更新?

虽然对用微信 Clawbot 的普通用户来说很折磨,但从软件工程的角度,官方这么做主要是还是为了性能和安全。

以前的统一入口的模式,会导致插件一口气把整个开发包(SDK)全加载进内存,哪怕它只用到了一小部分功能,这会让软件变得臃肿缓慢。

现在官方强制要求细分路径(比如必须写精确到 openclaw/plugin-sdk/core),就是要逼着插件作者「要什么拿什么」,从而大幅提升 Openclaw 的启动速度。

此外,更新日志里还提到了「阻断相对路径的跨包逃逸」。意思是以前的旧接口太宽松,稍微有点恶意的插件可能会越权访问你电脑里的其他数据。现在强制使用细分的新接口,是为了把每个插件严严实实地关在自己的小盒子里。

OpenClaw 在自己的官方文档里也立刻更新了说明,提到这个更新,主要就是为了实现按需加载,提升启动速度和省内存,另一方面是让 API 的接口更加清晰。

▲OpenClaw 的插件更新,提到了为什么要改变,做了哪些改变,以及插件开发者如何修改的指引

强制遵守 API 规矩,就是要求插件只能使用公开的、稳定的接口(也就是 openclaw/plugin-sdk/* 里面的东西)来获取能力。

如果大家都用相对路径去偷偷访问底层的私有代码,一旦官方修改了底层代码的文件夹名字,就会直接拦截报错。

发布才 72 小时,就这样被拦截了

原因已经很明显了,就是微信的 clawbot 插件找不到和 OpenClaw 对接的路线了。

微信和企微插件的作者在写代码时,使用的是旧版的规则,代码里写死了要去 openclaw/plugin-sdk 找工具。

而在我们启动新版 Openclaw 时,程序读到微信插件的这行代码,去系统里一找——发现官方已经把这个路径给删了。

OpenClaw 的运行环境使用的是 Node.js 平台,它是个一板一眼的机器,找不到东西它就会立刻报错:Error: Cannot find module 「openclaw/plugin-sdk」,然后直接原地罢工,导致我们的微信和企微甚至连加载都加载不出来。更不用说发消息给他,想要得到回复了。

而 QQBot 还能正常使用,主要是一开始的危险代码警告,仅针对这次更新引入的严格静态代码扫描工具,警告并不会阻止插件运行。

社交媒体上对这件事议论纷纷,有人说「微信想要继续好好利用这个插件,就必须认真学习开源生态系统的相关知识了。」

也有人反驳,是 OpenClaw 本身就很不稳定,一直在更新修改。

「即便微信要对开源做适配,为什么不直接说 OpenClaw 的 API 设计太糟糕呢?项目一开始的接口简直就是一堆乱七八糟的东西,稍微改动一下就崩溃」。

确实如此,通常开源社区负责任的做法是,会先标记旧接口为「已废弃(Deprecated)」,保留运行能力但弹窗警告,给开发者几个月的过渡期,下个大版本再彻底删除。

这次,微信辛辛苦苦更新了一个版本,推出了支持二维码登录、消息收发等功能的「真.微信龙虾」,甚至有网友发现在微信公开的这个插件安装包里面,是微信第一次开放个人机器人的协议。

▲链接:https://www.npmjs.com/package/@tencent-weixin/openclaw-weixin

但刚迈出了这么大的一步,反手就被 OpenClaw 的一次更新给「背刺」了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌