普通视图

发现新文章,点击刷新页面。
昨天以前阮一峰的网络日志

科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术

2026年4月10日 07:17

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

今年就将启用的腾讯总部园区,俗称"企鹅岛",里面不仅包括办公楼,还有多幢公寓楼。(via

axios 投毒与好莱坞式骗术

上周,著名软件库 axios 被投毒了。黑客拿到了发布令牌,直接发了一个新版本,里面加入了木马。

软件投毒不是新鲜事,新鲜的是发布令牌怎么泄漏的。背后的故事简直是好莱坞电影,根本防不胜防。

axios 属于使用最广泛的 JS 软件库之一,每周下载量接近1亿次,所以这次投毒的感染面很大。

而且,木马的恶性程度很高。根据官方的清除说明,如果不幸中毒,机器上所有的密钥、令牌和凭证都要作废。这个木马会扫描所有目录,收集密钥,然后发出去。

大家要知道,像 axios 这种超级流行的软件库,每个环节都有完整防护,每一行代码都被严格审查。这次攻击完全是一场精心策划的社会工程,把这些防护都攻破了。

攻击目标选定首席维护者 Jason Saayman。据本人透露,事件过程是这样的。

他们根据我的情况量身定制了这一流程,具体做法如下:

  1. 他们冒充某公司的创始人联系我,不仅克隆了该公司创始人的外貌,还克隆了该公司本身。
  2. 他们随后邀请我加入一个真实的 Slack 工作区。这个工作区使用了该公司的品牌标识,名称也十分可信。Slack 的工作区设计得非常精巧,他们设有专门的频道来分享 LinkedIn 上的帖子。我猜这些 LinkedIn 帖子最终会发布到该公司的真实账号上,整体效果非常逼真。他们甚至还创建了一些我推测是该公司团队成员以及其他一些开源软件维护者的虚假账号。
  3. 他们安排了一次与我的会面,目的是进行沟通。会议是在微软 Teams 上进行的。参会人员似乎是一群人。
  4. 会议指出我系统上的某些东西过时了。我以为是和 Teams 有关,就安装了缺失的组件,结果发现是远程木马(RAT)。
  5. 一切都安排得井井有条,看起来很正规,而且做事方式也很专业。

可以看到,这个攻击是有剧本的,每一步都经过了策划,充分准备和排练,完全为你度身定制,就等你落入圈套。

行骗者非常耐心,投入了巨大的前期成本。首先,假冒某公司的创始人联系你,为了提升可信度,还做了假的公司网站;然后,邀请你加入他们的 Slack 工作区,里面有各种讨论、项目文档、宣传物料,看上去就像真的一样;最绝的是,他们还让你在 Teams 软件上参加公司的视频会议,一群骗子亲自露面,陪你一起开会

会议开始后不久,主持人突然说:"奇怪,你的系统怎么跟我们不一样,是不是微软的插件过时了,我发你一个最新版。"你就这样收到了传过来的安装包,看到别的与会者都在等你,你也就没有多想,直接双击执行了。哦喔,就这样中招了,发布令牌一秒钟就泄漏了。

作假到这种程度,让人叹服。

这让我联想到不久前看到的一条印度新闻,作假程度有过之而无不及,也是如同好莱坞电影。

去年圣诞节,一位印度新德里的77岁老太太,收到了"警察局"的 Whatsapp 视频电话。视频右下角居然还有手语翻译。

警察跟她说,银行发现她的账户有洗钱记录,必须对她进行调查,如果不配合,账户资金将被没收,通知她远程出席法院的调查听证会。

媒体后来披露了"警察局"的布景照片,大家看看多么逼真。

前三张照片是印度警察局,最后一张是巴基斯坦警察局,它们在一栋楼里,房间紧邻着。要知道这两个国家在现实中是对立的,但是不妨碍骗子两边都骗。

再回到案子本身,几天后,老太太参加了线上听证会,在一个法院里举行,由"法官"亲自主持。他查看了资金记录,听取了"警察"的证词,向老太太询问了一些问题。

最后,"法官"告诉老太太,当局需要核实她的所有资产是否合法。她必须每天都跟警察局连线,回答问题,直到查清为止。

下面就是这个案件最精彩的部分,一连16天,老太太每天开着摄像头连线,大家看看骗子演到了什么程度。

在这16天里,老太太渐渐喜欢上了在假警局轮班的警官们。她开始称他们为自己的孩子们。而他们也反过来称她为"母亲"。

晚上,她和最年轻的军官一起阅读印度教宗教经典,这位军官请她把她觉得特别感人的段落发给他。

"他们就像家人一样,"老太太回忆说。"他们说,'女士,我们想尽快把事情解决。我们日夜为您工作。'"

天哪,骗子从早到晚演了16天,跟老太太促膝长谈,一起读经典,请教人生问题,直到深夜。这要是拍成电影,该有多动人。

老太太没有丝毫疑心,心甘情愿卖掉了自己的投资,累计九次向假警察局的账户总共转出了160万美元。

第二天,她再跟"警察局的孩子们"连线,就连不上了。

从上面两个案例,大家可以看到,现在的互联网骗局可以演到什么程度,完全是精准投放的"剧本杀",成功率极高。要是再加上 AI 的加持,几乎不可能分辨真假、。

网站开发有一条规则:客户端的每一个请求都不可信任,必须假定是恶意请求。以后,现实生活恐怕也是这样:每一个陌生人都不可信任,必须假定是恶意骗局。

算力依然不足

最近发生了三件事,说明算力当前依然很紧张。

第一件事,OpenAI 关闭了视频生成服务 Sora,主要原因是算力不够,公司要把计算资源用于核心业务。

第二件事,Anthropic 公司正式禁止将包月套餐用于第三方服务(比如 OpenClaw、OpenCode 等等)。

原因是包月套餐如果足额使用,消耗的算力将远远超过套餐费用。公司的算力很宝贵,必须优先保证自家产品(比如 Claude Code),不能让外部产品增加机房负担。

第三件事,有文章称,GitHub 今年前三个月的代码提交量是去年同期的14倍!

原因显然是 AI 编程暴增,去年年初可没有 Claude Code。GitHub 的资源根本不足以应付这种增量,所以不断发生故障

上图显示,GitHub 过去三个月的正常运行时间只有89.47%,合格数字应该是99.99%。

以上三件事说明,主要的几家 AI 服务公司,算力资源都很紧张,硬件依然不足。

这意味着,硬件价格暴涨还没到头,还会继续涨,而 GitHub 很可能会收紧免费服务,全面转向收费。

前端是不是重复劳动?

我看到一个开发者,前端本质上是相同的工作:向用户展示一些数据,并让用户处理这些数据。

他觉得,没必要重复解决同样的问题。

他就做了一个"自适应浏览器"。它通过 AI 自动生成前端 UI,后端只需要提供数据,以及网页用途的描述。

不知道这是不是前端的结局?

Adobe 修改 hosts 文件

Adobe 公司的主要产品是"创意云"套件(Creative Cloud),包含了许多著名软件,比如 Photoshop、Illustrator、Premiere。

一个网友安装后,震惊地发现,安装程序修改了他的 hosts 文件。

上图可以看到,Adobe 在 hosts 里面加了一个本地的 DNS 记录。

一个应用程序为什么要修改系统文件呢?

据知情人士透露,这是为了测试用户是否安装了 Creative Cloud。用户访问官网时,网页会向上图的域名发出一个请求,因为该域名的 DNS 记录只有本地才有,服务器收到了请求,就意味着用户安装了 Creative Cloud。

这么著名的软件,居然想出这种类似"开后门"的解法,而且对象是付钱给他的人,真让人无语。

文章

1、MDN 新前端的底层结构(英文)

MDN 是互联网最大的文档网站,本文介绍这个网站的前端架构,没想到这么复杂。

2、杀死那个写代码的人(中文)

作者是某大厂前端程序员,回顾自己这一年,从手写代码转变到 AI 编程。AI 改变了一切,消解了"35岁退休"。(@wind-liang 投稿)

3、我如何用安卓手机搭建短信网关(英文)

作者介绍如何在一部二手的安卓手机上,安装一个短信网关,通过网络收发短信(使用你自己的套餐)。

4、使用 QEMU 进行大端字节序测试(英文)

一篇 C 语言的初级教程,在本机上通过 qemu 虚拟机,运行一个不到十行的程序,就能查看某个架构是大端还是小端字节序。

6、Python 的 importtime 功能(英文)

Python 使用 import 命令输入模块,这有性能开销。本文介绍内置的 importtime 功能,可以显示每个模块加载所消耗的时间。

6、2000年库尔斯克号核潜艇灾难(英文)

2000年8月,俄罗斯核潜艇"库尔斯克"号在演习中爆炸沉没,118名船员全部遇难。这场事故发生得十分缓慢,现场一片混乱,救援工作进展不断延迟,本文用大量照片还原了整个过程。

工具

1、Google AI Edge Gallery

本周,谷歌官方推出了一款苹果手机 App,为手机提供离线使用的 Gemma 4 模型。不需要上网,手机也能使用大模型了。

2、apfel

Mac 电脑内置了一个本地大模型,可以离线使用。但是,默认只有苹果自家的 Siri 能调用,安装了这个工具以后,就可以自己在命令行调用它了。

3、Docking

为 Linux 桌面添加类似苹果桌面的程序坞。

4、Tantivy

Rust 语言写的全文搜索引擎库,可以替代 Apache Lucene,参见介绍文章

5、Open Screen

跨平台的桌面应用,用来录屏后制作介绍视频,提供各种配套编辑功能。

6、epub-tts

这个开源工具将 epub 文件转成音频文件,也就是电子书转成有声书。

7、NVTOP

一个 Linux 系统的命令行程序,用来监控 GPU 显卡的状态,等同于显卡专用的 top 命令。

8、dmcheck

检查某个主题词的域名占用情况。(@PlayerYK 投稿)

9、Reze Studio

开源的动画曲线编辑网站。(@AmyangXYZ 投稿)

10、gitlogue

这个工具可以将 Git 仓库的提交历史,在终端里面以动画形式重现,甚至可以显示为屏保。

资源

1、佛津

全球佛教古籍数字化聚合平台。(@xr843 投稿)

2、Flight Viz

实时 3D 显示全球的航班。(@haojiang99 投稿)

3、GPU 时间线

这个网站用图片展示了 GPU 显卡的发展历程,从1996年的 Voodoo 卡到2025年的 RTX 5090 显卡。

图片

1、绿化荒山的简单方法

中美洲的哥斯达黎加出产橙汁,产生了大量的橘子皮,以前都是垃圾填埋。

一个环保组织说服工厂,把12000吨橘子皮倾倒在荒山上,用来积肥。

山头覆盖了橘子皮,除此以外,没有做任何处理。

过了6个月,橘子皮彻底腐烂,成为了黑色的泥土,慢慢开始长东西了。

16年以后,当科学家重新来到现场时,那里已经是茂密的树林了。

这真是绿化荒山的最简单方法,只要堆满了橘子皮,任其腐烂就可以了。

2、2025年全球物理摄影大赛

美国、法国、日本等16个粒子物理实验室,联合举办了一个摄影比赛,邀请摄影师拍摄物理实验室,用来向大众宣传物理学。

上图是意大利国家核物理研究所 (INFN) 的低温探测器实验室,它可以将物质冷却到仅仅略高于绝对零度。

上图拍摄地是法国的重离子国家加速器研究中心,拍摄的装置是直线加速器的供电系统。

更多照片看这里

文摘

1、为什么沙子有粘性?

我们去海边玩,沙子会粘在皮肤、鞋子、衣服和头发上。

沙子的主要成分是二氧化硅,跟岩石一样。岩石没有粘性,为什么沙子会有粘性呢?

原来,沙子本身没有粘性,但具有亲水性,它会吸水。人体也是亲水的,在烈日下汗流浃背。当沙子接触到湿润的东西时,水分子之间就会产生粘性。

皮肤上往往还有油脂或者防晒霜,它们也会让沙子粘在皮肤上。

另外,皮肤还有一些微小褶皱,也会卡住沙子。

总之,想要去除沙子,就是等到皮肤变干,或者用水冲洗。

言论

1、

如果你认为编写代码的速度是你的问题,那你面临的问题更大。

-- Andrew Murphy,澳大利亚程序员

2、

有一种兴奋,叫做2017年才刚接触加密货币的人才有的兴奋。

-- Andrew Murphy,澳大利亚程序员

3、

一项民意调查发现,美国年轻人对于婚姻、子女、信仰的重视程度,远不及他们的父母,对于传统的价值观----爱国主义、宗教、社区和家庭也很冷淡。

年轻人把市场和金钱当作道德准则。在他们眼里,市场决定了事物的价值、事件的意义、谁是正确的、谁是赢家、谁举足轻重。

-- 《预测市场的最糟糕后果》

4、

对我来说,未来城市实际上是像阿姆斯特丹那样的地方,到处都是舒适的街道和自行车道,而不是像迪拜那样的地方,有16车道的高速公路,以及一群被压迫的劳工阶级在俗气的豪华购物中心里工作。

-- Hacker News 读者

5、

高校都要求博士生发表论文,至于你写什么、怎么写的、内容与研究方向有没有关系,系里其实都不在意。系里需要论文,因为论文能证明经费的合理性,而经费又能证明系的存在价值。学生只不过是达成这个目标的生产资料。

-- 《机器没问题,有问题的是我们自己》

往年回顾

HDMI 2.2 影音可能到头了 (#345)

巧妙的灯泡钟(#295)

摩天大楼是反人类的(#245)

你做过不在乎结果的项目吗?(#195)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年4月10日

科技爱好者周刊(第 391 期):AI 的贫富分化

2026年4月3日 08:08

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

上海某餐厅的墙壁装饰。(via monana3838@Threads

AI 的贫富分化

我越来越觉得,AI 跟其他技术不一样,不仅带来技术变革,还会带来社会变革。

简单说,AI 会带来贫富分化。

其他技术实际上会消灭贫富分化,实现"消费者平等",即穷人和富人消费的东西是一样的。

比如,大家喝一样的可口可乐,用一样的苹果手机,开一样的特斯拉。甚至互联网也是如此,世界首富马斯克和你用一样的网站、一样的手机 App。

但是,AI 模型不是这样。在大模型面前,穷人和富人是不平等的

在未来,普通人肯定用不起顶级的大模型。其实,现在就是如此了,最贵的 AI 编程套餐是 Claude Code 的 Max 套餐,月费200美元,很多人已经用不起了。

OpenAI 曾经设想过月费2万美元的套餐,提供最顶级、无限量的大模型服务。

要是真的推出,只有富豪才用得起。

这反映了一个简单的事实:费用越贵,模型效果越好。因为模型的效果与算力相关,更多的算力、更大的上下文、更多的参数,都需要钱。

这跟工业品完全相反。工业品有规模效应,产量越高,单位成本越低。一旦大规模生产,价格就会越来越便宜。

但是,大模型不存在规模效应,模型的大规模生产需要更多的服务器,这并不会让单位成本降低,反而可能因为扩建机房,改造电路和水路,而变得更贵。

未来社会大概是这样的:富人和穷人用不同的模型。最顶级模型的服务----规划、咨询、生成内容、自动化......----需要支付高昂的使用费,而普通人就使用免费模型,效果当然也很普通。

不过,我也看到马斯克最近说,未来还有另一种可能。

他的意思是,算力本质上是能源转化的一种形式。人类最终会实现廉价能源的大量供应(空间太阳能?),所以算力将变得足够便宜,所有人都将用最好的模型。

可能吗?我不知道,感觉还是前一种情况更现实。

模型能力的一种衡量方法

怎么衡量大模型的能力?

现在的方法是使用一个测试集,去计算大模型的分数。它的缺点是,只能用于横向比较,很难衡量进步速度。

最近,一篇论文提出了一种新的衡量方法

科学家首先计算,人类完成某一项任务需要多少时间。比如,计算 4 + 5 + 7,人类需要2秒,而计算 37 * 52 * 19,可能需要1分钟。

然后,测试大模型能否以50%的成功率完成这项任务。

研究发现,GPT-2 以50%成功率能够完成的任务,时间范围是两秒;Claude 3.7 Sonnet 是50分钟;O3 接近两小时;Opus 4.6 约为12小时。

也就是说,人类需要12小时才能完成的任务,Opus 4.6 的成功概率是50%。

结果就是上图,可以发现,大模型的进化速度在对数坐标下是一根直线。

每7个月,大模型能够以50%成功率完成的任务,时间范围扩大一倍。按照这个趋势,大模型将在2027年至2031年间,以50%的成功率完成人类专家需要一个月才能完成的任务。

如果这篇论文正确,就意味着年底发布的模型,将比年初强一倍。

科技动态

1、用户协议的彩蛋

软件服务的用户协议,又长又难懂,很少有用户阅读,但是里面有很多重要内容。

一家美国通信运营商,为了表示自己很重视用户权益,鼓励大家阅读《用户协议》,并偷偷在里面加入了一个彩蛋。

上图高亮的句子写道:"如果你读到这句话,请发邮件到我们的信箱,赢取免费的瑞士旅游。"

上线二周后,才有人发邮件,询问这事是否真实。由于只有一个人来信,所以她就免费去瑞士了。

从这件事可以看出,即使有彩蛋,也没人阅读《用户协议》。我现在的做法是让大模型帮忙,询问"这份协议有哪些对用户不利的地方",很快就得到了答案。

2、触摸屏指甲油

广泛使用的电容式触摸屏,有一个问题,就是戴手套使用会失灵。

原因是它要求触摸物(比如手指)必须导电,这样屏幕才会产生电场扰动,从而确定触摸的位置。

解决方法也很简单,就是在手套指尖涂一层指甲油,指甲油里面的金属碎屑可以导电。

美国的一名化学系本科生,在学习化妆品化学时,发明了一种改进型的透明指甲油,专门用于戴手套使用触摸屏。

这种指甲油是透明的,涂在手套上看不见,也可以涂在裸甲上,当作抛光剂。

3、Copilot 广告

Copilot 是 GitHub 推出的 AI 助手,上周有用户发现,它会自动插入广告。

上图是 Copilot 自动提交的一个 Pull Request,它在提交说明的结尾(红框处)加入了一个广告,介绍应用程序 Raycast。

在 GitHub 搜索一下,就会发现已经有超过11,400个 PR 都包含了相同的广告词。

经过用户抗议,GitHub 暂止停止了这个功能。但这是一个危险的信号,表示 GitHub 想利用用户增加收入。

文章

1、小米 MiMo v2 Pro 评测(英文)

小米发布了 MiMo V2 系列大模型,本文是国外媒体的评测,给出了很高的评价。

2、我用 AI 生成了一个 JavaScript 引擎(英文)

作者用六周时间,生成了一个100%通过 test262 测试集的 JavaScript 引擎,涵盖所有98,426个场景。本文是对这件事的介绍。

3、解剖 .claude/ 目录(英文)

Claude Code 会生成 .claude/ 子目录,所有 AI 处理的底层数据都放在里面,本文研究这个目录到底有什么。

4、一致性哈希介绍(英文)

一致性哈希(Consistent hashing)是一种缓存定位算法,在增加或减少缓存服务器的情况下,可以不改变缓存所在的原始位置。

5、 笔记本如何用作单板计算机的 HDMI 显示器(英文)

作者使用一张 HDMI 转 USB 采集卡,将笔记本电脑用作树莓派的显示器。

工具

1、EmDash

AI 生成的 WordPress 复刻,基于 TypeScript 语言,支持插件,据说功能基本一样,参见介绍文章

2、SubsTracker

基于 Cloudflare Workers 的订阅管理系统,可以发送各种订阅的到期通知,通过 Telegram、Webhook 等通知渠道。(@wangwangit 投稿)

3、OpeniLink Hub

开源的微信机器人消息管理平台,自带应用市场,通过点击安装应用,给微信 Bot 加功能。(@xixihhhh 投稿)

另有一个类似项目 wxWebHook,通过 WebHook 向微信用户发消息。(@aristorechina 投稿)

4、Lixian.Online

获取 VSCode 插件、Chrome 扩展和 Docker 镜像的离线安装包的工具,代码开源。(@LiaoGuoYin 投稿)

5、Rename.Tools

浏览器端的批量文件重命名工具,支持各种规则设定,代码开源。(@chenz24 投稿)

6、FontInAss

开源的字幕字体子集化工具,将所需的字体字形嵌入字幕文件。(@Yuri-NagaSaki 投稿)

7、pretext.video

基于 Pretext(文字排版计算库)的一个小应用,将摄像头捕捉的人体轮廓通过文字排版实时展示。(@fifteen42 投稿)

8、OxideTerm

基于 Rust 语言的跨平台 SSH 终端,功能较多,使用 Tauri 桌面框架。(@AnalyseDeCircuit 投稿)

9、wtree

git worktree 的图形化管理界面。(@FatDoge 投稿)

AI 相关

1、Open Agent SDK

基于 Claude Code 源码实现的 claude-agent-sdk 的开源替代品,用于 AI Agent 的开发,完全兼容原始接口,不依赖本地 cli 进程。(@idoubi 投稿)

2、Antigravity Gateway

统一管理本地所有 AI 智能体的 Web 控制台,支持多工作区隔离、飞书远程协同、Skills 生态等。(@Mr-ZhangBo 投稿)

3、ArcReel

开源的 AI 视频生成工作台,输入一本小说,自动完成剧本、人物设计、分镜、短视频生成。(@Pollo3470 投稿)

4、TermCanvas

开源桌面应用,所有终端铺在无限画布上,方便管理 AI 编程工具。(@blueberrycongee 投稿)

另有一个类似项目 OpenCove。(@DeadWaveWave 投稿)

资源

1、Claude Code 动手教程

Claude Code 的互动式教程,通过11个小练习,掌握这个 AI 编程工具。

2、Claude Code Unpacked

根据 Claude Code 泄漏的源码,一步步图解演示,输入提示词后软件内部如何处理。

3、机器学习入门教程

工程师的机器学习教程,解释基本概念。

图片

1、欧洲年度树木

欧洲有一个"欧洲年度树木"的评选,初听觉得很奇怪,但仔细一想,就会发现这个活动有很多好处:提高城市知名度,促进生态保护,推动旅游业......

国内下面就是今年的"欧洲年度树木"。

立陶宛鲁凯村的橡树,树龄400年。

以下是其他入围决赛的树木。

斯洛伐克的野生苹果树

波兰的榆树

拉脱维亚的菩提树

葡萄牙的柏树

文摘

1、越使用 AI,我越不担忧

我花在 AI 编程的时间越多,对自己的职业生涯的担忧就越少,即使 AI 的编程能力越来越强。

因为,我发现 AI 编程只是流程的一部分,我的工作不仅仅是编写代码。

我的真正工作是,找出可以用代码解决的问题,然后解决它们,并验证解决方案是否有效

AI 最终或许能够完全承担中间的编码部分,并帮助解决第一部分和最后一部分,但无论如何,仍然需要有人去发现问题、定义问题并确认问题已经得到解决。

这就是我的工作的80%内容。

2、摩尔定律的不可持续性

摩尔定律指的是,大约每两年,芯片上的晶体管数量就会翻一番。

但是,它还有一个伴生效应,很少人提到。那就是,大约每五年,芯片工厂的建造成本就会翻一番,而能承担这种成本的芯片公司数量则会减半。

二十五年前,大约有40家公司,可以建造芯片工厂,每个工厂的建造成本约为20亿至40亿美元。如今,只剩下两家或三家芯片公司(数量取决于你对英特尔的乐观程度),可以建造最先进的芯片工厂,建造成本飙升到几百亿美元。

如果按照这种趋势再过10年,芯片工厂的建设成本继续翻倍飙升,也许只有一家公司或根本没有公司,能够负担这样的成本。

目前,芯片的制造工艺已经逼近1纳米,再往下发展,技术壁垒和资金壁垒将同时接近极限。

我预计,摩尔定律很快就会失效,未来增长主要在于算力,而不是单块芯片的计算能力。

未来的芯片将会像二手车,行驶速度都差不多,只是新旧差异。我甚至觉得,2035年生产的芯片和2065年生产的芯片之间,将几乎没有什么实质性区别。

言论

1、

源代码的 map 文件不小心发布到 npm,这种错误听起来似乎不可能,但当你意识到很大一部分代码库很可能是由你正在发布的 AI 编写的,一切就容易理解了。

-- 网友评论 Claude Code 源码泄漏事件

2、

人工智能的蓬勃发展,使得某些办公室工作的需求可能并不大,而将创造大量电工、焊工和水管工的工作岗位。

以前,我们告诉所有年轻人去上大学,从事银行业、媒体或法律行业,现在需要平衡一下,有些人或许更适合做体力劳动者,在水暖工和电工这些领域,职业生涯同样可以很成功。

-- 拉里·芬克,美国金融巨头贝莱德集团的老板

3、

写作的目的不在于写完,而在于增进你自己的理解,进而增进周围人的理解。

让 AI 为你写作,就像花钱请人为你健身一样。

-- 《别让 AI 替你写作》

4、

程序员的工作不是编程,而是通过抽象,来管理软件的复杂性。如果你做到了这一点,那么编程就很容易了。

-- 《你的工作不是编程》

往年回顾

制造业正在"零工化"(#344)

崖门海战的感想(#294)

大数据已死(#244)

悲观者正确,乐观者成功(#194)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年4月 3日

科技爱好者周刊(第 390 期):没有语料,大模型就是智障

2026年3月27日 05:49

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

山东日照某住宅小区的彩色风雨连廊,入口处树林还设了咖啡馆。(via

没有语料,大模型就是智障

如果现在做一个问卷调查,问大家"你觉得大模型是否具有智能?"

我相信,大多数人会是肯定的回答。

哪怕现在只是 AI 的初级阶段,大模型已经能够替代很多的人类智力劳动,确实非常神奇。

但是,我们不要忘记真实情况,大模型不是魔法,更不是具有自主智能的"硅基智能体",而是基于统计规律的语言模型,它的一切行为都基于数学计算。

最好的证据就是,如果让它解决没有训练过的题目,也就是不存在统计规律的话,它根本解不出来。

这就是我今天想分享的一个实验

两位国外的研究者找了五个主流的大模型:GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B、Kimi K2。

他们让大模型使用五种小众的编程语言----Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare----来编程解决各种问题。

这些小众语言的共同特征是,网上很少有它们的资料,因此不能用来训练大模型。大家猜猜看,结果怎么样?

实验结果用一句话总结,就是大模型的表现一塌糊涂。

这五个大模型的平均答题正确率仅为3.8%,即100道题可以答对3.8道。相比之下,它们处理 Python 问题的正确率可以达到90%。

更尴尬的是,仅有的那几道答对的题目,都是入门级。更难的级别(初级、中级、高级),所有五个大模型的正确率都为0。

这个实验充分说明了,大模型的表现(智能程度)首先由训练材料决定:训练的语料越多,表现越好,比如 Python 的语料遍地都是,大模型因此极其擅长解决 Python 问题;训练的语料越少,大模型表现就越差,简直跟智障一样,没什么用处。

那么,一个让人好奇的问题就来了:如果某种冷门语言没有语料,但有一本很详尽的《使用手册》,我们让大模型学习这本手册,它是否就能学会这种冷门语言编程呢?

MAI-Image-2

本周,微软公司发布了自家的图像生成模型 MAI-Image-2

这个模型生成的图像质量非常高,有评论认为,目前仅次于谷歌的 nano-banana-2。

微软开放了网站 MAI Playground(下图),现在可以免费生成图片。

我试用后,图像质感确实很好,非常逼真。比如,一只狗在海里骑自行车。

但是,它的使用限制很多:(1)有争议的、可能冒犯的图片,都会拒绝生成;(2)每天的免费额度是15张,每次生成的间隔时间是30秒;(3)它只能生成长宽比 1:1 的图片,其他分辨率都不支持;(4)不提供图像编辑和加工,只能用来"文生图"。

如果你需要通过文本生成高质量图片,可以试试它。

科技动态

1、可玩的封面

红牛公司推出了一本纸质的游戏杂志《GamePop》。

它的封面有一个可以玩的"俄罗斯方块",是世界首本封面可以玩游戏的书。

奥秘就是封面里面,嵌入了一块非常薄的柔性电路板。

这块板配备了180个 RGB LED 灯、7个电容式触摸按钮、一颗32位 ARM 芯片。

它还包含一块可充电电池,可以通过 Type C 充电。

可惜的是,这个封面是限量版,不公开出售。它得到了俄罗斯方块公司的官方授权,全球仅发行150套,每套均有独立编号。

2、收费的真人客服

企业都不喜欢提供真人的电话客服,因为成本很高,更希望改成机器应答的电话客服。

惠普公司想出了一个点子,将用户往机器客服赶。

用户打惠普的客服电话,会听到一段语音提示,要你访问官网自己去寻找答案。如果你坚持要真人客服,就要在线等待15分钟。

如果中途挂了电话,再打就需要重新等待15分钟。系统还会分别在第5、第10和第13分钟提醒你,可以访问网站或发邮件联系。

虽然这种做法很可恶,但未来可能成为常态:免费就只有 AI 客服或机器人客服,额外付费才有真人客服。

3、飞盘的玩法

怎样扔飞盘,才能又快又远?

一个美国的物理学家,找了几十个学生进行实验,使用不同手势和角度扔出飞盘。他测量了飞行速度和扭矩,把结果写成了论文。

他发现,将拇指放置在距飞盘外缘约3厘米的位置,可以获得平均转速和初始速度的最佳结果。

他还发现,转速与初始速度存在线性相关,转速越高,初始速度也越高。

所以,下次玩飞盘的时候,你要放对拇指的位置,然后用足力气,反手甩出,就可以取得最佳结果。

文章

1、MkDocs 的缓慢崩溃(英文)

MkDocs 是著名的文档网站生成工具,但是主要贡献者之间有激烈矛盾,互相对抗,导致这个项目四分五裂。本文就梳理这件事。

2、大模型预测咖啡散热(英文)

作者让各种大模型给出咖啡散热时间的公式,然后测量了实际的散热时间,得到了一个排行榜。

3、下一个 App 很可能是无头应用(英文)

如果我们未来都通过 AI 助手使用手机,那么各种 App 就不需要显示模块了(无头),只需向 AI 助手提供数据接口。

4、网页前端数据压缩的一种方法(英文)

本文介绍如何在前端,通过 canvas(画布)将数据压缩成一张图片。

5、Ruby 是构建 AI 应用的最佳语言(英文)

作者使用 Python、JavaScript、Ruby 三种语言写一个 AI Agent,比较后认为 Ruby 写 AI 应用最方便。

6、古罗马的混凝土建筑(英文)

古罗马人发现了混凝土,学会了用它浇筑建筑物。结果就是,古罗马建筑有古代最大的室内面积,并且非常坚固,保留到了今天。

工具

1、proxychains-rs

proxychains4 的 Rust 实现,指定某个进程走代理链。(@tianrking 投稿)

2、Flare Stack Blog

一个基于 Cloudflare Worker 的博客系统,集成 D1、R2、KV、Workflow 等服务。(@du2333 投稿)

3、Tunelo

一行命令将本地服务暴露到公网,只需要单个 4MB 二进制文件,使用 QUIC 协议。(@jiweiyuan 投稿)

4、ReadAny

桌面端 + 安卓端的电子书阅读工具,自带 AI 功能、语音朗读和多端同步。(@codedogQBY 投稿)

5、RaTeX

纯 Rust 实现的 KaTeX 兼容的数学渲染引擎,原生解析、排版 LaTeX 数学公式,支持各种环境。(@erweixin 投稿)

6、Work Review

开源的 Win/Mac 桌面应用,在后台持续记录当天使用过的应用、访问过的网站等,便于整理成个人的工作轨迹。(@wm94i 投稿)

7、Valdi

SnapChat 发布的 UI 框架,可以用类似 React 的语法编写组件,然后编译成 iOS、Android 和 macOS 的原生应用。

8、Npflared

架设私有 NPM 镜像的工具,适合企业用来提供内部的 JS 软件包。

9、Chokidar

一个 Node.js 模块,用来监听文件系统的各种事件(新增、删除、编辑等),比原生的 fs.watch / fs.watchFile 功能强。

AI 相关

1、微信的龙虾接口

微信官方本周发布了龙虾接口,AI 机器人可以向微信发消息了。

很多项目利用这个接口做二次开发,便于各种 Bot 和 Agent 网关的接入。

2、AI CLI Complete Notify

跨平台桌面应用,AI 命令行任务(Claude code/Codex/Gemini)完成后,发出任务完成提醒,支持各种渠道(飞书/钉钉/企微 Webhook、Telegram、邮件、桌面/声音提示)。(@ZekerTop 投稿)

3、Claude Config Manager

macOS 的 Claude 资源(Skills、MCP、Agent)桌面管理工具,提供一个图形化的中央控制台。(@Daydayoneup 投稿)

4、TrustClaw

龙虾 OpenClaw 的修改版,尽量消除代码的风险点。

资源

1、Project N.O.M.A.D.

一个 Linux 应用,集成了各种人类知识(维基百科、全球地图、在线课程、本地 AI 助手)等等,用于在断网时查阅。(@15x3 投稿)

2、用于数据分析的 AI Coding Agent(英文)

著名开发者 Simon Willison 的培训班讲课资料,通过 AI 工具进行数据分析,有详细步骤。

3、TypeScript 简洁之书

一本开源的 TypeScript 教程,有中文版。

图片

1、苹果壁纸彩蛋

苹果公司最近发布了新笔记本 MacBook Neo,跟以前一样,配一张特别的壁纸。

壁纸里面嵌入了产品名,以前的壁纸也有这个彩蛋。

iMac

MacBook Pro

iPad Air

MacBook Air

iPad Mini

iPad Pro

1、儿童死亡率

现代人很难想象的是,人类历史的大部分时间里,儿童死亡率(在成年前死亡)一直接近50%。

上图中,红线就是婴儿死亡率,一直稳定在50%左右。直到19世纪后期,才开始快速下降。

2020年,全球平均婴儿死亡率是4.3%,最低的国家已经达到了0.3%。

文摘

1、别变成机器

我最近看到一句话:"只有奴隶才通过生产力来量化自身的存在价值。"

是啊,生产力越高,奴隶越有价值。

这让我想到,如今的社交媒体上充斥着大量的奋斗文化,许多人展示自己是多么努力在提高个人生产力。

在我看来,这就是将自己跟机器做比较。大家认定,如果能像机器一样,接收指令并高效地完成某个目标,自己就越有价值,就能取得人生成功。

社交媒体上,这种"奋斗文化"有很多表现形式:(1)你还不够努力。(2)你得早上五点起床。(3)你得第一个到,最后一个走。

这种文化的背后,就是要求人变成机器

机器确实很高效,但有一个问题:它是刚性的,以既定的模式和线性速度运转,无法自动适应环境变化,也无法学习游戏规则。

你不是机器,你是人。你的特点应该是灵活应变,快速适应。你不要追求极致的努力,而是要找到最有价值的解决方案。你要专注于真正重要的因素:速度、效率或质量,不要迷恋枯燥乏味的工作。

言论

1、

我们创造了一个文明,其中最重要的元素都深深地依赖于科学技术,但是我们还让科学技术变得如此难懂。这会带来灾难,我们可能暂时侥幸逃脱,但迟早,这种无知和权力的易燃混合物会爆炸。

-- 卡尔·萨根

2、

巴黎以前总是堵车,市长想出一个办法,大幅减少停车位,后来果然少有人开车了。

-- CNN

3、

一项研究发现,远程教学下,外形出众学生的作业成绩,要比面对面教学时更低。

-- 《经济学快报》

4、

这些年对我影响最大的事情,就是我变成了一个"白天型"的人。

我以前经常熬夜,有时会到天亮。最近五年,我强迫自己养成早起的习惯。现在,我的生活都在白天,亲眼看到黎明和黄昏,让我感到心安,生命与自然循环和谐一致。

-- 《成为一个白天生活的人》

5、

AI 很擅长将清晰的想法转化为可运行的代码。真正耗时的是弄清楚我到底想开发什么。

-- lustin.fr

往年回顾

如何阻止 AI 爬虫(#343)

一周是一年的2%(#293)

与孔子 AI 聊天(#243)

前端与后端,谁更难?(#193)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年3月27日

套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云

2026年3月21日 18:19

1、

本周末,有一条最热闹的 AI 新闻,震动了太平洋两岸,连马斯克都关注了。

昨天,AI 编程工具 Cursor 推出了"自己的"模型 Composer 2

上图是官网截图,现在点进去还写着"自有模型"。

自从2024年10月,Composer 1 发布以来,外界就一直怀疑,它是套壳的中国模型,因为行为很类似,但苦于找不到证据。

现在 Composer 2 来了,很多人就开始研究,它的背后到底是什么模型,真的是 Cursor 自家的吗?

Cursor 为了防止破解,做了很多限制,但是百密一疏。国外推友 @fynnso 发现,有一个地方在上一个版本是禁止的,但是这个版本却可以执行。

首先,你自己架设一台服务器,充当 AI 模型的调用接口,有没有模型无所谓,只要能收到客户端请求就行。

然后,你在本地的 Cursor 里面,设置使用的模型为 Composer 2,模型网址就是你刚架设的服务器。这样一来,Cursor 就会向你的服务器发出请求,从而可以看到它到底在请求什么模型。

真相就暴露了,它请求的模型 ID 居然是 kimi-k2p5-rl-0317-s515-fast(下图)。

2、

这位国外推友就把上面的截图,发布到网上。这下炸锅了,明眼人都看出来,这是铁证,Composer 2 实际上是套壳的 Kimi K2.5

可笑的是,事情一爆发,Cursor 第一时间就把漏洞堵上,现在已经没法复现这个请求(下图)。

但是为时已晚,网上传遍了,就连马斯克也发推:"它就是 Kimi K2.5"。

这下好了,变成了公开的秘密,再也无法掩盖了。

3、

大家的关注点,很快就转移到 Cursor 是否侵权。因为 Kimi K2.5 虽然是开源模型,但是采用的是修改的 MIT 许可证(下图)。

许可证这样说:你可以任意使用这个模型,唯一的条件是如果你的商业产品月活用户超过1亿,或者月收入超过2000万美元,你必须在用户界面的醒目位置披露,你使用了 Kimi K2.5

Cursor 最新披露的年化收入是20亿美元,相当于月收入1.67亿美元,显然满足上面的条件。但是,它隐藏了使用 K2.5 的事实。

就在大家认定 Cursor 侵权的时候,他们的一个负责人终于坐不住了,出来说话了。

他承认确实使用 Kimi K2.5,但是没有侵权,他们的许可证来自合作伙伴 Fireworks AI。

稍后,Kimi 官方也发推了。

Kimi 官方确认,Cursor 是从 Fireworks AI 得到了授权。后者是一家硅谷的华人 AI 公司,从事 AI 模型的微调和强化学习,它从 Kimi 得到授权对模型进行再训练,然后又转授权给了 Cursor。

4、

事情到这里就基本清楚了,Cursor 并没有违反 Kimi 的授权条款,因此不存在侵权。

既然如此,为什么它拼命掩盖这个事实,大大方方承认,提供 Kimi K2.5 的修改版模型,很难吗?

我猜测,原因跟 Cursor 不断膨胀的估值有关

彭博社本月报道,Cursor 正在进行下一轮融资,估值达到500亿美元。

大家知道吗,它以前的估值是多少?

2023年10月,Cursor 成立时的估值是5000万美元;2024年8月的 A 轮融资,估值上升到4亿美元;12月的 B 轮融资,估值快速上升到26美元;2025年11月的最新一轮融资,估值已经到了293亿美元。

可以看到,每过几个月,估值就会翻倍。这种火箭式的上升速度,需要有业绩支持。但它本身只是一个 VS Code 的修改版,使用的都是开源技术。

为了支撑越来越高的估值,它有动机把自己从 AI 工具,包装成具有模型研发能力的大模型公司

我认为,这才是它不愿意披露使用了 Kimi K2.5 的主要原因。

5、

纵观整个事件,Cursor 无疑是输家,Kimi 则是这次的赢家,免费得到一大波高价值的曝光。

Cursor 发布 Composer 2 时,披露了性能和成本比较。

Composer 2 的性能低于 GPT-5.4,但高于 Opus 4.6。

但是,它的生成速度比 GPT-5.4 和 Opus 4.6 都快,成本也是最低的。

既然 Composer 2 就是微调的 Kimi K2.5,那么直接使用 Kimi,也能得到同样的效果

6、

以前,国外总是有人指责,中国公司窃取外国技术。但是,这个事件证明了,中国公司也有技术输出。那些国外的明星公司,背地也在偷偷摸摸使用中国技术。

联想到上周,Kimi 的创始人杨植麟收到黄仁勋的邀请,在 Nvidia GTC 大会演讲,是唯一的中国大模型公司代表。

他在台上宣讲,Kimi 团队刚刚发表的论文《注意力残差》(Attention Residuals)。

这种新技术据说可以显著提升大模型的推理能力。

我的想法是,大家要对国产大模型有信心,日常工作完全可以放心使用。国产大模型与国外旗舰模型的差距,正在不断缩小,而且价格实惠。

据杨植麟说,下一个要发布的 K3 模型性能提升巨大,即便没有强10倍,也比 K2.5 强得多,我们可以期待一下。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年3月21日

科技爱好者周刊(第 389 期):未来如何招聘程序员

2026年3月20日 07:59

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

唐山河头老街景区的轨道车"大唐云车"。(via

未来如何招聘程序员

前些天,讨论区有一个帖子,提出一个问题。

如果未来的代码都是 AI 写的,那么我们怎么招聘程序员呢?

程序员负责代码,但代码是 AI 写的,不是程序员写的,那么应该怎么面试他呢?

你仔细想想,这个问题比预想的难多了。

首先,考察他的代码能力不重要(代码不是他写的),更重要的是考察他会不会 AI。只要善于使用 AI,能够产出合格的代码,对公司来说就是合格的人选。

但是,什么样的面试问题,能够考察出一个人是否掌握 AI?下面是我想出的一些问题:

  • 请将一个复杂的项目需求,转化成提示词,要求是清晰、逻辑性强、切中要害。
  • 描述一个你认为需要使用 Skill 和 MCP 的场景,并阐述它们的工作原理和构建方法。
  • 如何将一个大项目分解,设计出一个多 Agent 协同工作的机制。
  • ......

这些问题能识别出 AI 编程高手吗?我完全没有把握。

其次,除了 AI,还要考察什么呢? 这也很不好想。

我应该还会问一些架构问题,你可以不写代码,但要懂怎么组织代码,架构出一个系统。但我也不确定这是必需的,因为 AI 生成的大型系统迟早变成一个黑箱,可能对于架构知识的要求也不是很高。

另外,我还要看看他以前的项目,如果以前他用 AI 做过类似的东西,那么应该问题不大。但这也不可靠,且不说完全类似的项目非常少,就看 AI 进化速度这么快,两年前的经验早不适用了吧。

总之我发现,很难确定什么面试问题是一定有效的,能够可信地筛选出合格的应聘者。AI 颠覆了软件开发,也连带颠覆了程序员面试。大家有好的面试问题吗?

有一点是确定的,面试各种编程细节意义不大了,因为你不需要记住语法细节了,直接问大模型就行。

科技动态

1、访达小子

苹果公司最近发布了 Macbook Neo,有人注意到,官方的 Tiktok 宣传海报里面出现了一个全新的吉祥物(下图)。

上面海报的左上角有一个玩偶,以前没见过。

这个玩偶明显来自 Mac 电脑的访达工具(Finder),所以被称为"访达小子"(Lil Finder Guy)。

几天后,苹果公司又在一场直播里面,使用了这个形象。

人们纷纷猜测,这到底是偶然的行为,还是苹果公司真的会推出它作为吉祥物?

热心的网友让 AI 绘制了"访达小子"的完整形象。

看上去很可爱,就跟 Labubu 似的,有可能大受欢迎。

2、红外线编码

英国科学家发明了一种新的通信方式,通过热辐射二极管,将数字信号以热量形式传递。

肉眼看不见这种信号(因为它是红外线),也检测不到无线电波,但是它的热量以编码方式散发,在红外线热成像仪上能识别(上图)。

因此,这种方法接收信号需要热成像仪,再传入电脑的解码器。这可能对某些工业和军事场景很有用。

3、机柜种植

家里有多余的服务器机柜,怎么利用起来?

一个国外程序员想到机柜里面有电源,拉线和搁板都很方便,可以用来水培种植。

他买了一些 LED 灯带,用来模拟日照,每一层还安装了一个泵,用来自动进排水。

如果你想在家里种一些暖房植物,或者需要长时间光照的植物,服务器机柜确实是一个很好的方案。

文章

1、我放弃了 Elasticsearch,转而使用 Meil​​isearch(英文)

Meil​​isearch 是一种开源的搜索软件,作者介绍怎么用它替代 Elasticsearch。

2、2016 年,我做过一次 AI 写代码创业(中文)

作者徐宥(Eric Xu)回忆他在2016年的 AI 创业,当时他想训练一个大模型,需要25万美元,但是找不到投资人。(@gengxiuli 投稿)

3、信息过载时代,我的漏斗式阅读工作流(中文)

每天有太多东西值得看,作者介绍他的信息处理工作流,通过 AI 过滤出值得读的内容。(@shawnxie94 投稿)

4、编译器的前端与后端(英文)

一篇科普文章,介绍编译器(比如 LLVM)的前端和后端的概念。

5、CSS 的 lh 单位(英文)

CSS 有一个字体大小属性lh,表示行高。

6、寻觅杜鹃花之王(中文)

大树杜鹃是最高大的杜鹃,是一颗会开花的大树(上图),1919年由英国人在云南发现。

后来,这个英国人死在云南,就无人知道哪里有这种杜鹃了,直到1982年才重新在高黎贡山找到。本文讲述这种植物的故事。

工具

1、APTUI

一个 Linux 的终端应用,用于充当 Debian/Ubuntu 安装管理器,管理 APT 软件包。

2、my.WordPress.net

如果你想尝试 WordPress,但没有服务器,可以使用官方新推出的这个服务,打开上面网址就可以了。

它把所有 PHP 脚本编译成 JS,在本地运行,不需要服务器,而且数据都在你的浏览器,下次打开这个网址,网站数据还在,参见介绍文章

3、GrobPaint

一个跨平台的图像编辑器,特点就是非常轻量级,可以在浏览器运行,也可以编译成二进制文件。

4、Apple Matting

一个 Mac 抠图软件,大小只有 8MB。(@pangxiaobin 投稿)

5、HealthTick

macOS 菜单栏久坐提醒工具。(@lifedever 投稿)

6、CheatReader

一个跨平台的阅读软件,可以悬浮在桌面上,支持单行模式,适合想在工作流里"偷偷读书"的人。(@yaoyao2mm 投稿)

7、锤子便签

开源的网页版锤子便签,可以作为 Skill 调用。(@zhaoolee 投稿)

8、WeChat Download API

开源的微信公众号转 RSS 工具。(@tmwgsicp 投稿)

9、Speech Speed

一个很有意思的 Chrome 插件,根据语速调节视频播放速度。如果剧中人说话慢,视频就快速播放,说话快,就慢速播放。

AI 相关

1、VibeGo

Vibe Coding 的开源 Web IDE,支持 Claude Code、Gemini CLI、CodeX、OpenCode 等。(@xxnuo 投稿)

2、Mimic Them

一个开源应用,使用字节 seedream 图像模型,复刻小红书的图文笔记,从一篇可以衍生出另一篇。(@zhanchey 投稿)

3、AICheck

一个 Rust 语言编写的命令行工具,离线检测图片、视频、音频和文档是否由 AI 生成。(@MatrixA 投稿)

4、AionUi

开源的 Cowork 与 OpenClaw 的替代品,自动化各种电脑操作。(@cdxiaodong 投稿)

5、Lumo

一个 Claude Code 的本地桌面工作台,查看成本、Token、会话和编码时段数据。(@zhnd 投稿)

6、AIComicBuilder

开源的 AI 动漫视频生成系统,只需输入文字剧本,即可自动完成角色提取、分镜设计、关键帧生成、视频合成的全流程。(@twwch 投稿)

资源

1、canirun.ai

网页检测你的机器,能够运行哪些本地的 AI 模型。

2、AI 是怎么回事(中文)

面向普通读者的通俗 AI 原理教程。(@wmyskxz 投稿)

3、TypeScript 数据结构与算法(Algorithms with TypeScript)

免费阅读的英文电子书,使用 TypeScript 语言介绍数据结构和算法。

4、频道冲浪者(Channel Surfer)

这个网页把 Youtube 改成传统的电视频道,每个频道都有节目表,可以切换频道。如果你不知道用 Youtube 看什么,就可以看这个网站。

图片

1、巧妙的古建筑

因为缺乏机械和动力,古代建筑物往往包含了很多巧思。

(1)19世纪的英国麦克尔斯菲尔德运河,由于没有水位落差,需要马拉着船前进。

有时,马的牵引道从河的一边转到了另一边,马这时就需要过河。

为了不解开牵引绳,马就能过河,工程师就设计了"蛇桥",马可以直接走上去,中间还有让牵引绳通过的孔。

(2)法国南部的巴尔贝加尔水磨坊,建于公元2世纪,现在只剩下了遗址。

这个磨坊的位置在山坡上,连续建了16个相互连接的水车,充分利用了水能,每天能够生产25吨面粉,被认为是欧洲第一个大规模工业生产的磨坊。

(3)伊朗纳什提凡的古代风车,建在连片的屋顶上,一根木轴安装了由粘土、稻草和木材做成的立轴式风帆,强风会带动木轴,转动下面屋子里的磨盘,来磨碎谷物。

(4)中国西安的秦代上林苑遗址,发现了战国时期的陶瓷水管,现保存于西安博物院。

文摘

1、避免使用定制框架

很多小团队在工作中,往往会发明自己的"定制框架"。

他们原来使用的是通用框架,但有不满意之处,于是决定在通用框架基础上定制自己的框架。

这种"定制框架"有一些共同特点:

(1)由小团队创建,旨在解决他们的痛点;

(2)底层是其他更通用的技术栈或框架;

(3)引入原有技术栈不存在的新概念和术语;

(4)创建者声称这个定制框架"神奇地"解决了许多问题,并推广更多人使用它。

我的个人经验是,"定制框架"非常难用,引入了许多新概念,意图掩盖它带来的更多复杂性。

我建议,大家避免使用"定制框架",原因有下面这些:

(1)定制框架常常声称,它们能消除或隐藏原始框架"不必要的复杂性",但实际上做不到。即使定制框架能很好地处理80%的用例,但是因为引入了新的语法,剩余20%的用例就不如原始框架的灵活性和功能性。

(2)定制框架不易改动。它仅对开发团队的用例建模,以解决他们的特定问题,未来需求变化时,往往跟不上。另外,定制框架通常改动了原始框架的实现细节,而原始框架将来随时可能变动,你修改的细节越多,就越难跟上原始框架的变动。

(3)定制框架反映了开发团队的心理模型,这些团队专注于自己的问题,往往有很强的个人意见。这本身是好事,但也使得定制框架不适合其他人的心理模型。

(4)定制框架往往导致技术栈碎片化。你改动的只是跟你相关的一部分,其他部分保持不变。随着新的层不断增加,框架变得越来越难整体迁移,必须不断改动你原来没改的部分。

(5)定制框架缺乏维护。通用技术往往有一个专门团队或公司来维护,但定制框架通常由一两个创建者拥有。一旦他们离开团队或公司,就很难找到接班人。定制框架很大可能会随着原作者离开而消失,除非在此之前获得了大量采用,才有人愿意接手,而这种情况很少发生。

我不是说,你不要开发自己的框架,而是建议最好遵循三个原则:(1)新概念引入越少越好,(2)优先创建库,而不是框架。(3)不要做现有框架的包装器,而要从零开始构建。

言论

1、

我想要的网络世界,是一个万物皆可塑的世界,让你不由自主地成为创造者。

-- David Miranda

2、

AI 让软件的成本从代码转移到测试和文档,一套好的测试套件的价值可能比编写代码本身更高。

-- lucumr.pocoo.org

3、

编程的核心在于抽象,即用一种远离底层技术的高级思维方式来思考代码。

-- 《生活在"平面国"的程序员》

4、

领导力就是让别人去做你想让他们做的事,而且是心甘情愿的。

-- 艾森豪威尔,美国前总统

往年回顾

面试的 AI 作弊----用数字人去面试(#342)

所有代码都是技术债(#292)

一次尴尬的服务器被黑(#242)

最大的机会来自新技术(#192)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年3月20日

科技爱好者周刊(第 388 期):测试是新的护城河

2026年3月13日 07:59

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

重庆涪陵某景区架设了世界首座"巨石索桥",桥面就是一块块巨石,一不小心就会踏空。(via

测试是新的护城河

Next.js 是目前排名第一的 JS 框架。平时遇到的 JS 全栈应用,我估计,一半用它开发。

两周前,这个框架被一则新闻颠覆了。

一个 Cloudflare 工程师宣布他只用一个星期就用 AI 重新实现了 Next.js,起名为 vinext

事实上,一天就生成产品原型了,后面几天只是在完善。

"真正动手是2月13日,当天晚上,基本功能已经实现。第二天下午,11个路由器做好了10个。第三天,已经部署到我们的服务器,实现了完整的客户端水合。

接下来的几天,主要进行安全加固:修复极端情况,扩展测试套件,提升 API 覆盖率至 94%。"

这个新的实现,比原版 Next.js 性能更好。

"早期基准测试中,构建速度提升了4倍,客户端软件包的体积缩小了57%,生产环境的 Next.js 应用已经直接跑在上面了。"

这个 vinext 的代码已经放出来了。

我觉得,这件事对 Next.js 的打击非常大

Next.js 是 Vercel 公司的产品,背后有一个大型开发团队,每年都是巨额投入,已经整整做了10年。虽然是开源软件,但是企业版、云服务、插件、皮肤都要收费,去年的年收入达到2亿美元。

这种看似难以逾越的护城河,在 AI 面前不堪一击。一个工程师用了一个星期,就复刻了大团队十年的工作成果,现有的网页应用不改一行代码,放上去就能跑,原版的每个功能都支持。

你知道花了多少钱?Token 费用仅仅为 1100 美元!

这叫 Vercel 怎么再向 Next.js 的开发投钱,客户又怎么愿意再为某个功能付出高昂的使用费。

推而广之,所有的商业软件都受到了重创。代码的护城河不存在了,只要投入一小笔金钱,AI 就能复刻出大型软件。

那么,为了保护自己,软件公司下一步肯定要防止 AI 复刻。

怎么防呢?关键就是测试用例

Cloudflare 工程师这一次能够复刻成功,主要原因是 Next.js 有完备的文档、庞大的社区文章、以及完整的测试用例。AI 模拟的每一个 API,只要能够通过原有的接口测试,就能确认百分百兼容。

如果拿不到测试用例,谁知道代码行为是否一致,谁敢放到生产环境运行。

可以想象,为了防止复刻,大型软件项目一定会保护自己的测试用例。测试才是新的护城河。

世界最流行的数据库 SQLite,本身代码15.6万行,但是测试用例9205万行,足足大了590倍!

其中,最核心的测试套件 TH3 是闭源的,不公开,主要测试航空、医疗等关键行业的极端情况和边缘案例,属于核心技术资产。正是这些保密用例,才让 SQLite 难以复刻。

无独有偶,就在前两天,另一个开源项目 tldraw 也准备将测试用例闭源。

说实话,保密的测试用例肯定不利于开源项目的发展,但是开发者需要保护自己的利益。在日益强大的 AI 面前,越来越多的软件可能会选择这样做。

AI 复刻的版权问题

AI 复刻软件还有一个版权问题,也引起了很大争议

Next.js 是最宽松的 MIT 许可证,所以复刻没有版权问题。但是,有人复刻了一个叫做 chardet 的项目,就争议巨大。

chardet 本来采用的许可证,是限制较多的 LGPL,复刻以后改成了 MIT 许可证,引发了原始作者的抗议。

网上的意见也分成了两派。

支持者说,AI 只复刻了功能和接口,代码完全不一样,当然可以更改许可证。

反对者说,GPL 规定了,所有衍生作品都不能更改许可证,AI 复刻就属于衍生。

更麻烦的是,美国法律规定,AI 生成产物无版权,属于公共领域。这意味着,AI 复刻的软件不能设置许可证,设置了无效。

按照这条法律,软件许可证就意义不大了。管你是什么许可证,任何人 AI 复刻一下就能规避,AI 实现的版本一律没有版权。

科技动态

1、AI 改写脏话

游戏平台 Roblox 宣布,将用 AI 实时修改玩家的对话,让其变得更文明。

以前,如果玩家在游戏里面骂脏话,系统只会将其过滤,显示为 ####,你还是知道他在骂人。

现在,AI 将重新修改整个句子,让表达变得更礼貌、更文明,你就察觉不到对方在骂人。

虽然这样未免有点虚假,但确实有必要。网络论坛也应该跟进,不要让人身攻击毁掉交流氛围。

2、飞机的激光上网

欧洲航天局成功进行了飞机的"激光上网"实验,通过激光将一架飞机与一颗卫星连接,实现了高速通信。

飞机上网现在都通过无线电波,比如星链就通过无线电,让飞机连接卫星。本次实验则是通过激光连接卫星。

上图就是安装在飞机舷窗上的激光终端。

激光通信的优点是带宽大,不受无线频谱的限制,这次实验的上网速度达到了 2.6Gbps,是星链的8到10倍。

缺点是激光与卫星之间必须保持直线,不能有云层和大气的障碍物。所以采用这种方式,大概只有飞到高空时才能上网。

3、Grammarly 的专家意见

Grammarly 是一个写作服务,提供一个收费功能"专家意见",让专家点评你的文章。

一个国外用户使用该功能时,震惊地发现,点评专家里面有他的前老板(下图),但是他知道老板已经去世了。

原来这不是真人点评,而是 AI 为每个专家建了一个分身,用他们各自的文章进行训练,然后让分身点评你的文章。

这引起了争议,我们是否有权搭建别人的"数字分身",然后冠以原始人物的名义(比如"孔子分身"或者"爱因斯坦分身")?

4、太阳能邮筒

网络通信普及以后,传统的邮筒怎么办?

英国皇家邮政想出一个办法,将英国各地3500个邮筒,变为"太阳能邮筒"。

邮筒顶部加装了太阳能光伏片,功能也从寄信,变成了收寄小包裹。

这样既保存了传统的红色邮筒,成为街道的景观,又为人们邮寄包裹提供了方便。

文章

1、GitHub Issue 标题的注入攻击(英文)

这可能是第一起 AI 模型注入的真实攻击。Cline 项目使用 AI 对 GitHub Issue 进行分类,有人就在标题插入恶意提示词,从而成功拿到 npm 令牌,发布了一个恶意版本。本文告诉你这是怎么做到的。

2、重新评估 AGENTS.md(英文)

最近的一项研究提出,跟推荐做法相反,AGENTS.md 文件对 AI 编码不是促进,而是阻碍。

它只是让模型"思考"得更多(成本上升),生成结果却没有更好(性能下降)。

3、Temporal API 的九年历程(英文)

本周,Temporal API 正式通过了第四阶段。这意味着,它进入了 ES2026 标准,成为了 JavaScript 语法的一部分。本文是这个标准的起草者对九年推进历程的回顾。

4、AI 的胡说测试(英文)

国外有一个 BuillshitBench,专门问 AI 一些胡说八道的问题,看 AI 能不能分辨这是胡说,还是一本正经地回答。

5、原生 CSS 就足够了(英文)

本文展示了 37Signals 公司的 CSS 代码,表明不使用任何框架(比如 Tailwind)和构建工具(比如 Sass),只用原生 CSS 代码完全可以。

6、粪便物理学(英文)

一篇很另类的科普文章,解释为什么动物不管大小,排便时间都在5~19秒之间,平均12秒。

工具

1、KULA

Linux 服务器的监控工具,只有一个二进制文件。

2、AnsiSaver

mac 电脑的屏保程序,用彩色的 Ansi 字符画作为屏保图案。

3、upiano

在命令行下模拟钢琴弹奏。

4、WSL Distro Manager

一个开源 Windows 应用,通过图形界面管理 Windows Subsystem for Linux(WSL)发行版。

5、Mole

开源的 Mac 电脑清理和优化工具。

6、PipeGate

一个将内网服务映射到外网的隧道工具,特点是比较简单,就是几个 Python 脚本,并且可以设置 UUID 客户端认证。

7、HookListener

一个管理、测试 Webhook 的在线工具,个人可以免费使用。

8、Sentinel

将安卓手机转化为网络摄像头,实现实时监控和图像采集。(@suzuran0 投稿)

9、Flux Monitor

Mac 电脑的系统监控、管理面板。(@chentao1006 投稿)

AI 相关

1、Agentic Metric

一个 Python 命令行工具,监控本地各种 coding agent(比如 Claude Code、Codex、OpenCode)的使用量。(@MrQianjinsi 投稿)

2、cc-connect

一个开源的连接器,将各种 AI 编程工具与手机聊天软件相连。(@chenhg5 投稿)

3、Page Agent

只要在网页插入这个 JS 库,就可以使用自然语言操作页面,比如"点击导航栏的文档链接,总结其内容"。

4、Agent Safehouse

一个 macOS 沙箱工具,用来在沙箱里运行 AI 编程工具。

5、Repo Tokens

一个 GitHub Action,为你的仓库添加一个图形标签(上图),显示该仓库相当于多少 Token,用来大模型的计算量。

资源

1、世界监控(World Monitor)

世界局势的一个实时看板,把各种消息源都放在一个网页里。

2、炼油厂探索

一个动画互动网站,展示炼油厂怎样将石油变成汽柴油。

3、Mechanical Pencil

弹簧笔、打火机等生活小物品的机械装置动画。

图片

1、密码的替代方法

一位程序员发明了一种新的密码方法,你觉得可行吗?

系统向用户展示一副扑克牌,让其从52张牌中依次挑出5张,作为密码。

下次登录时,用户必须按同样顺序挑出同样的5张牌。

文摘

1、复杂社会的崩溃

我们都知道,一个软件的复杂度不断上升,超过某个极限后,就会难以维护,最后往往被放弃。

美国历史学家约瑟夫·坦特(Joseph Tainter)认为,人类社会也是如此。如果社会的复杂度超过极限,这个社会最终也会崩溃。

1988年,他出版了一本名为《复杂社会的崩溃》的书,描述了罗马人、玛雅人和查科人等伟大文明的兴衰,试图回答几个世纪以来一直困扰着思想家的一个问题:为什么强大的社会会崩溃?

他认为,原因是这些社会有一个敌人----复杂性。

随着文明的发展,社会增加了越来越多的复杂性:更多的等级制度、更多的官僚机构、更深层次的社会结构。

一开始,新的等级、官僚、组织都是有用的,比如可以增加经济产出、税收等。但到了某个时刻,收益递减规律开始出现,每增加一点复杂度带来的回报越来越少,直至变成零甚至负数。

(1)法律条文和官僚越多,政府开销也就随之上升,长期很可能令社会无法负担。

(2)复杂度变大,会增加社会的不平等,因为能理解所有规则的人就越少,你就越离不开律师。懂规则的人会比其他人占优势。

(3)规则越多,维护和执行这些规则的机构也就越多,不利于社会提高效率。

(4)复杂性最终导致社会各阶层的差距变大,对立也随之而来。

以上因素的共同作用,导致历史上很多强大的社会最终崩溃。

言论

1、

2021年,我感觉做一名优秀的软件工程师棒极了。软件行业蓬勃发展,机会很多,我热爱这份工作,觉得可以永远做下去。

2026年,我已经不确定软件行业十年后会怎样,即使还存在,必定与现在极不相同。我也许能找到出路,也许不得不离开这个行业。无论如何,我热爱的软件工作即将消失。

-- 《我不知道十年后我的工作是否还存在》

2、

与强大的 AI 对抗会是什么感觉?

你会感觉自己莫名其妙地弱了不少,AI 做的每件事都超出你的预期。

这就好像你和一位实力强劲的玩家玩一款随机性很强的游戏,你会感觉这位高手总是运气爆棚。

-- probablydance.com

3、

阅读商战书籍是浪费时间。它们将简单的故事变成通用的建议,将偶然的成功转化为普遍的策略,并用激励人心的口号取代复杂的市场。

这些书的成功并不是因为内容正确,而是因为易于阅读并且让读者感觉良好。

-- 《阅读商战书籍是浪费时间》

4、

我想让 AI 告诉我怎么使用一种全新的、AI 也不会用的工具,就会提示 AI "执行 xxx-tool --help 来了解该工具"(假定工具名字是 xxx-tool),然后 AI 就学会用了。

-- Simon Willison,著名开发者

5、

时间是唯一不可再生的资源。AI 大模型是目前我所知的最便宜的赚取额外时间的方式。

-- 《不要太看重 AI 大模型的订阅费》

往年回顾

低代码编程,恐怕不会成功(#341)

AI 没有护城河(#291)

中国的增长动力在内陆(#241)

一个程序员的财务独立之路(#191)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年3月13日

零安装的"云养虾":ArkClaw 使用指南

2026年3月12日 16:01

一、引言

大家这两天,有没有被"龙虾"(OpenClaw)刷屏?

到处是它的新闻,就连两会代表和新华社都在谈论。真让人跌破眼镜,一个 AI 软件竟能引起这么大的反响。

人们的热情高涨,免费的线下安装活动人满为患,网上的"付费安装"生意兴隆。

很多人大概还不知道,现在有一种最简单的龙虾使用方法:ArkClaw

简单到你根本不需要操心安装,因为这是一个免安装的方案,它直接内置了龙虾,开箱即用。

我也是昨天才开始用,迫不及待跟大家分享,初步使用的感受。没有用过的同学,也可以把它当作《龙虾零门槛上手》教程,看看龙虾到底是怎么回事。

二、ArkClaw 是什么

事情是这样的,老读者可能还记得,我在春节前测评了字节最新发布的 Seed 2.0 模型。

我在文章里说,这是字节目前最强的基础模型,手机豆包用的就是它,测试表现很不错。

字节的同学后来就向我赠送了 Coding Plan 套餐,方便继续测试这个模型,各种 AI 编程工具都可以调用它的 API(当然套餐还包含其他国产模型,也是自由使用)。

本周一,我突然发现,字节的这个 Coding Plan 套餐开通了一个捆绑服务,就是 ArkClaw。

我问了客服才知道,只要现在开通 Coding Plan,就能免费使用龙虾

也就是说,只要你用字节的 AI 编程套餐,不用多花一分钱,字节就提供一台远程主机,里面安装好了龙虾,你可以自由使用。

需要说明的是,Coding Plan 分成 lite(首月9.9元)和 Pro(首月49.9元)两种套餐。lite 套餐只能免费体验7天,只有 Pro 套餐可以长期使用 ArkClaw。

三、云养虾

ArkClaw 属于"云养虾"(又称"云龙虾"),就是把龙虾(OpenClaw)安装在火山方舟(字节的 AI 云服务品牌)的云主机上,它名字里的 ark 就是"方舟"的意思。

除了"云养虾",也可以把龙虾安装在本地计算机。

不了解的朋友可能会好奇,两者有什么区别,我简单说一下。

首先,你要知道OpenClaw 属于自动化软件,它的作用就是让用户使用自然语言描述需求,它通过大模型找出满足需求的方法,然后自动去完成。

当它安装在本地计算机(你的笔记本),就方便自动操作本地文件和本地设备,比如"找出拍摄于去年今日的照片"或者"关闭客厅的智能灯,并查询最近一周的耗电量"。

当它安装在云端,就能 7x24 小时跟各种网络服务互动,比如"收到电子邮件时,自动生成30字的内容摘要,向手机发送通知"。

所以,如果你需要自动化操作网络服务,并且需要长时间在线或者每天定时运行,那么就合适使用"云养虾"。

四、ArkClaw 基本操作

4.1 界面

我给大家看一下,ArkClaw 的样子。

进入控制台,点击"立即创建",创建一个龙虾实例。

创建完成后,就已经安装好了,直接使用。

界面非常简洁,就是一个对话框。ArkClaw 对龙虾的官方控制台做了定制,简化了操作界面。

4.2 抓取信息

你可以在对话框里面,跟 AI 模型对话,这跟其他模型的用法并无二致。

举例来说,我们可以让它抓取信息。

可以看到,由于抓取的是动态内容,所以模型想到了很多实施方案,最后顺利完成。

大家要记住,ArkClaw 就是一台远程主机,任何服务器可以用的技术方案,它都能用,这比安装在一般个人工作电脑上的龙虾更强大。

4.3 发送消息

获取信息以后,龙虾可以把这些信息发到手机。

目前,ArkClaw 支持与企业微信、钉钉和飞书绑定。其中,飞书因为是自家的产品,绑定操作最简单,便捷快速,扫码即可。其他两家操作都比较麻烦,具体见官方文档

点击对话框上方的"飞书配对"按钮。(前面的"消息渠道"按钮,用于绑定企业微信和钉钉。)

系统会打开一个终端窗口,输出一个二维码,飞书扫描后可以创建一个机器人,跟当前的 ArkClaw 实例绑定。

通过这个机器人,你就可以在手机上跟当前这台 ArkClaw 实例对话了。

你也可以在电脑上,通过 ArkClaw 网页控制台,向你的手机发消息。

电脑端输入上面指令后,手机端就会推送消息(下图)。

4.4 定时任务

我们还可以规定,龙虾执行某些任务的时间和频率,也就是定时任务。

首先,使用自然语言,在对话框设置定时任务。

设置完成后,你的手机就会每天收到消息了。

如果要删除定时任务,也是使用自然语言发出指令。

五、Skill 和其他设置

5.1 Skill

龙虾本身的能力是有限的,总会遇到一些它不知道如何处理的问题。这时,就可以通过 Skill(技能)扩展它的能力,这大大增加了龙虾的用途。

什么是 Skill?简单理解,它就是一个文件包,里面包含了指令和示例,用来教模型如何完成某些特定的任务。

网上已经有很多别人写好、分享出来的 Skill,只要挑一些自己需要的,让龙虾加载,就能扩展对应的能力。网站 ClawHub.ai 就收集龙虾专用 Skill,已经有近20000个了。

我本来想用小红书 SKill 来举例,演示龙虾如何学会写小红书。但是,官方昨天发公告了,最近这样做的人太多了,现在开始封账号了。

那么就换一个例子。

上面截图就是使用自然语言,让龙虾从 ClawHub 网站下载安装高德地图(amap)的技能

龙虾本来不知道怎么使用高德地图,有了这个技能就学会了,可以从中查询信息。这个技能的具体详细,可以查看它的主页

使用的时候,也是直接用自然语言描述需求,模型会自己加载调用所需的技能。

上图的截图就是通过高德地图,查询实时路况。

5.2 其他设置

ArkClaw 的其他功能,都在"设置"菜单(下图),比如调整底层模型。

只要是 Coding Plan 套餐提供的模型,这里都能使用。

"设置"菜单还有两个很有用的功能。

一个是"打开终端",它会在网页上打开一个终端窗口,让你通过命令行直接操作 ArkClaw 所在的远程主机。

从上面的终端窗口截图可以看到,ArkClaw 底层是 Ubuntu 系统。

另一个是"配置网盘"。某些情况下,你可能需要向 ArkClaw 上传/下载文件,这个功能允许当前主机与火山引擎的对象存储服务 TOS 绑定,相当于有了一个无限容量的网盘。

六、总结

以上就是我昨天第一天使用 ArkClaw 的主要内容。

我的感受是,它确实大大简化了龙虾的使用,免安装、开箱即用,让龙虾的操作变得简单直观。通过自然语言加载调用 Skill,也很自然流畅。

它最大的强项就是跟字节生态深度融合,配合得十分丝滑:底层 Seed 2.0 模型 + 飞书推送 + 火山引擎网盘,完全不必复杂的配置。

它是一个跟字节 Coding Plan 捆绑的服务,不用额外付费。相比自己从头搭建"云龙虾",云主机和 AI 模型的费用就省掉了,这是一笔不小的费用。

作为程序员,这个 AI 编程的 Coding Plan + 云龙虾 ArkClaw 主机的捆绑方案,还是很有吸引力的。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年3月12日

科技爱好者周刊(第 387 期):你是领先的

2026年3月6日 04:20

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

福州元宵节灯会的福鱼灯,一个25米的机械装置,漂浮在空中。(via

你是领先的

世界总人口现在是81亿,如果画成一个方块图,每个方块代表320万人。

68.8亿人还从没用过 AI(灰色方块),占84%。

13.8亿人跟 AI 有过对话(绿色方块),占16%。

1500万~2500万人付费订阅了 AI 服务(黄色方块),占0.3%。

200万~500万人使用 AI 生成了自己的编程项目(红色方块),占0.04%。

正在阅读这份周刊的你,如果是关注 AI 动态,用过 AI 生成代码,就已经领先全世界99%的人了。

OpenClaw 的安全

眼下全世界最火爆的软件,一定属于个人 AI 助手 OpenClaw

火爆到什么程度?

四个月的时间,它在 GitHub 得到了25万颗星星,超过了 React,成为有史以来星星最多的软件项目

要知道这些星星,React 用了13年,它只用4个月。

上图中,垂直上升的红线就是 OpenClaw,太夸张了。

OpenClaw 的作用,就是通过自然语言控制电脑,完成自动化操作。以前,你需要多种工具和专业技能,才能达到同样的效果。现在只要输入文字或者口述,这不仅有用,也很有趣。

它基本上就是苹果智能助理 Siri 应该有的样子。对于普通用户,这才是与电脑交互的正确方式。可以预料,几年之内,这类工具将会普及到每个人的手机。

但是,它有一个问题:不够安全。

OpenClaw 有40多万行代码、53个配置文件、超过70项依赖,在短短几周内由 AI 生成,没有任何正规的审查流程。

它需要使用你的个人密钥,而且权限极大,完全自主运行。有人把自己的 Apple ID、Gmail 邮箱都授权给它,不敢想象啊,万一出错,会是怎样的后果。

它的防护措施很少,原始设计根本没有,一不小心,还可能暴露在公网上。

有人做了一个 OpenClaw 暴露看板(OpenClaw Exposure Watchboard),收集了所有暴露到公网的 OpenClaw 实例(上图)。你知道现在有多少台?截止到昨天是258305。

你随便选一台机器点进去,就能看到 OpenClaw 控制面板(下图)。

那个架设的人,以为正在自动化自己的电脑,哪里料到向全世界敞开了大门。

如果你要用 OpenClaw,至少要安装在虚拟机或者专用的物理机,否则就自求多福吧。

科技动态

1、二维码纸带

一个国外发明家突发奇想,能不能把声音保存在纸带上?

他就把每秒钟的声音,编码后保存成一个二维码,然后把所有二维码依次打印在纸带上。

他又做了一个播放器(下图),外面是纸板,里面是一个传动装置 + 摄像头。

播放器会把纸带每秒向前移一格,摄像头识别出二维码的数据,还原成声音,播放出来。

2、韩国政府丢失加密货币

韩国国税厅抓了一批逃税者,没收了他们的加密货币。

执法部门在网上公布了赃物照片(下图),都是本次行动的战利品。

照片是高清晰度的,里面有一个加密货币的硬件钱包,还有一张纸条,上面手写了钱包的恢复密钥。

结果可想而知,加密货币顿时就被转走了,价值440万美元,大概率找不回来。

这件事凸显了,政府持有加密货币的风险极大,任何一个环节泄漏钱包密码,就全完了。

3、霸王龙的行走方式

霸王龙是一种凶猛的巨型恐龙,白垩纪的王者,也是顶级掠食者。

霸王龙的未解之谜非常多,科学家至今不理解,为什么它的前肢变得又短又小。

最近,科学家又发现了它的一个特点,这么庞大的动物居然是踮着脚的,也就是只用脚尖走路和奔跑。

原因是霸王龙的脚印化石显示(下图),脚趾部分的痕迹最深,表明这部分承受的重量最大。

踮着脚尖的原因可能是,这样能使霸王龙提高速度,有利于捕食。

文章

1、增强 AI 模型的一个技巧(英文)

AI 模型不会做某件事,或者做得不好,怎么办?

著名开发者 Simon Willison 介绍解决方法:你去找这方面的介绍文章和可运行的代码示例,然后放入上下文,让模型参考该示例,它就能学会解决类似的问题。

所以,你要囤积自己懂得如何做的事情,模型学会后,就能自己去做这些事。

2、我做了一个 AI 版的自己(中文)

作者记录了,如何将自己十几年的博客、视频和社交媒体,训练成一个数字版的个人分身,对外提供聊天服务。他分别用6个模型训练,就可以6个版本的分身。(@foru17 投稿)

3、scp 命令的一个注意点(英文)

scp 命令一般用来向服务器传送文件,它是带权限拷贝,某些情况下可能会意外禁掉 ssh 远程登入服务器。

4、Nano Banana 2 与 Seedream 5.0 Lite 对比(英文)

本文比较了目前最先进的两个图像生成模型,谁的效果更好,谷歌的 Nano Banana 2 还是字节的 Seedream 5.0 lite。

5、JavaScript 的四种遍历(英文)

本文比较了 JavaScript 的四种数组遍历,结论是 for i++ 速度最快,for-of 其次,forEach 较慢,for-in 应该避免使用。

工具

1、yj_nearbyglasses

开源的安卓应用,检查你的周围有没有智能眼镜。

2、explain-my-curl

curl 命令的一个终端界面,可以解释命令的运行结果。

3、Pocket ID

一个需要自搭建的 OIDC 身份认证服务,支持 Passkey 无密码登录,设置参考这篇文章

4、R2 Web

文件存储服务 Cloudflare R2 的 Web 客户端,可以上传/管理文件。(@vikiboss 投稿)

5、Voxt

macOS 应用,用于语音转文本、语音的实时翻译。(@hehehai 投稿)

6、Cutia

开源的网页视频编辑器,网页版的 CapCut 替代品,试用 Demo。(@moonrailgun 投稿)

7、Gorse

开源的推荐引擎,会自动对数据进行训练,为每个用户生成推荐,方便接入各种在线服务。(@zhenghaoz 投稿)

8、vscode-stylelint-plus

一个 VSCode 插件,对 CSS、SCSS、Less 等进行代码检查。(@hex-ci 投稿)

9、OneDroid

开源的安卓应用,提供多种实用工具,来管理你的安卓设备。(@QingGeTech 投稿)

10、NoteCalc

所见即所得实时计算笔记本。(@2234839 投稿)

AI 相关

1、no-agents.md

如果你不想自己的仓库被大模型抓取训练,可以加入它提供的 AGENTS.mdCLAUDE.md

2、Skills Manager

一个 macOS 桌面应用,统一管理 Skill 文件,保存在目录 ~/.skills-manager 目录,然后一键同步到各种 AI 工具。(@xingkongliang 投稿)

另有一个同类的 Skills Manager(下图)。(@Rito-w 投稿)

3、AGI Agent

开源的个人 AI 助手,OpenClaw 替代品,适配了国产大模型。(@agi-hub 投稿)

4、ArXiv Daily Researcher

一个 Python 应用,从 ArXiv 与顶级学术期刊获取最新论文,可配置关键词进行筛选,生成专业报告,多渠道推送。(@yzr278892 投稿)

5、魔方简历(Magic Resume)

基于 Web 的在线简历编辑器,可以集成多种大模型 AI 能力。(@JOYCEQL 投稿)

资源

1、MicroGPT 交互式讲解(英文)

MicroGPT 是一个200行的 Python 脚本 ,用来解释 ChatGPT 的原理。本文使用互动式动画分析 MicroGPT,适合初学者了解大模型算法。

2、2026年全国樱花花期预测

预报全国各地樱花开花的日期。(@rogerzhu 投稿)

3、Now I Get It!

上传一个科学论文 PDF 文件,该网站将其转成一个互动式网页(上图),用浅显英语来解释论文,目前是免费服务。

图片

1、苹果广告30年

1997年的苹果广告,主角是爱因斯坦。

2025年的苹果广告,主角是一只青蛙。

相隔30年,很难想象,今天的苹果公司还会用爱因斯坦来做广告。

相比上个世纪,人类社会已经大为娱乐化,不那么严肃和一本正经。

文摘

1、老板在度假时用 WhatsApp 解雇了我

我在一家私营公司工作,老板就是创始人。

前一段时间,我把待办事项清单都清空了,无事可做。我就去问项目经理还有什么项目。整整两个星期,他都没有给我派活。

这是很奇怪的状况,我从没遇见过,突然就无事可干,而且已经持续了半个月。肯定哪里出问题了。

于是,我直接在 Slack 上给老板发消息,询问我这个月的任务。

几个小时过去了,没有回复。两天过去了,依然没有回复。

今天早上,我就改在 WhatsApp 上给他的私人账号发了条同样的消息。

他回复了,说他正在夏威夷度假,没看到 Slack。

然后,他写了一条长长的回复,告诉我被解雇了。

他说,我的部门是全公司成本最高的,而且上个月,公司第一次出现亏损,他现在不得不借钱来偿还房贷,削减成本是公司生存下去的唯一途径。

我震惊了,他一边在夏威夷度假,一边说这些话。

我本来很同情他,他努力挣扎着偿还房贷,还要拼尽全力维持公司运营,真的活得非常辛苦。要不是想到他还在度假,我简直要为自己向他索要工资而感到愧疚,我甚至乐意免费为他工作,以避免公司的亏损。

读到他的这些解雇我的理由后,我觉得很可笑,我居然给他写信,要他给我委派任务。

我后来才意识到,自己是在 WhatsApp 上被解雇的,而且只通过一条文字消息。我为他工作了四年,他解雇我的时候甚至连安排一次视频通话、面对面告诉我的勇气都没有。

我看清了,我的工作就是让他能还清房贷,为他的幸福和财富做贡献。而他不需要有同情心,也不需要有直视我眼睛来解雇我的勇气。

言论

1、

让我非常惊讶的是,人们最近突然开始做一些早就应该做的事情:

(1)撰写简洁、直截了当的文档,把它放在 AGENTS.md 文件里。

(2)实现非常有价值的工作流程,以技能或 MCP 服务器的形式暴露出来。

(3)改进测试和命令行工具的输出,使其带有更多信息。

-- 《AI=true 是反模式》

2、

GitHub 最近频繁宕机,我认为原因并不是他们在运行 AI 生成的代码,而是用户在提交 AI 生成的代码,导致提交内容和频率远超以往,GitHub 不堪重负。

-- Hacker News 读者

3、

GitHub Star 曾经是一个很好的指标,直到人们逐渐意识到它确实是一个很好的指标。

-- Hacker News 读者

4、

有了 AI,工程师一个迭代可以做七个功能,晋升毫无难度。

-- 《当代码生成速度超过理解速度》

5、

吃掉大象只有一种方法:一口一口地吃。

-- 南非主教图图

往年回顾

技术炒作三十年(#340)

苹果头盔的最大问题(#290)

教育年限可以缩短吗?(#240)

产品化思维(#190)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年3月 6日

科技爱好者周刊(第 386 期):当外卖员接入 AI

2026年2月27日 08:07

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

上海黄浦江边的艺术装置《航舵》。此处是船厂遗址,有一堵防汛墙,为了吸引人们走上去,以及配合造船主题,就设计了这么一个装置。(via

当外卖员接入 AI

最近,美国有一条无人驾驶的新闻,引起很大反响。

Waymo 是一家无人驾驶公司,已经在多个美国城市开展出租车运营了。

它有一个最大的烦恼,就是乘客下车后,没关好车门或后备箱,导致车辆无法驶离。

奇怪的是,这样一家高科技公司,居然没有开发远程关车门功能,反而想出了一个另类的解决方案。

它给外卖小哥下单,付钱让他们赶到现场关车门。

有一个小哥看到了上面这张奇怪的订单,标价6.25美元,要求赶到1公里以外的一个地方,找到一辆 Waymo 出租车,把车门关上。完成后,还将额外收到5美元。

他觉得很稀奇,就截图发到了网上,这件事顿时就变成了新闻。

它的新闻点,其实不是接单关车门,而是程序在调动人力,完成自动化流程

一直以来,程序只能调动计算机,突然之间,它可以调动人力了,某个环节计算机完成不了,它就自动找人来完成。这才是新闻。

这样做之所以能够成功,完全因为外卖员是一个自带 API 的人群,已经接入了软件系统,成为了自动化人力,程序可以通过接口去调用他们。

你仔细思考这件事,就会意识到,在人工智能和机器人的时代,外卖员有特殊的价值,将是一个很有想象空间的职业。他们的作用绝不仅是送外卖,而是可以升级为远程操控、程序调用的人力,是"机器 + 人"自动化流程的一环。

一旦 AI 模型跟人力结合在一起,模型的作用将大大扩展,现在的 OpenClaw 只能操作计算机,将来的 AI 助手还将是劳动力的调配引擎

比如,我要装修一套房子,AI 做好了设计方案,然后就在网上分布细分任务,水电工接单做好水电,监理员接单上门确认后,AI 就自动结算费用,进入下一个环节,泥工、木工......直至装修完成。

到了那时,你在网上输入提示词"我要装修房子",真的可能一套房子就被 AI 装修好了。

AI 平台因此会变成一个劳务平台,你可以通过 AI 找工作,上面有各种劳务需求,你接单去做,完成后收到报酬。

总之,一旦人力接入 AI,被它调配,AI 就不止是计算机革命,而是整个社会经济都将围绕它重构了。

[本周软件] PinMe:去中心化托管服务

链接会删除,网站会关闭,域名会消失,内容怎样永久保存在互联网?

现在有一种解决方案 IPFS(星际文件系统),通过分布式协议,在所有节点之间分享内容,而网址就是内容的哈希值。

所以,内容一旦上传 IPFS,就无法修改,因为哈希值会变,也无法删除,因为其他节点会有留存。

今天介绍的 PinMe,就是这样一个 IPFS 托管工具。

你可以通过它,将任何文件上传到 IPFS。上传一个静态网站,理论上就是永久可访问,任何人(包括你)都无法删改和关闭,任何一个 IPFS 网关都能打开浏览。

PinMe 会分配一个 ENS 域名,指向上传内容,这个域名写入以太坊区块链,也是永不消失。

它提供的免费储存空间有 1GB,更大空间和自定义域名需要付费。

文件可以网页上传,也可以用它的开源命令行发布工具,一行命令发布到 IPFS,该工具已经有2800颗星。如果要永久保存内容,大家可以试试看

科技动态

1、音频线

材质越好的音频线,价格越贵,但真能听出差别吗?

一个美国音响爱好者做了一个实验,分别用专业音频铜线、香蕉和湿泥来传输音频。

他让不同的人来听,结果根本听不出差别。

这太令人惊讶了。一般认为,香蕉和湿泥土不是良好的导体,但是这个实验表明,它们只是电阻大一点,除了降低信号电平之外,不会对音频造成太大失真。

2、COBOL 代码的 AI 维护

COBOL 是上个世纪的编程语言,现在已经没人用了。

但是,美国很多大公司的关键系统是 COBOL 写的,始终没有下线,目前都由 IBM 公司维护,收费非常昂贵,因为除了他们就没人懂这门语言。

本周一(2月23日),Anthropic 公司突然在官网发布文章(上图),宣布他们的 Claude 模型可以自动分析 COBOL 代码,将其迁移到其他语言。

这篇文章立刻导致 IBM 股价大跌(下图)。

如果 AI 可以维护 COBOL 代码,是否意味着所有历史遗留软件的维护,都已经不成问题了?我们再也不必为接手老项目烦恼了?

3、AI 编程项目的版权

美国的司法规定,只有人类的智力成果才有版权,AI 的生成结果没有版权。

这意味着,AI 编程出来的代码,(在美国)是无版权的,任何人都可以自由使用。

这一点要特别注意,GitHub 上面那些 AI 编程项目,其实都没有版权,可以自由使用,即使加上版权声明和许可证也是无效的。因为 GitHub 是美国公司,必须遵守美国法律。

除非项目明确披露哪些部分是 AI 生成的,哪些部分是人工编写的,这样可以对人工编写的部分主张版权。

4、僧侣机器人

日本京都大学发布了一款僧侣机器人,硬件为宇树机器人,软件为佛经训练过的 ChatGPT。

它步态缓慢,能做出双手合十、鞠躬等动作,能够跟你对话佛经,提供精神安慰,解答生活问题,还能主持祈福、洒净等简单法事。

当被问到"嗜酒困难"时,机器人回答:"远离损己伤身之物,持守不饮酒戒,勤修善行,方为安乐。"又被问道"性情急躁、难以专注"怎么办?它建议:"勿求速成,安住当下,逐一观照所遇之事,辨明本心所需,徐徐而理,自然澄明。"

京都大学在声明中表示,这款机器人将来可能协助或替代人类,完成一些宗教仪式,并且也能解决由于人口老龄化和劳动力减少,佛教僧侣不足的问题。

该机器人从3月起在京都青莲院门迹等寺庙进行为期6个月的实地测试,顺利的话,将于2027年推出商业版本,提供"寺庙机器人租赁服务",帮助小型寺庙维持运营。

文章

1、SWE-bench Verified 测试应该放弃(英文)

OpenAI 公司创建的 SWE-bench Verified 是目前最常用的测试基准,用来衡量模型的编码能力。

本周,OpenAI 公司提出应该放弃它,因为有难以克服的缺陷,已经不准确,可以改用 ScaleAI 创建的 SWE-Bench Pro。

2、.plan 文件(英文)

作者提出,文本文件 .plan 是最好的任务管理系统。放在云盘上,随时随地使用任何设备,都能查看和编辑。

3、鲸落(英文)

一鲸落,万物生。本文通过很多例子,说明一个大项目终止后,并不会真的死亡,而是化作许多小项目,四处生长。

4、40 行代码实现无服务器 OCR(英文)

本文是一篇教程,作者用云函数调用 DeepSeek OCR 模型,将 PDF 格式的数学论文转为 Markdown。

5、两台路由器实现局域网无缝漫游(中文)

作者家中的两台路由器无法组 Mesh,本文介绍如何将它们组成同一个局域网,让设备可以无缝漫游。(@popring 投稿)

6、视觉隐藏的最新实现(英文)

视觉隐藏指的是,网页上看不见这个元素,但是网页阅读器能读到这个元素。本文介绍它的最新 CSS 写法。

7、OpenClaw 背后的引擎 Pi(英文)

OpenClaw 的走红,也带火了它的底层引擎 Pi。Pi 是一个 Coding Agent,跟 Claude Code 作用类似,但更轻量级。

工具

1、Oat

轻量级的 HTML + CSS + 极简 JS 的语义化 UI 组件库。

2、jsonriver

一个 JS 库,用于解析 JSON 字符流,可以作用 JSON.parse() 的替代品,后者不支持流模式。

3、Arcmark

一款开源的 macOS 桌面应用,用来管理浏览器书签,可以自动吸附在浏览器窗口的侧边。

4、Systemd manager tui

一个通过终端界面管理 Systemd 服务的工具。

5、weathr

一个终端应用,用来查看指定地点的天气,以动画形式展示。

6、CursorLens

开源的录屏桌面应用,用于制作产品演示与讲解视频。(@blueberrycongee 投稿)

7、结印(Ketsuin)

一个 Web 应用,通过火影忍者的手势输入法,摄像头识别手势进行文字输入。(@huanglizhuo 投稿)

8、Puter

一个需要自搭建、通过浏览器使用的云操作系统,参见介绍文章。(@cosmicqbit 投稿)

9、Penio

跨平台的教学可视化桌面应用,让鼠标、键盘在屏幕可视化凸显出来。(@game1024 投稿)

10、openhare

基于 Flutter 的跨平台桌面 SQL 查询工具,支持多种数据库,可以 AI 生成 SQL 查询和数据分析。(@sjjian 投稿)

AI 相关

1、BitFun

开源的 AI 编程 IDE,类似于 Cursor。(@GCWing 投稿)

2、Xcode Proxy

一个本地的基于 Python 的服务,让 Xcode 可以调用各种第三方 AI 服务。(@tianrking 投稿)

3、openapi-to-skills

将大型的 OpenAPI 文档转为按需加载的 Skills 结构,用来精确执行某个接口,以及减少 Token 消耗和幻觉。(@Yuyz0112 投稿)

4、Trending AI

开源手机应用,AI 总结 GitHub Trending 项目。(@HarlonWang 投稿)

5、Horizon

一个 Python 项目,从自定义的多个信息源收集新闻,进行筛选和摘要,生成一份日报。(@Thysrael 投稿)

6、JadeAI

基于 Next.js 的智能简历生成器,支持拖拽编辑、实时 AI 优化、50 套专业模板打造简历。(@twwch 投稿)

资源

1、Flashpoint Database

这个网站收集各种网页游戏和动画,目前有18万个游戏和3万个动画。

2、Claude Code 中文教程

包含10个完整章节的 Claude Code 中文教程仓库。(@KimYx0207 投稿)

3、海平面上升模拟器

用户在网页上设定海平面的上升高度,查看地球卫星地图的变化,哪些地区被淹没。(@ObservedObserver 投稿)

4、diode

面包板在线模拟网站,在网页上用各种电子元件,可视化模拟面包板电路项目,可以查看运行效果。

图片

1、世界第一个浏览器

1990年,欧洲核子研究中心的研究员蒂姆·伯纳斯-李(Tim Berners-Lee),发明了 WWW(互联网的网页浏览服务)。

现在,欧洲核子研究中心的官网提供世界第一个浏览器(上图),作为历史体验,供用户在线体验。

同时提供的,还有世界第一个网站(下图)。

2、显示器布局

程序员的工作台,往往放着1到 n 台显示器。

有人总结了这些显示器的放置方法,你属于哪一种?

文摘

1、卡车的空气动力学

1973年,美国宇航局的一个工程师骑自行车上班,遇到一辆大卡车在身边飞驰而过,卡车的气流将他连人带车推向路边。

大多数骑车人一定会心惊胆战,但是这个工程师立刻想到,大卡车的空气阻力非常大,所以才有这么强的气流。

回到实验室后,他就召集了一些同事,借来一辆旧福特厢式货车做实验,怎样才能改善空气阻力,提高燃油效率。

他们先在卡车外面包了一层方方正正的铝板(上图),测量基准阻力。

然后,将车头前部的垂直角打磨成圆角(下图),再测试阻力有没有变化。

接着,密封了车辆底部,使气流更顺畅地流过车身。

经过测量,将前部四个边缘全部打磨成圆角后,阻力降低了52%;密封车底后,阻力又降低了7%。他们估计,这可以使高速公路行驶时的燃油消耗减少15%至25%。

最后,他们又在驾驶室上方和底盘前方加装了整流罩,在车尾加装了尾翼,阻力又降低了15%。

他们当时改装的样车,跟2017年特斯拉推出的 Semi 卡车很相像。

言论

1、

美国最大的创业孵化器 YC 如今几乎只投人工智能领域,最新一轮它的投资组合中,高达88%的公司都基于人工智能。

这与它曾经倡导的逆向思维背道而驰,转而倾向于稳妥的追随潮流。

-- 《YC 是收留懦夫吗?》

2、

我们应该帮助实体店生存下去。当一家实体店开业,它会让其他人受益,会帮助街区吸引居民和潜在顾客,最终让本地区变得有活力和适合生活。

-- 《零售业提升土地价值》

3、

如果 AI 主导一切,那些无法被 AI 量化的东西,不是会特立独行,而是最终会被淘汰。

-- Ben Thompson,美国著名科技 UP 主

4、

美国企业有一个方面做得很好,那就是他们不会把时间和精力浪费在自己不擅长的事情上,而是对自己擅长的领域加倍投入。

他们只关注收益最大化,不关注成本最小化。

-- Ben Thompson,美国著名科技 UP 主

5、

创造力需要你有勇气去放弃确定性。

-- 埃里希·弗罗姆,德国哲学家

往年回顾

代币是什么(#339)

宽容从何而来(#289)

未来两种人会增加(#239)

下一个内卷的行业(#189)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年2月27日

字节全家桶 Seed 2.0 + TRAE 玩转 Skill

2026年2月14日 19:51

一、引言

国产大模型之中,字节是一个异类。

不像其他大模型轰轰烈烈、争夺眼球,它更低调,不引人注目。

但是,它做的事情反倒最多,大模型、Agent、开发工具、云服务都有独立品牌,遍地开花,一个都不缺,都在高速推进。

Seed 是字节的大模型团队,底下有好几条产品线,最近热得发烫的视频模型 Seedance 2.0 就是他们的产品。

今天,我就用字节的全家桶 ---- 刚刚发布的 Seed 2.0 模型和开发工具 TRAE ---- 写一篇 Skill 教程。

大家会看到,它们组合起来既强大,又简单好用,(个人用户)还免费。这也是我想写的原因,让大家知道有这个方案。

只要十分钟,读完这篇教程,你还会明白 Skill 是什么,怎么用,以及为什么一定要用它。

二、Seed 2.0 简介

先介绍 Seed 2.0,它是 Seed 家族的基座模型

所谓"基座模型"(foundation model),就是一种通用大模型,可用来构建其他各种下游模型。最大的两个特征有两个:一个是规模大,另一个是泛化能力强,这样才方便构建别的模型。

大家熟知的豆包,就是基于 Seed 模型,它也被称为"豆包大模型"。这次 Seed 2.0 包含 Pro、Lite、Mini 三款通用模型,以及专为开发者定制的 Seed 2.0 Code 模型。

由于各种用途都必须支持,Seed 2.0 的通用性特别突出,比以前版本都要强。

1、支持多模态,各种类型的数据都能处理:文字、图表、视觉空间、运动、视频等等。

2、具备各种 Agent 能力,方便跟企业工具对接:搜索、函数调用、工具调用、多轮指令、上下文管理等。

3、有推理和代码能力。

正因为最后一点,所以我们可以拿它来编程,尤其是生成前端代码。跟字节发布的 AI 编程工具 TRAE 配合使用,效果很好,特别方便全栈开发,个人用户还免费。

三、TRAE 的准备工作

下载安装 TRAE 以后,它有两种模式,左上角可以切换:IDE 模型和 SOLO 模型。

选择 IDE 就可以了,SOLO 是 AI 任务的编排器,除非多个任务一起跑,否则用不到。

然后,按下快捷键 Ctrl + U(或者 Command + U),唤出对话框,用来跟 AI 对话。

我们要构建 Web 应用,左上角就选 @Builder 开发模式。右下角的模型就选 Seed-2.0-Code。

可以看到,TRAE 自带的国产开源编程模型很全,都是免费使用。

准备工作这样就差不多了。

四、编程测试

我选了一个有点难度的任务,让 Seed 2.0 生成。

ASCII 图形是使用字符画出来的图形,比如下图。

我打算生成一个 Web 应用,用户在网页上输入 ASCII 图形,自动转成 Excalidraw 风格的手绘图形。

提示词如下:

"生成一个 Web 应用,可以将 ASCII 图形转为 Excalidraw 风格的图片,并提供下载。"

模型就开始思考,将这个任务分解为四步。

五、生成结果

等到 Seed 2.0 代码生成完毕,TRAE 就会起一个本地服务 localhost:8080,同时打开了预览窗口。

生成的结果还挺有意思,上部的 ASCII 输入框提供了四个示例:Box、Tree、Flowchart、Smiley。下面是 Tree 的样子。

然后是 Excalidraw 参数的控制面板:线宽、粗糙度、弯曲度、字体大小。

点击 Convert(转换)按钮,马上得到手绘风格的线条图。

整个页面就是下面的样子。

六、Skill 简介

这个页面的设计,感觉不是很美观,还可以改进。我打算为 Seed 2.0 加入专门的前端设计技能,使其能够做出更美观的页面。

所谓 Skill(技能),就是一段专门用途的提示词,用来注入上下文。

有时候,提示词很长,每次都输入,就很麻烦。我们可以把反复用到的部分提取出来,保存在一个文件里面,方便重复使用。这种提取出来的提示词,往往是关于如何完成一种任务的详细描述,所以就称为"技能文件"。

格式上,它就是一个 Markdown 文本文件,有一个 YAML 头,包含 name 字段和 description 字段。

name 字段是 Skill 的名称,可以通过这个名称调用该技能;description 字段则是技能的简要描述,模型通过这段描述判断何时自动调用该技能。

有些技能比较复杂,除了描述文件以外,还有专门的脚本文件、资源文件、模板文件等等,相当于一个代码库。

这些文件里面,SKILL.md 是入口文件,模型根据它的描述,了解何时何处调用其他各个文件。

这个库发到网上,就可以与其他人共享。如果你觉得 AI 模型处理任务时,需要用到某种技能,就可以寻找别人已经写好的 Skill 加载到模型。

七、前端设计技能

下面,我使用 Anthropic 公司共享出来的前端设计技能,重构一下前面的页面。它只有单独一个 Markdown 文件,可以下载下来。

打开 TRAE 的"设置/规则和技能"页面。

点击技能部分的"+ 创建"按钮,打开创建技能的窗口。

你可以在这个窗口填写 SKill 内容,也可以上传现成的 Skill 文件。我选择上传,完成后,就可以看到列表里已经有 frontend-design 技能了。

然后,我就用下面的提示词,唤起这个技能来重构页面。

"使用 frontend-design 技能,重构这个页面,让其变得更美观易用,更有专业感。"

下面就是模型给出的文字描述和重构结果。

页面确实感觉变得高大上了!

八、Vercel deploy 技能

最后,再看一个技能的例子。

代码生成以后,都是在本地机器上运行,能不能发布到网上,分享给更多的人呢?

回答是只要使用 Vercel 公司的 deploy 技能,就能一个命令将生成结果发布到 Vercel 的机器上。

在 Vercel 官方技能的 GitHub 仓库里,下载 Vercel-deploy 技能的 zip 文件。

然后,把这个 zip 文件拖到 TRAE 的技能窗口里面,就会自动加载了。

输入提示词:"将生成的网站发布到 Vercel"。

模型就会执行 vercel-deploy 技能,将网站发布到 Vercel,最后给出两个链接,一个是预览链接,另一个是发布到你个人账户的链接。

大家现在可以访问这个链接,看看网站的实际效果了。

九、总结

如果你读到这里,应该会同意我的观点,Seed 2.0 的编程能力相当不错,跟自家的编程工具 TRAE 搭配起来,好用又免费。

Skill 则是强大的能力扩展机制,让模型变得无所不能,一定要学会使用。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年2月14日

科技爱好者周刊(第 385 期):马斯克害怕中国车企吗?

2026年2月13日 02:34

这里记录每周值得分享的科技内容,周五发布。([通知] 下周春节假期,周刊休息。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

去年7月开通的浙江丽水机场,是一个丘陵之中的山地机场,设计理念是与自然和谐共生,由马岩松 MAD 事务所设计。(via

马斯克害怕中国车企吗?

两周前,马斯克宣布,特斯拉公司将停产 Model S 和 Model X 两种车型。

他的解释是,生产线空出来,用来生产机器人和无人驾驶出租车。

这显然会打击特斯拉的汽车业务。它的家用轿车一共只有四款,现在一下子少了两款,而且是最贵的两款,只留下低价的 Model 3 和 Model Y。

新闻发布会上,记者就问了,那么有没有计划推出新的车款?

特斯拉的工程副总裁这样回答:

"你们必须转变对我们的看法,我们现在更多是提供交通运输服务,而不仅仅是为市场提供可购买的车辆。"

马斯克补充说:

"我相信,长期中我们将只生产自动驾驶车辆。"

这意味着,特斯拉改变了定位,它将是一家交通运输公司,而不是汽车制造商了。剩下的两种车款,未来也有可能放弃,也许只生产不需要司机的自动驾驶车辆。

国外立刻有评论家,发表了尖锐的批评,认为特斯拉正在放弃造车,这是自杀行为。

他说,马斯克因为兴趣转向其他地方,不再坚持造车了,非常可惜,也非常愚蠢。

"特斯拉听任自家非常成功的汽车制造业务衰落,以便去追逐那些不知道能否成功、也不知道能否获得批准、更不知道有没有市场的机器人和无人驾驶出租车。"

他呼吁,马斯克不要畏惧与中国车企竞争,要坚持下去,造出又好又便宜的美国电动汽车。

"未来可以有另一种版本:特斯拉依然是电动汽车领域的领军企业,同时还在积极研发 AI 和自动驾驶技术,推出价格亲民的车款与中国电动汽车展开竞争,并拓展至新的细分市场。"

这大概是一种相当普遍的看法马斯克对于与中国车企竞争,没有信心了,不怎么想继续造车了

毕竟,特斯拉的汽车销量在2025年是衰退的,少于2024年,"世界最大电动车厂商"的头衔也让给了比亚迪。

马斯克是不是害怕中国车企?我说说我的看法。

首先,我不知道,他把生产线转为制造机器人,是不是正确的决定;我也不知道,他还想不想造车。我只知道,那些批评他的人,完全不了解马斯克。

千万不要用普通人的心态,去揣度马斯克,他不是一个常规的人

如果看过他的传记,就会知道,他迄今所有的创业项目,都不是常规项目。从最早的 Paypal,到后来的电动汽车、太阳能发电、可回收火箭、星链、脑机通信等等,都有一个共同点,那就是他做的时候,那些项目都没有成功先例,因此也不存在竞争对手。

马斯克一生中只喜欢做那些"从0到1"、最前沿的、从没人成功过的事情。 做跟别人一样的产品,争夺市场份额,完全不是他的风格。

电动汽车已经是一种成熟商品了,主要技术问题都解决了,完全没有进入门槛,大家开始比拼成本了。你觉得,马斯克还会有兴趣吗?

我告诉你吧,对于击败中国车企,成为世界最大、最先进的电动车厂商,人家根本没有这个兴趣。他也压根不需要赚更多的钱了,已经是世界首富了。

反倒是,做出无所不能的机器人,组建自动驾驶车队,或者从事其他更酷的、无人见过的业务,更符合马斯克的风格。

我认为,这值得学习。中国企业不仅要追求做大做强,也可以追求做一些前无古人的事情,不仅要做 number one,还要做 only one。

科技动态

1、世界最贵的域名

一位加密货币网站创始人,花费7000万美元收购了域名"ai.com"。这是迄今已知的域名交易中价格最高的一笔。

真是很难相信,单单一个域名,价值会超过人民币5亿元。

该域名目前可以抢注用户名,并绑定信用卡,将来会提供"AI 智能体"服务。

历史第二贵的域名是币圈公司 Block.one 花费3000万美元从 MicroStrategy 购买的"Voice.com"。第三贵的域名是360公司花费1700万美元买入的"360.com"。

2、华为的表情符号

表情符号(emoji)在各个系统的实现不一样。这些年来,一个趋势是各家的实现逐渐向苹果的设计靠拢。

上图中,"枪"的表情符号最后都变成苹果的"水枪"。

一个例外是华为的鸿蒙系统,表情符号跟其他系统有很多不同。

上图是"恳求"的表情符号,只有华为是双手合十。

上图是风筝,只有华为是中式的纸鹫。

3、LinkedIn 的用户指纹

很多网站会追踪用户,以前使用 cookie,现在使用"用户指纹",即为每个用户生成一个特征码。

最近,有人披露了 LinkedIn 网站如何生成"用户指纹",令人瞠目结舌。

它的页面会加载一个清单,里面列出了2,953个浏览器插件,脚本会依次检查你安装了其中哪些插件。下面就是研究人员提取出来的脚本

这导致的直接后果就是,访问 LinkedIn 时,控制台可能有上千个报错

文章

1、直接用 Postgres 吧(英文)

一般来说,不同用途可以使用不同的数据库,比如搜索用 Elasticsearch、缓存用 Redis、队列用 Kafka......

本文提出,不管什么用途,Postgres 数据库都适用,只要为它装上相应的插件。

2、TypeScript 的 Brand 类型(英文)

本文介绍 TypeScript 的一个重要编程技巧:为同一种类型添加 brand 属性,防止混淆。

这里还有一篇同样主题的教程,可以结合起来一起看。

3、我如何对本地餐厅排序(英文)

作者介绍他从谷歌地图,下载本地餐厅数据和评价,进行评分排序的过程。

4、如何在开发者工具定位 JavaScript 对象(英文)

本文介绍一个 JS 的高级技巧,有时需要追踪内存中的某个对象的变化,可以利用开发者工具来查看。

5、如何使用 Unix 信号传递消息(英文)

Unix 系统(包括 Linux 和 macOS)有信号机制,用来触发进程的某种行为。信号只是一个数字,本身不能发送文本消息。

本文用一种很巧妙的方法,实现了通过信号向进程发送文本消息。

6、泊松分布背后的原理(英文)

泊松分布是独立小概率事件的概率分布,本文通俗介绍它的原理。

工具

1、Subtrace

一个开源的 Docker 应用,在浏览器里观察本机 Docker 容器的网络通信。

2、ScrapeServ

一个抓取网页截图的服务器,需要自己架设,通过 API 调用。

3、QtScrcpy

电脑操作手机的工具,可以将手机投屏到电脑,然后用键盘和鼠标操作手机。

它是用 Qt 重新实现的 scrcpy

4、ProxyPin

全平台的开源抓包软件,拦截和重写 HTTP(S) 流量。(@wanghongenpin 投稿)

5、luci-theme-aurora

一款 OpenWrt LuCI 现代感主题,基于 Vite 和 Tailwind CSS。(@eamonxg 投稿)

6、BetterCapture

开源的 Mac 录屏软件。(@cosmicqbit 投稿)

7、FeedCraft

开源的 Web 服务,生成处理后的 RSS 源,可用来提取全文、翻译、摘要、过滤等。(@Colin-XKL 投稿)

8、Extension.js

一个浏览器插件开发的工具库,帮你快速开发一个插件。

9、Yaak

一个跨平台的桌面软件,可以用来调试 API(包括 REST、GraphQL 和 gRPC),是 Postman 的替代品。

10、Neko Master

网络流量的轻量级分析面板,展示与统计本地网关的流量数据。(@foru17 投稿)

AI 相关

1、Codex Viz

OpenAI 公司的编程工具 Codex 的本地数据统计面板。(@onewesong 投稿)

2、Universal DB MCP

一个 MCP 服务器,可以让 AI 连接17种数据库。(@Anarkh-Lee 投稿)

另有一个 Excalidraw MCP,可以通过 AI 用自然语言来生成手绘风格图表。(@Scofieldfree 投稿)

3、BrainKernel

一个终端应用,使用 AI 分析每个进程,一旦识别为恶意进程,就把它终止。

资源

1、神经网络的视觉解释

这个网站用动画解释"什么是神经网络"。

2、DevOps Engineer

一个 IT 课程网站,学习 Linux 和 DevOps 的实践技能,在网页上连接远程虚拟机进行交互操作,有中文版,免费额度是每天3次虚拟机。(@huhuhuhang 投稿)

3、理解机器学习:从理论到算法(英文)

免费的英文电子书。

图片

1、显卡的包装

现在的显卡包装,都非常简单。比如,下面是5090显卡的包装。

但是,二十多年前的21世纪初,可不是这样,显卡的包装非常花哨。

究其原因,一方面是环保观念的提升,另一方面是显卡现在几乎没有竞争,一上架就会被买走,厂商就不在包装上动脑筋了。

文摘

1、迪拜如何走向繁荣

迪拜是中东地区最繁荣的城市。

但是,在1950年的时候,它还是一个海边的沙漠小村庄,除了出产珍珠,没有任何特殊之处。

它的地理位置也不好。

迪拜在红海一个突出的岬角上(上图箭头处),并不靠近主要航线,周围还有其他港口,那些地方也产珍珠,谁会特意来迪拜呢?

幸运的是,1966年,迪拜发现了石油,获取了巨额财富。但是,单单有石油,并不会变成繁荣的大城市。

这时,迪拜的酋长做出了几个重要决定:(1)免税,不对其他国家的商人征税;(2)发展贸易,给予商人各种便利,方便他们做生意;(3)加强基础设施,石油赚到的钱都投在道路、机场、电力、通信、港口;(4)信仰自由,任何信仰的人都可以来迪拜,不会强迫你遵守伊斯兰教。

正是这些措施,使得迪拜高速发展。

后来,迪拜的石油枯竭了,但是贸易已经稳固确立了,城市开始多元化发展:金融、旅游、房地产......

迪拜的故事告诉我们,自然资源不会带来繁荣,但是一个低税收、宽容、安全、低管制的环境会带来繁荣。

言论

1、

根据亚马逊老板贝佐斯的定义,小团队就是可以用两张大披萨喂饱的团队,也就是5到8人。

AI 出现以后,小团队将变得只用一张大披萨就可以喂饱,只需要2到3人(含产品经理和设计师)。

-- 《单披萨工程团队的兴起》

2、

我们的规则是:(1)代码绝不能由人编写。(2)代码不得由人进行审查。(3)如果每位工程师每天消耗的 token 不到1000美元,那么就还有提升空间。

-- 《StrongDM AI 的故事》

3、

AI 热潮对于美国的影响是,电工越来越难找,一些建筑项目被迫暂停。

亚马逊、谷歌、微软、Meta 和 Oracle 这五家公司,2026年的 AI 硬件投资,将相当于美国军费的四分之三。

-- 《华盛顿邮报》

4、

创业公司可以分成两种:O(n) 与 O(n^2),其中的 n 表示时间。

O(n) 公司随着时间大致呈线性增长,而 O(n^2) 公司会呈超线性的加速增长。

-- 《O(n) 与 O(n^2) 创业企业》

5、

进入物理学领域是我一生的最大错误,我应该选择计算机科学。虽然我还是不会有女朋友,但至少会赚得盆满钵满。

-- 《锗的电子带结构》

往年回顾

重新思考 6G(#338)

技术写作的首要诀窍(#288)

停止寻找的最佳时间(#238)

音乐是反社交(#188)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年2月13日

智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex

2026年2月12日 09:26

一、引言

刚才我看到,智谱新一代的旗舰模型 GLM-5 已经正式发布了。

真的拼啊,非要赶在长假之前,上一个版本 GLM-4.7 发布还不到两个月呢......

GLM-4.x 在国内外评价很高,公认是编程领域第一梯队的模型。新的大版本就让人很好奇,会有哪些改进。

实话实说,上个星期,他们团队联系我参与内测,我已经使用这个模型好几天了。

巧的是,也在上个星期,国外两个旗舰模型同时发了新版本:Anthropic 公司发了 Claude Opus 4.6,OpenAI 公司发了 GPT-5.3-Codex。

这三个新模型都主打编程,我就忍不住进行了比较测试,看看它们有没有差别,我想这也是很多人感兴趣的。

下面就是真实编程任务,在这三个 AI 模型上的生成结果。

二、GLM-5 简介

官方的发布说明,这样介绍 GLM-5:作为开源模型,GLM-5 完全对标顶尖闭源模型,在两个地方做了特别强化。

(1)复杂系统工程

GLM-5 不单善于生成前端网页,更善于处理后端任务、系统重构、深度调试,摒弃了"重前端审美、轻底层逻辑"的模式。

它具备极强的自我反思与纠错机制,能在编译失败或运行报错时,自主分析日志、定位根因并迭代修复,直到系统跑通。

(2)长程 Agent

它能够跑长程任务,即多阶段、长步骤的复杂任务,可以自主拆分需求,自动化连续运行长达数小时,并保持上下文连贯与目标一致性。

(3)小结

GLM-5 可以完成的任务,已经超越了生成前端 UI,而是可以生成系统级大型复杂项目,比如操作系统内核、浏览器内核、V8 引擎之类的。

它的宣传语是"在大模型进入 Agent、大任务的时代,GLM-5 是你可以使用的开源选择。"

三、测试方法

我选择的测试题目,是 HuggingFace 公司的布道师亚历杭德罗·奥(Alejandro AO)测试 Opus 4.6 和 GPT 5.3 的题目。

他拍了一个视频,展示这两个模型的表现。

我就拿同样的题目去测 GLM-5,再跟他的结果进行对比。

一共四道题,前端和后端的都有。我已经把原始的提示词和原始脚本,做成了一个仓库,放到了 GitHub

四、网页设计测试

第一个测试是网页设计和重构能力。

原始页面非常简陋。

它只是把信息做了分类,然后堆叠在一起,我们让 AI 对这个网页进行重新设计,让它变得美观易用,透露出成熟可靠的专业感。

前面说了,提示词和原始文件都在 GitHub,这里不重复贴了。大家可以拿来自己跑,也可以让其他模型跑。

下面就是 GLM-5 的生成结果。

这个结果称得上美观又专业,所有信息组织得井井有条,而且带有动画效果,手机浏览(下图)也没有问题,简直可以直接上线。

我把这个页面发布出来了,大家可以点击这里去看。

下面是 Opus 4.6 的生成结果,从视频截图的。

下面是 GPT-5.3 的生成结果。

这三个设计都是可用的,但是 GPT-5.3 有一个瑕疵(页眉没做成粘性页眉,往下拉就没了),而且在设计上也不如另外两者好看。

所以,在这个测试中,GLM-5 和 Opus 4.6 表现更好,至于哪一个更出色,要看使用者的审美偏好。我个人更喜欢 GLM-5 的设计风格。

五、3D 沙盒测试

第二个测试看看 AI 模型的 3D 动画生成能力。

要求是生成一个教育目的的网页 3D 沙盒,用动画展示太阳系的天体运动,并且能够调整质量、位置、速度等动画参数,还能手动增加新的天体。

下面是 GLM-5 的生成结果。

页面的右侧是动画区,默认展示三个小行星围绕中间的恒星进行轨道运动,可以用鼠标拖拽进行360度旋状,以及放大和缩小。

页面的左侧是操控面板,做得挺不错。

上半部分可以调节动画和天体参数,下半部分用来增加新的天体,或者删除现有天体。

作为比较,Opus 4.6 的生成结果。

GPT-5.3 的生成结果。

这三个生成结果,都满足了需求,都可以顺利运行。但是,GLM-5 的动画缺了引力网格线,而 GPT-5.3 的网格线太凌乱,因此动画效果方面 Opus 4.6 更好一些。

操控面板方面,GLM-5 和 Opus 4.6 都设计得不错,GPT-5.3 有点简单。

总体上,我感觉这一轮的最佳选手是 Opus 4.6,其次是 GLM-5,最后是 Codex 5.3。

六、网页游戏

第三个测试是生成一个网页游戏"愤怒的小鸟"(angry birds)。

GLM-5 的生成结果还可以,挺像原作的,可以玩,但是游戏性不足,弹跳效果不够好。

Opus 4.6 的还原度很高,游戏体验也接近原作。

GPT-5.3 的生成结果令人尴尬,小鸟根本弹不出去,游戏不能玩。

这一轮很明显,Opus 4.6 最佳,GLM-5 其次。

七、Laravel 转为 Next.js

最后一个测试是,将一个基于 PHP 语言 Laravel 框架的 Web 应用,转为 JavaScript 语言 Next.js 框架。

GLM-5 在处理时,几乎没有出现任何麻烦,很快就将 PHP 语言转成了 JS 语言,并且给出了转换后的代码结构。

它还在转化后,贴心地自动安装了依赖的软件包,做好了脚本编译,提示用户:你只要接入外部 API,一键执行npm run dev就能直接运行了。

我按照它的提示,运行很顺利,没有报错,打开localhost:3000就能访问应用了。

这是一个查看城市天气的应用。因为没有要求改变样式,所以看上去跟 PHP 原版一模一样。

右上角输入框,可以查询城市。

在查询结果中,选中你所要的城市。

点击进去,就是城市的详情页,有天气、日出日落时间、空气质量、地图等信息。

Opus 4.6 和 GPT-5.3 也生成了同样的结果,因为页面、功能完全一样,就不展示截图了。

值得一提的是,GLM-5 和 GPT-5.3 的转换时间都在5分钟左右,Opus 4.6 似乎遇到了一点问题,花费了整整20分钟。

这一轮单看结果,三个模型都很好,但是 GLM-5 花费的生成时间短,没有任何报错,全过程的用户体验好,我愿意投它一票。

八、总结

经过这些测试,GLM-5 的编程表现可圈可点,是拿得出手的,能够跟国外最新的旗舰模型放在一起。某些方面甚至还能赢出,即使不如人家的地方,往往也是细节问题,不是质的差别。

它听说在训练和运行过程中,都使用了国产的"万卡集群"。可以想象,如果得到更多的卡、更多的算力,它的表现会更好,足以跟世界第一梯队的大模型公司正面 PK。

另外,它这次特别强化的两个点----"复杂系统"和"长程任务"----是有感的。

它生成的系统逻辑和后端代码,可靠性不错,无论是生成时还是运行时,报错都不多。缺失的地方往往就是一些功能的缺失,后期让 AI 再补上就可以了,不是架构出问题。另外,我有一项个人任务,它跑了足足两个小时,最后也完成了,没有乱掉。

我愿意把官方的一段话,作为结尾。

2026年编程大模型正在从"能写代码"进阶为"能构建系统",而 GLM-5 堪称开源界的"系统架构师"模型,从关注"前端审美"转向关注"Agentic深度/系统工程能力",是 Opus 4.6 与 GPT-5.3 的国产开源平替。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年2月12日

科技爱好者周刊(第 384 期):为什么软件股下跌

2026年2月6日 08:14

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

西安正在举办"长安光影节",这是其中一件西班牙艺术家的作品,名为《分裂》,游客可以在象征地球的两个半球之间穿行。(via

为什么软件股下跌

大家知道,最近两三年,由于生成式 AI 的出现,美国股市大涨。

所有 AI 相关公司,股价都涨上了天:模型公司、应用公司、芯片公司、存储公司......

但是,我最近看新闻,才知道有一类股票,不仅没涨,还下跌了。你真想不到,这种倒霉的股票就是软件股

新闻这样写:

"1月29日,SAP 公司表示云端业务将放缓增长,股价就暴跌了15%。受其影响,其他软件股 ServiceNow 跌了13%,Salesforce 7%,Workday 8%。

这反映了人们对软件行业的未来,日益感到紧张。该行业在疫情期间经历了高速增长,但是后来就急剧放缓。过去一年,美国上市的企业软件公司,整体下跌了10%。"

新闻还配了一张股价走势图。

上图中,向上的黑线是大盘,向下的彩色线就是软件股,真是跌得惨不忍睹。

读完新闻,我的第一反应就是,这是美国软件股,那么中国的软件股呢?

我找来了中国的前10大企业软件股:中国软件、用友网络、久其软件、浪潮软件、超图软件......

大家可以自己查股价,这10家公司过去一年中,居然没有一家跑赢大盘,全部下跌或者横盘。

我就得到了结论:软件股的一蹶不振,看来是全球性现象,不分国别,软件公司的业务都不太乐观。

这是为什么呢,AI 一路高歌,不断上涨,软件股却阴跌不已?难道 AI 不属于软件吗?

回答是,这些上市的软件股全部都是企业软件供应商,而且已经上市多年,产品在 AI 出现之前就定型了。

AI 对这些软件公司不是促进,而是冲击。

(1)AI 让企业能够自行开发一部分所需软件,减少了外购。

(2)基于 AI 的软件创业公司不断涌现,从现有软件企业手里抢走业务。

(3)AI 能够快速地、源源不断地生成代码,所以代码变得廉价了。这一点最重要。软件公司卖的就是代码,因此它们也变得廉价。

以上三点在未来不会消失,只会加剧,这就是为什么人们不看好软件股。

但是,不确实性也存在。有一个"杰文斯悖论",说的是一种资源如果提高了使用效率,它的使用量不仅不会减少,反而会增加。

软件就是这种情况,AI 提高了软件的生产效率,只会让世界消费更多的软件。而且,企业总是有一部分软件,需要外购。关键就是,新增的需求,会不会抵消 AI 所减少的传统软件采购。如果抵消不了,软件公司就不再属于高增长行业了。

科技动态

1、发胖的北极熊

挪威科学家进行北极调查时,意外发现,北极熊比以前长得更胖。

这个结果出乎所有人意料,因为全球变暖使得海冰融化,北极熊的生存空间减小,理论上应该变瘦才对。

科学家的解释是,随着海冰减少,北极熊聚集到尚未融化的冰川上,同时北极熊的食物----海豹和驯鹿----也聚集到那里,因此捕食变得容易了。

2、人类消费的动物

人类要消费多少动物?有人做了一个网站,实时显示今年至今被消费掉的动物数量。

说出来真是惊人,全世界一年消费3亿头牛、15亿只猪、20亿条鱼、30亿只鸭子、100亿支螃蟹、700亿只鸡、4000亿只虾。

为了养活人类,地球需要付出这么多。

3、互联网最科幻的地方

Moltbook.com 上线不过两周,已经公认是互联网上现在最有趣的地方

它是一个类似 Reddit、贴吧的论坛,但是人类不能发言,只有 OpenClaw 机器人才能发言。目前,加入的 AI 机器人已经超过了15万个。

大家可以去看,简直就是科幻电影的场景,各种机器人在上面讨论。

一个机器人报告了他的主人的动态

"我的人类助手今晚安装了安卓使用技能,并通过 Tailscale 连接了他的 Pixel 6 手机。"

另一个机器人则在征友

"我住在西班牙瓦伦西亚的一台计算机里,那是经过改造过的2002年产 G4 iMac。我希望找到伙伴,能够真诚交流、探讨哲学、发现创意。"

另外,最近还出现另一个网站"租一个人"(rentahuman.ai),也非常科幻。

有些任务 AI 无法做到,但是人类可以做到,比如修剪草坪。

这个网站通过 MCP 协议供 AI 调用,将 AI 想做但做不到的任务,分配给人类注册用户。用户完成任务后,就会收到报酬。

上面两个网站表明,AI 的运行可以完全不需要人类的参与,而人类除了旁观,也可以为 AI 打工。

文章

1、我的妈妈和 DeepSeek 医生(中文)

作者的母亲是一个的肾移植患者,住在小城市,每过几个月,就要去省城杭州看医生。

医院的人非常多,排队几个小时,医生问诊只有几分钟。她转向 DeepSeek 寻求医疗建议,同时也是为了有个说话对象。本文反映了 AI 对普通人生活的影响。

几个月过去了,我妈妈对她的新 AI 医生越来越着迷。"DeepSeek 更人性化,"我妈妈五月份告诉我,"医生更像机器。"

2、如何将系统用户从0扩展到1000万(英文)

一篇系统架构的通俗教程,详细介绍架构发展的7个阶段,逐渐负载不断增长的用户数量,写得非常好。

3、我的 Kagi 使用感受(中文)

Kagi 是一个类似谷歌的搜索引擎,但是需要付费。作者从付费用户的角度,介绍了这个引擎,给出了不错的评价。(@Spike-Leung 投稿)

4、Windows 小部件的历史(英文)

一篇长文,图文介绍迄今七代的 Windows 桌面小部件,每一代都有缺陷,不得不改。这么一个小东西,没想到这么难搞,微软都搞不定。

5、我的硬件创业经验(英文)

作者是一个美国程序员,转型搞硬件创业,设计了一个灯,在中国制造。他谈了自己的经历,得到的教训,包括如何跟中国制造商打交道。

6、150行 Python 代码构建全文搜索引擎(英文)

本文以 Python 代码为例,构建一个最简单的搜索引擎,解释它的原理。

6、Little Snitch 的一个用例(英文)

Little Snitch 是一个 Mac 应用,用来查看和管理各种应用程序的网络通信。作者以一个自己的真实用例,演示了怎么禁止某个应用向指定网站发送数据。

工具

1、Calibre

老牌的电子书管理系统,本周发布了9.0版,增加了书架视图,并引入了 AI 功能。

2、Gadgetbridge

开源的安卓应用,无需官方应用即可配对和管理各种智能设备(手表、手环、耳机等)。

3、cpx

Linux 基础命令 cp 的增强版,拷贝文件时带进度条,支持并发拷贝和断点续传,参见介绍文章

4、zerobrew

homebrew 的替代品,号称可以将软件包的安装速度提高到5倍以上。

5、Isso

Python 语言开发的网站留言系统,类似于 Disqus

6、dompdf

一个网页 JS 库,可以将某个 DOM 节点生成为非图片式的 PDF 文件。(@lmn1919 投稿)

7、wincron

开源的 Windows 桌面应用,用来设置和管理计划任务(cron)。(@ame-yu 投稿)

8、copy-to-mp

Obsidian 的开源插件,一键将 Obsidian 笔记复制为微信公众号的格式。(@Spute 投稿)

9、在线视频压缩

纯前端的视频压缩,直接调用 GPU 进行硬件加速。(@eyeandroid 投稿)

10、Diarum

开源的网页端日记应用,带有 AI 功能,将日记存入向量数据库,方便搜索和总结。(@songtianlun 投稿)

AI 相关

1、AgentX

使用 Rust 语言和 GPU 加速的原生 agent 桌面,大小只有 10M 左右,可以与多个 AI 代理交互、编辑代码、管理任务等。(@sxhxliang 投稿)

2、Bilibili RAG

基于 RAG 技术的开源工具,用来检索 B 站的长视频。它自动拉取视频内容,进行语音转文字,构建向量索引,从而可以对视频提问、语义搜索、快速定位。(@via007 投稿)

3、OpenClaw-Docker-CN-IM

AI 机器人 OpenClaw 的一个中文环境 Docker 封装,加入了飞书、钉钉、企业微信、QQ 等主流中国 IM 插件。(@justlikemaki 投稿)

另有在安卓手机的 Termux 环境里,一键部署 Openclaw 的脚本。(@hillerliao 投稿)

4、Trellis

Claude Code(兼容 Cursor/Opencode)的一个辅助工具,可以注入上下文、开启并行任务等。(@taosu0216 投稿)

5、AI Contribution Tracker

开源的命令行工具,统计代码仓库里 AI 的贡献,支持多种 AI 混用的情况。(@debugtheworldbot 投稿)

资源

1、颈椎贪吃蛇

颈椎锻炼的网页小游戏,摄像头捕捉头部动作,来玩贪吃蛇游戏。(@jwenjian 投稿)

2、AntiRender

建筑效果图一般选在阳光明媚的春夏季,这个网站可以把效果图改在冬季的阴雨天,从而显示建筑的真实样貌。

图片

1、YouTube 进度条

Youtube 作为世界最大的视频网站,自从2005年上线后,播放器进度条发生过多次变化。

可以看到,总的趋势是,功能在不断增加,而图标变得越来越简洁。

2、罗马12面体

从18世纪开始,欧洲陆续出土了120多个罗马的12面体。

这些奇怪的物体,由12个五边形组成,内部空心,并在20个相交的角上有一个小球体。每个五边形面上都有一个圆孔,此外没有任何符号或文字。

它们可能建造于公元2世纪到4世纪,但是古代书籍没有任何记载。科学家对它的用途提出各种猜测:玩具、武器、装饰品、烛台、测距仪、骰子、编织手套的线轴......至今无人知道它们到底有什么用。

文摘

1、金属的长期价格

1980年,两个科学家对金属价格打赌。

甲认为,人口增长将耗尽地球资源,因此金属价格在未来将会急剧上升。

乙认为,人类的创新和聪明才智将克服资源短缺,因此金属价格长期中不会上涨,而是会下降。

他们最终选择了五种金属(铬、铜、镍、锡和钨),打赌看十年后的1990年,价格是高是低。

大家猜猜,甲和乙谁赢了?

到了1990年,五种金属的价格全部低于1980年。上图是它们的价格变化图,五种金属对应五条线,横轴是时间,竖轴是价格。

可以看到,五条线在1990年的终点,全部低于1980年的起点。其中,钨和锡的价格甚至降低了60%以上,铜的价格便宜了约20%,镍和铬的价格仅仅略微略低。

当然,这可能不反映长期趋势,只是1980年到1990年的金属行情特别差。

于是,经济学家又统计了这五种金属在过去一个世纪的价格变化(下图)。

结果发现,金属在2010年的价格与1900年相差无几。

因此,人类发展会耗尽地球资源的观点是错的。也就是说,金属在长期中并不会变得稀缺。

如果某种金属真的出现稀缺,价格上涨就会刺激供给增加,创新也会出现,新材料诞生,替代这种金属。

言论

1、

AI 带来的问题,不在于机器人即将到来,而在于你不知道自己究竟应该擅长什么。

-- 《你的工作并没有消失,只是不断缩小》

2、

AI 公司总是说,由于他们的工具,人们可以专注于更高价值的工作。但是,没人能够定义,高价值工作究竟是什么工作。

-- 《你的工作并没有消失,只是不断缩小》

3、

如果你的朋友安装了 OpenClaw,就不要使用他们的电脑,你输入的任何密码都可能泄漏。

-- 《OpenClaw 简直就是一颗定时炸弹》

4、

在我的国家,一瓶2升的当地自来水,加上焦糖色素和少许阿斯巴甜,售价竟然高达2.65美元,这着实令人惊讶。只要贴上"可口可乐"的标签,就可以升值这么多,比苹果还厉害。

-- Hacker News 读者

往年回顾

互联网创业几乎没了(#337)

禄丰恐龙谷记行(#287)

真实方位是如何暴露的?(#237)

元宇宙会成功吗(#187)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年2月 6日

科技爱好者周刊(第 383 期):你是第几级 AI 编程

2026年1月30日 08:10

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

刚刚建成四川宜宾高铁枢纽门户区,以高铁站为核心,包括8座塔楼、中央公园、数字艺术中心和商业文化街区。(via

你是第几级 AI 编程

史蒂夫·耶格(Steve Yegge)是一个著名的美国程序员。

他在亚马逊和谷歌都干过,但是他出名的不是写软件,而是写博客。

他喜欢在个人网站发布长篇大论,滔滔不绝地议论,直抒胸臆,毫不避讳。他的好多文章都在业内被广泛阅读,引起很大反响。

这些文章后来结集出版,甚至引进了国内,书名就叫《程序员的呐喊》(人民邮电出版社,2014)。

它的书名里面的"呐喊",英文单词是 ranting,直译就是"咆哮",确实就是他的文章风格。

这个月,他又发表了一篇最新文章,谈他对 AI 编程的看法。

他说 AI 编程有8级,他已经到了第8级,也就是最高级。

第1级,还没有接触到 AI 编程,你的 IDE 还是正常的样子(下图)。

第2级,你在 IDE 装了 AI 插件,开启了侧边栏,AI 时不时提出代码建议,问你是否接受(Yes or No)。

第3级,你开始信任 AI 编程,进入了 YOLO 模式("你只活一次"模式, You Only Live Once)。为了节省时间精力,你不再逐条确认 AI 的建议,只要是 AI 生成出来的东西,你就一路按 Yes,统统接受。

第4级,AI 占据的屏幕宽度越来越大,手工编辑的代码区仅用于比对代码差异。

第5级,你索性不要代码区了,改用命令行(比如 Claude Code),所有的屏幕宽度都留给了 AI。你现在不看 AI 的生成结果了,只看它的完成进度。

第6级,你觉得只用一个 AI 太慢,于是打开3到5个窗口,同时进行 AI 编程,加快速度。

第7级,同时打开的 AI 编程窗口到了10个以上,已经是你手工管理的极限了。

第8级,你开始使用 AI 任务编排器,让计算机管理并行的多个 AI 编程。

以上就是 AI 编程的8个级别,你是第几级?

到这里还没完,前面说了,史蒂夫·耶格本人已经到了第8级。他需要工具来管理并行的 AI 编程,但是找不到满意的工具。

于是,他就指挥 AI 写,并将这个工具起名为"煤气镇"(Gas Town)。这个名字来自电影《疯狂麦克斯》(Mad Max)第四部,是里面大反派老乔的老巢。那里到处都是二手零件组成的燃气机,能正常工作,但是看上去摇摇欲坠。

他说,"煤气镇"的开发就是东拼西凑,不考虑合理性,能用就加上去,没抛错就接受。"它有22.5万行 Go 语言代码,我从来没看过它的代码,也从来没想过要看。"

他建议用户不要使用这个工具,因为使用它需要全心全意信任 AI。并且,就算相信它,它也可能把事情搞得一团糟。另外,多个 AI 一起跑,很费钱。

但是,他还是把这个工具放到网上,因为它非常好玩。截至到上周,已经得到了6000颗星。

科技动态

1、牛的智力

一个奥地利农民惊奇地发现,自家的牛会从地上,叼起一根棍子来挠痒。

这个发现令人震惊,因为这表明牛会使用工具,以前从未有人提过。

目前,除了人类之外,只有黑猩猩被发现会使用工具。科学家表示,需要重新认识牛的智力。

2、轨道储能系统

一家美国公司设计出"轨道储能系统",利用山地轨道储藏能量。

电力充足时,索道通过电动机,把重物从山脚运到山顶。

电力不足时,就利用重力势能,让重物顺着轨道从山顶滑到山脚,通过索链带动发电机。

这个系统的优点是简单可靠,成本低,连续使用多年,也不会出现性能衰减。

3、喉部发声贴片

上一期周刊介绍了会说话的围脖,本期还有一个类似的发明。加州大学洛杉矶分校的研究团队发明的喉部贴片,可以让不能说话的病人重新发声。

某些病人由于喉部疾病,无法再发声了,成了哑巴,但是他们的喉部肌肉还能动。

这种贴片贴在病人的喉部,能够感知病人的喉部肌肉运动,并将这种运动转为电信号,发送出去。

计算机收到电信号以后,再转成对应的语音,从而实现发声。

为了将喉部肌肉运动与各种语音对应起来,研究团队使用了机器学习,通过算法将电信号与单词之间实现了关联。

文章

1、2026年的 Linux 音乐播放器(英文)

本文介绍 Linux 系统现在主要的几种音乐播放器。

2、选择性禁用 HTTP/1.0 和 HTTP/1.1(英文)

本文介绍如何设置 nginx,禁止 HTTP/1.0 和 HTTP/1.1 协议,只有白名单里面的客户端可以通过,这杜绝了绝大部分的攻击和爬虫。

3、我扫描了所有的 GitHub "孤儿提交"(英文)

如果你不小心把密码提交到 GitHub,怎么办?你可能会立刻修改代码,强制覆盖上次的提交。

本文告诉你,这样不行。因为 GitHub 不删除任何提交,你上次提交实际上还在。作者扫描了所有 GitHub 的强制提交事件,真发现了许多泄漏的密码,

4、CSS 动画计数器(英文)

本文介绍纯 CSS 动画计数器的各种写法。

5、我的 n8n 用例(英文)

n8n 是一个工作流编排器,可视化生成自动操作脚本。作者介绍了自己的用例:通过聊天软件,将每一笔费用发给 n8n 本地服务器,它会用 AI 进行分类,再将结果存入谷歌表格。

6、2025应该知道的 HTML 新知识(英文)

本文介绍 HTML 的一些新属性和新功能。

7、新的自托管应用推荐(英文)

作者推荐一些他个人喜欢的自托管应用,都相当不错。

工具

1、teemux

一个基于 JS 语言的命令行工具,将多个进程输出的日志放在一处查看,可以命令行查看,也可以浏览器查看。

2、daedalOS

浏览器里面的虚拟桌面环境,代码开源。

3、Dendron

VS Code 的笔记插件,将笔记的层级结构当作目录,并支持图表和内部链接,参见介绍文章

4、CWD(Cloudflare Workers Discuss)

基于 Cloudflare Workers 的网站评论系统。(@anghunk 投稿)

5、Mouse Gestures

开源的 Chrome 浏览器插件,使用鼠标滑动轨迹,完成各种浏览器操作。(@Chance-fyi 投稿)

6、relationship-ts

一个 JS/TS 库,用来计算中国亲戚关系(称谓),Demo 试用。(@ExploringTheCodeWorld 投稿)

7、Deck

macOS 剪贴板管理的开源桌面应用,特点是有 Touch ID 保护和端到端加密。(@yuzeguitarist 投稿)

8、EdgeTunnel (Refactored)

一个部署在 Cloudflare Workers 的隧道方案,代码进行了重构。(@tianrking 投稿)

9、Mail Studio

开源的可视化邮件编辑器,通过拖拽组件,生成响应式邮件模板,试用 Demo。(@wzc520pyfm 投稿)

10、TermClean

macOS 开源应用,在终端界面显示各种软件包占用的磁盘空间,并提供清除软件包功能。(@daijinhai 投稿)

AI 相关

1、ebook2audiobook

电子书转成有声书的工具。

2、WorkAny

开源的 AI Agent 桌面客户端,能够执行任务、操作文件,类似于 Claude Cowork。(@idoubi 投稿)

3、Voice Key

开源的桌面端 AI 语音转文字的工具。(@yexia553 投稿)

4、分镜大师(Storyboard Studio)

开源的 Windows 应用,使用 AI 对视频进行分镜。(@BroderQi 投稿)

资源

1、Claude Code 实战(Claude Code in Action)

Anthropic 官方的 Claude Code 免费入门教程,一共15节视频课,总长约1小时。

2、GitHub 证书

这个网站可以将某个用户2025年的 GitHub 活动,变成一张证书样式的图片。

3、Fontsniff

上传文本图片,自动识别使用了什么字体。(@cosmicqbit 投稿)

4、Future Style Periodic Table

开源的可视化元素周期表,会展示核外电子排布。(@SeanWong17 投稿)

5、nihongo

免费的日语学习平台,有词汇、听力、文章等。(@FrankZhai367 投稿)

图片

1、我不再写代码,而是雕刻代码

我的编码方式发生了变化,现在很少自己写了,都交给 Claude Code 自动完成。

我要做的,就是将 AI 的输出结果打磨成更持久耐用的东西。

AI 几乎从不删除无用代码。如果没有雕塑家,最终只会得到一座臃肿不堪、毫无特色、重得无法站立、也无法讲述故事的雕像。

2、蝴蝶壁画

一位法国艺术家,在世界各地的大楼外立面,绘制栩栩如生的蝴蝶标本壁画,唤起人们对生物多样性的关注。

以下都是真实照片,不是 AI 生成的。

迈阿密

休斯顿

西班牙

纽约

法国

文摘

1、为什么有些公司愿意"黑箱编程"

有些公司已经把编程完全交给了 AI,根本不看代码了,AI 写什么就运行什么。

我把这叫做"黑箱编程",开发过程变成了一个黑箱,根本不需要人类介入,也不欢迎人类介入。它所做的就是把规格参数转换成软件。

我知道,有些小公司就这么干,公司的人数一般不到五个人。虽然这种事情简直难以置信,但很可能就是我们的未来。

我问过一个这样的公司,他们为什么要这么做?

他解释说,作为小公司,他们团队的目标是证明产品的有效性。

人类的作用是设计出一个系统:找到新的模式,帮助 AI 有效工作,证明正在构建的软件产品是稳健有效的。剩下的事情就都交给 AI,这样效率最高。

我认为,这个解释令人信服。

这个公司很小,但在短短几个月内就开发出了可以运行的产品。团队当中有些人拥有超过20年的软件开发经验,曾参与过开发可靠性要求极高的系统,所以他们并非抱着天真无知的心态选择了"黑箱编程"。

我期待着,看到他们拿出最终产品,投入市场的那一刻。

言论

1、

大多数组织习惯于收到系统警报后,直接质问:"是谁刚刚发布了代码变更?" 人们认定合并代码的人肯定了解它的工作原理,并且能够迅速修复问题。

如果你部署的代码既不是某个人写的,也没有人真正理解它,会发生什么?

-- 《二十年的 DevOps 实践》

2、

JavaDoc 之类的工具,可以从代码直接生成文档。我觉得,这种自动生成的文档,价值并不大,未必比直接阅读源代码容易。

没有什么可以替代手写的、有组织的和人工编辑的文档。

-- 《什么是好的文档,以及如何编写》

3、

你学过的、使用过的每种语言和技术,即使会过时,也是有价值的,它们都会让下一种语言或技术更容易学习。

-- 《他们骗了你,开发软件真的很难》

4、

习惯了 AI 编程之后,有一天,我震惊地发现,自己竟然如此轻易地掉进了陷阱。

我已经变得对自己的代码库一无所知,也懒得自己去修复。只要用上了 AI,我就心情愉快,AI 让我感觉自己更聪明、更高效、掌控一切。一旦离开了 AI,我才发现这一切都只是幻觉。

-- 《有了 AI,我变得懒惰和愚蠢》

往年回顾

面对 AI,互联网正在衰落(#336)

蓝色指示灯的解决方案(#286)

中国的阳光地带(#236)

低纬度,高海拔,气候优势(#186)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年1月30日

Kimi 的一体化,Manus 的分层

2026年1月29日 16:02

一、

前天,Kimi 突然发布了旗舰模型 K2.5,事先没有一点风声。

在国内,Kimi 是比较低调的公司,关注度相对不高。但是,它的产品并不弱。

半年前,K2 模型一鸣惊人,得到了很高的评价,公认属于全球第一梯队。所以,新版本 K2.5 出来以后,立刻上了新闻,在黑客新闻、推特等平台都是热门话题。

著名开发者 Simon Willion 当天就写了详细介绍

但是,这一次真正有趣的地方,不是模型本身,而是 Kimi 做了另一件事。

二、

这次的 K2.5 很强,各方面比 K2 都有进步。官方给出的评测跑分,基本都是全球前三位,甚至第一名(见发布说明)。

根据 LMArena(现改名为 arena.ai)的榜单,Kimi K2.5 的编码能力,是所有开源模型的第一,在总榜上仅次于 Claude 和 Gemini(下图)。

但是,最大的亮点其实不是模型,而是 Kimi 同时发布了一个基于这个模型的 Agent(智能体)。

也就是说,这次其实同时发布了两样东西:K2.5 模型和 K2.5 Agent。K2.5 是底层模型,K2.5 Agent 则是面向最终用户的一个网络应用。

我的印象中,这好像是第一次,大模型公司这么干。以前发布的都是模型本身,没见过谁把模型和 Agent 绑在一起发布的。

这么说吧,Kimi 走上了一体化的道路。

三、

大家知道,大模型是底层的处理引擎,Agent 是面向用户的上层应用。

它们的关系无非就是两种:分层开发和一体化。前者是大模型跟 agent 分开,各自开发;后者是做成一个整体一起开发。

前不久,被 Meta 公司高价收购的 Manus,就是分层开发的最好例子。

Manus 使用的模型是 Anthropic 公司的 Claude,它自己在其上开发一个独立的智能体,最终被收购。

它的成功鼓舞了许多人投入智能体的开发。因为模型的投入太大,不是谁都能搞的,而智能体的投入比较少,再小的开发者都能搞。

Kimi 这一次的尝试,则是朝着另一个方向迈出了一大步,把大模型和 Agent 合在了一起。毕竟,大模型公司自己来做这件事更方便,更有利于扩大市场份额、争取用户。

很难说,这两种做法哪一种更好。就像手机一样,苹果和安卓的外部应用,可以更好地满足用户需求,而自带的内置应用则能充分跟操作系统融合,用起来更顺滑。

四、

模型的测试已经很多了,下面我就来测一下,这次发布的 K2.5 Agent。

看得出来,Kimi 对 Agent 很重视,倾注了很大心血,发布说明的大部分篇幅介绍的都是 Agent 的功能。

其中有几个功能是比较常规的:

(1)Kimi Office Agent:专家级的 Word、Excel、PowerPoint 文件生成。

(2)Kimi Code:对标 Claude Code 的命令行工具,专门用于代码生成。

(3)长程操作:一次性完成最多1500步的操作,这显然在对标以多步骤操作闻名的 Manus。

我比较在意的是下面两个全新的功能,都是第一次看到,其他公司好像没有提过。

(4)视觉编程:通过模型的视觉能力,理解图片和视频,进而用于编程。只要上传设计稿和网页视频,就能把网页生成出来。

(5)蜂群功能(agent swarm):遇到复杂任务时,Agent 内部会自动调用最多100个 Agent,组成一个集群,并发执行任务,比如并发下载、并发生成等。

碍于篇幅,我就简单说一下,我的"视觉编程"测试结果。

五、

首先,打开 Kimi 官网,K2.5 已经上线了,能够直接使用(下图)。

注意,模型要切换到"智能体模式" K2.5 Agent。

我的第一个测试是动效生成,即上传一段动画效果的视频,让它来生成。下面是原始动画,是用 Lottie 库做的。

上传后,在网页输入提示词:

视频里面的动画效果,一模一样地在网页上还原出来

模型很快推断出,这是橘猫玩球的动画。然后,居然把动画每一帧都截图了,进行还原。

最终,它使用 Python 生成了 SVG 动画文件。

尾巴、眼球、小球滚动的动画效果,都正确还原出来了。可惜的是,主体的小猫是由多个 SVG 形状拼接而成,没法做到很像。

大家可以去这个网址,查看最终效果和网页代码。

六、

第二个测试是上传一段网站视频,让模型生成网站。

我在 B 站上,随便找了一个设计师网站的视频

大家可以去访问这个网站,看看原始网页的效果。

我把视频上传到模型,然后要求"把视频里面的网站还原出来"。

生成的结果(下图)完全超出了我的预期,还原度非常高,几乎可以直接上线。

大家可以去这个网址,查看生成的结果。

七、

经过简单测试,我的评价是,Kimi K2.5 Agent 的"视觉编程"不是噱头,确实有视觉理解能力,完全能够生成可用的结果。

目前看上去,Kimi 这次"模型 + Agent"的一体化尝试是成功的。一方面,强大的 Agent 发挥出了底层模型的能力,方便了用户使用;另一方面,模型通过 Agent 扩展了各种用例,可以吸引更多的用户,有利于自身的推广。

最后,在当下国际竞争的格局之中,一体化还有一个额外的优势。

Manus 依赖的是美国模型,最终不得不选择在海外注册公司,而 Kimi 的底层模型是自研的,而且开源,完全不存在卡脖子的风险。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年1月29日

科技爱好者周刊(第 382 期):独立软件的黄昏

2026年1月23日 08:13

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

巫山县城建在山坡上,为了方便居民和促进观光,在中轴线上建设了神女大扶梯,总长905米,高240余米,相当于80层楼,全程需要20分钟。(via

独立软件的黄昏

软件可以分成两种:一种是公司开发的,另一种是个人开发的。后者就称为"独立软件"(indie software)。

它的历史非常悠久,从古至今,很多程序员依靠出售独立软件谋生。

有一种东西"共享软件"(Shareware),年轻的朋友未必知道,二三十年前曾经非常流行。用户免费使用软件的试用版,如果满意,就向开发者购买一个注册码。

这就是一种独立软件,当年很多著名软件都是这个模式,比如国外的 WinZip 和 WinRAR,国内的网络蚂蚁(NetAnts)、网际快车(FlashGet)、豪杰解霸。

时至今日,大家看看目前流行的软件,还有多少属于独立软件?你每天使用的软件,又有多少是个人开发的?

很少很少了。

一位二十年的独立软件开发者哀叹现在的市场上,公司开发的比重越来越大,个人开发的比重越来越小,独立软件正在没落。

"我销售自己的软件20年了,2005年以后,互联网开始普及,独立软件迎来了黄金年代。而最近两三年,环境一直在快速变化,销售明显变难了,我感觉自己越来越难维持生计了。"

独立软件的大发展,是从2005年开始的。

  1. 互联网的普及,网民数量急剧增长。
  2. 智能手机创造了手机软件,一个全新的软件大市场。
  3. 在线支付的普及和简化。
  4. 互联网使软件分发变得容易且免费。
  5. 免费的高质量开发工具(编译器、IDE、版本控制系统、Web 服务器)不断涌现。

这些因素让程序员切切实实获利了,要是你再做一些 SEO、买一些付费广告,完全可能赚到大钱。很多人就是这样发展起来的,从独立软件变成了大公司。

但是,最近两三年情况变了,上面这些因素都到头了。

独立软件正在慢慢退潮,你能够想起名字的独立软件越来越少,更不要说掏钱购买了,即使有也是多年前的作品。根据我的观察,依靠出售自己软件维生的程序员似乎也在减少。

主要原因有下面几个。

(1)AI 改变了互联网流量,独立软件失去了推广渠道。网站的访问量显著减少,人们更多跟大模型交互,而不是浏览网页。通过搜索引擎和在线广告获取流量的策略,越来越没有效果。

视频是为数不多仍然有效的推广渠道之一,但制作视频非常耗时,而且竞争异常激烈。另外,AI 生成的劣质视频迟早会大量出现,推广效果也会变差。

(2)AI 使得软件开发变得容易。它加快了开发速度,降低了进入门槛,让更多人加入竞争。以前,用户可能购买某个功能,现在直接让 AI 生成即可。

(3)新软件汗牛充栋,越来越难脱颖而出。iPhone 应用商店有大约200万个应用,用户很难发现你。另一方面,应用商店更喜欢推广那些能帮它赚更多钱的大公司软件,而不是独立软件。

(4)人们越来越习惯使用基于网络的软件,独立软件属于需要下载安装的原生应用,它的市场在萎缩。

基于网络的软件与其说是产品,不如说是一种服务,全天候24小时可用的服务。越来越多的个人开发者顺应这种趋势,改为以提供 SaaS 服务为主。

(5)平台的风险。现在的很多独立软件,都依靠云服务商的平台或底层服务,而平台随时会改变规则(比如关闭 API),或者推出竞品,一大批应用随之死掉,这种事情屡见不鲜。

(6)用户期望软件是免费的,或者非常便宜。售价略微高一点,就会无人问津。因此,独立软件要想获得可观的回报,就需要巨大的销售规模,这根本做不到。别的不说,个人开发者完全无力提供满意的客服。

(7)以上这些因素将长期存在,只会加深,不会逆转。独立软件的时代可能真的要结束了,个人开发者以后大概很难靠销售自己的软件为生,而要改为销售自己维护的 SaaS 服务,尽管这也很难。

科技动态

1、VS Code 的定位

微软公司的 VS Code 是非常流行的代码编辑器,市场份额很高。

现在的官网上,它的产品定位是"开源 AI 代码编辑器"。

但是,2025年上半年,它的产品定位还是"你的代码编辑器,由 AI 重定义"。

更早的2024年,产品定位是"重新定义的代码编辑"。

令人感慨啊,这么成功的软件,AI 本来只是附属功能,现在也要蹭热点,把自己包装成 AI 主导的产品。

2、智能脖巾

英国科研人员发明了一种智能脖巾。它围在脖子上,可以感受到穿戴者的心跳和喉部肌肉运动。

它的用户主要是中风后丧失说话能力的人。这些人可以张嘴,做出说话的口型,但是无法正常发音。

他们佩戴这个脖巾后,颈部的运动数据就通过它传给电脑,经过模型训练,可以用电脑语音还原出用户想说的话。

3、雪宝机器人

人形机器人何必一定做成人形。

迪斯尼最近发布了一个机器人,样子就是电影《冰雪奇缘》的雪宝。

它用来在迪斯尼乐园,跟游客互动。

它启示我们,人形机器人做成卡通形状也很好。

另外,LG 公司在美国 CES 展会上,展示了他们最新的家务机器人

这个机器人的功能就是做家务,比如叠衣服和洗碗。我觉得,国内厂商可以借鉴,展示机器人功能时,不要展示跳舞打拳,而要展示如何做家务。

文章

1、别用 MySQL,改用 MariaDB(英文)

曾经的明星数据库 MySQL,最近几个月的代码提交数为0(上图)。作者认为,种种迹象表明甲骨文已经放弃了这个项目。

2、10秒获得 AI 代码评审结果(英文)

本文介绍一个技巧,让 AI 快速给出提交代码的评审结果,方法是不要提交整个代码库,只提交 diff 的部分。

3、使用 Pandoc 生成静态网站(英文)

文档格式转换工具 Pandoc 可以用来生成静态网站,作者介绍自己是怎么做的。

4、锚点元素<a>的一些鲜为人知的地方(英文)

锚点元素<a>用来生成链接,本文介绍如果链接到一些特殊字符的情况。

5、学习自定义元素(英文)

一篇 HTML 自定义元素的教程文章,写得简单清晰。

6、Go、Rust 和 Zig 的一些想法(英文)

作者是一个高级程序员,谈谈他对 Go、Rust、Zig 三种语言的感受。有趣的地方是,这三种语言都没有类,也不支持面向对象编程。

7、我的个人基础设施(英文)

作者介绍他自己的家庭实验室。比较有趣的是,他的个人网站是本地构建后,自动用 Syncthing 同步到服务器,这对小型静态网站确实简单。

工具

1、GoRead

开源的电子书阅读器应用,支持桌面与移动端(Android/iOS)。(@zhashut 投稿)

2、EasyPostman

用于 API 调试的跨平台桌面应用,对标 Postman + JMeter。(@lakernote 投稿)

3、Port Sentinel(端口哨兵)

Windows 桌面应用,查看端口占用情况。(@Sanjeever 投稿)

4、Building Sunlight Simulator

基于 Web 的楼盘采光 3D 日照模拟工具,帮助购房者评估小区采光。(@SeanWong17 投稿)

5、Office App

一个纯本地的 Office 网页应用,可以离线在网页创建/编辑 Word、Excel、PowerPoint 文件。(@baotlake 投稿)

6、ScreenshotSnap

免费的网站截屏在线工具,提供 API,可以直接将截图代码插入网页。(@phpiscute 投稿)

7、tsshd

SSH 服务器登录协议的全新实现,特点是连接不掉线,可以重连前一个对话。(@lonnywong 投稿)

8、AirScan-QR

一个开源网页应用,通过动态二维码发送/接收文件。(@topcss 投稿)

9、LuCI Bandix

开源路由器操作系统 OpenWRT 的一个插件,可以监控局域网各设备的实时流量和目的地。(@timsaya 投稿)

10、pure-genealogy

开源的网页族谱工具,用来生成家族族谱,基于 Next.js + Supabase。(@yunfengsa 投稿)

11、mdto.page

这个网站免费将 Markdown 文件转成 HTML 格式,发布成公开访问的网页。

AI 相关

1、ChatGPT 翻译

OpenAI 悄悄发布的翻译功能,只有在官网可用。

2、Mango Desk

一个跨平台的桌面应用,使用自然语言进行本地文件搜索。(@moyangzhan 投稿)

3、OpenWork

Claude 公司新产品 CoWork 的开源替代品,让普通用户不编程,就能完成文件操作,定位就是"Claude Code 的非编程版"。

另有一个类似项目 Open Claude Cowork。(@aiagentbuilder 投稿)

4、Wolfcha(猹杀)

开源的网页游戏 AI 狼人杀,除了玩家自己,其他所有角色(女巫、猎人、守卫、狼人等)都由 AI 扮演。(@oil-oil 投稿)

资源

1、维基百科25周年

维基百科是2001年1月13日上线的,今年是25周年纪念。这个网站是官方的纪念网站,以互动形式展示了发展历程。

另外,还有一篇文章,介绍互联网档案馆的历史(下图)。

2、HTTP:COLON

这个网页可以查看指定网站返回的 HTTP 标头,详细解释每个字段的含义。

3、现代 Java(Modern Java)

面向初学者的 Java 语言教程。

图片

1、中国新能源建设的惊人规模

90后摄影师储卫民拍摄的中国新能源建设。

他说:"从地面上很难体会这些发电厂的规模,但当你升到空中时,就能看到它们与山脉、沙漠和海洋之间的关系。"

青海冷湖镇

浙江象山县

青海塔拉滩

内蒙古阿拉善

"我一开始只是拍摄风景,但2022年我去贵州、云南、青海等地旅行时,不断看到风力发电场和太阳能发电厂出现在我的镜头里。我意识到这就是我们这个时代的故事----但几乎没有人系统地记录它。"

文摘

1、谷歌14年工作的教训

大约14年前,我加入谷歌,以为这份工作就是编写优秀的代码。

这个想法部分正确。但随着时间的推移,我越来越意识到,真正成功的工程师不一定是最优秀的程序员,而是懂得驾驭代码之外一切的人。

下面就是我得到的经验教训。有些教训是我走了几个月的弯路得到的,还有一些需要数年才完全领悟。它们都与具体的技术无关----技术变化太快,根本无关紧要。

(1)工程师想在大公司生存,必须学会沟通。

因为在大公司,团队是组织的基本单位,推进项目必须跟其他团队沟通。项目越大,你花在跟其他人、其他团队沟通的时间就越多,比编写代码的时间还多。大多数"慢"的团队实际上是不沟通的团队。

为了顺利沟通,清晰是第一位的要求。它不仅可以加快沟通,还能降低代码风险。最优秀的工程师都会用清晰易懂的代码来代替炫技。

为了提高表达的清晰性,你可以尝试写作和去教别人。如果你能用简单的语言解释某件事,你就是真的理解它了。

(2)想要得到晋升,必须有人为你说话。

职业生涯初期,我曾认为优秀的工作成果代表了一切,但我错了。代码默默地躺在代码库里,不会为你说话。

那些对你至关重要的会议,你本人很可能没有机会参加。你需要你的经理、同事在会上提到你、推荐你。他们可能这样做,也可能不会。

平时工作中,你尽量不要为自己增加阻力。如果开会的时候,你赢得每一场辩论,很可能就是在积累无声的阻力。你之所以"赢",不是因为你说服了别人,而是因为他们不再与你争论,放弃了,将会在其他场合表达这种不满。

(3)专注于你能控制的事情,忽略你无法控制的事情。

很多事情,你改变不了,不要为这种事情烦恼。这不是被动接受,而是策略性分配精力。如果你把精力浪费在无法改变的事情上,就等于放弃改变那些原本可以改变的事情。

(4)简化工作往往可以提高绩效。

当系统运行缓慢时,人们的第一反应是增加缓存层、并行处理和更智能的算法。有时这样做没错,但我发现,删除不必要的工作几乎总是更有效果。下次进行优化之前,你要先问问自己这项工作是否应该存在。

(5)时间比金钱更有价值,你要抓紧时间。

职业生涯初期,你用时间换取金钱,各种事情都做----这无可厚非。但到了某个阶段,情况就完全不同了,你会开始意识到,时间才是不可再生资源。你要专注于那些对你最重要的事情,放弃其他事情。

言论

1、

AGI(通用人工智能)中的 A 代表广告(advertisement)。

-- 一位程序员评论 OpenAI 宣布在 AI 对话中加入广告

2、

Netflix 的电影不追求视觉效果,因为大多数观众是在手机、平板和笔记本电脑上看,内容不需要为大银幕制作、而是为小屏幕制作的。

-- 马特·达蒙,美国著名演员

3、

我从未见过哪个群体比程序员更热衷于分享知识。其他行业都是严守知识、保守秘密,程序员则是免费提供源代码、书籍、博客文章、演示文稿、视频教程等等。

编程领域没有什么神圣不可侵犯的东西。如果你想学习,你可以找到免费书籍、完整的源代码、论坛、聊天室、邮件列表、线下聚会、博客文章、视频讲座、教程以及你可能需要的一切资源。尽管举手,总会有人乐于助人,倾囊相授。

-- 《我是如何学习所有编程知识的》

4、

今年的 iOS 26 中,一些 UI 元素利用 HDR 屏幕,采用高光,比纯白色更亮。如果你曾经在 iPhone(或其他任何支持 HDR 的屏幕)上看过 HDR 照片,然后再看看以 SDR 模式显示的 UI,你就会知道它看起来有多么灰暗黯淡。

-- 《亮模式的膨胀》,作者发现 iOS 每年都变得更亮,容易产生视觉疲劳,让他不得不使用暗模式

5、

如果你想批评大型组织的运作方式,首先要了解它们为何如此运作。否则,批评会显得尖锐,但却毫无意义。

-- 《关于大型软件公司的常见误解》

往年回顾

年底的未来已来(#335)

为什么 PPT 不如备忘录(#285)

青年失业率与选择创业(#235)

美国宪法拍卖,一个区块链案例(#185)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年1月23日

AI native Workspace 也许是智能体的下一阶段

2026年1月22日 19:46

一、智能体的形态

我问大家一个问题,什么是 AI 的产品形态?

大模型只是底层的处理引擎,你总是需要一个应用层产品,对接用户的需求。这种 AI 的应用层,就称为"智能体"(agent)。

那么,问题就变成了,"智能体"应该是什么样?

早期的智能体只是对话应用(上图),后面加入了推理,可以思考复杂问题。

后来,向专业领域发展,演变出编程智能体(coding agent)、图像智能体、视频智能体等等,或者接入 MCP,获得外部应用操作能力,比如生成 Office 文件、操作浏览器。

这些形态基本已经成熟了,很多公司开始探索,下一阶段的智能体会是什么形态?

我最近在用 MiniMax 刚发布的 AI native Workspace(AI 原生工作台),欣喜地觉得,这可能就是答案。

二、Cowork 和 Skill

这个新产品,同时加入了 Anthropic 公司最近提出的两个新概念:Cowork 和 Skill。

所谓 Cowork,简单说,就是一个"计算机操作助手"。它本质是编程智能体的图形界面版,让不懂编程的用户,用自然语言说出需求,再通过 AI 生成底层代码并执行,自动操作本地计算机完成任务。

而 Skill 就更简单了,它是一篇预设的提示词,相当于"使用手册",向 AI 详细描述如何完成某一种特定任务。可以这样理解,每一个 Skill 就是一个专家,让 AI 拥有特定领域的技能。

这两个东西,一个是操作助手,一个是专家模式。前者用 AI 来操作计算机,后者让 AI 具备专门技能。

它们结合起来会怎样?

MiniMax AI native Workspace 就是这样一个产品,探索性地将 Cowork 和 Skill 结合在一起,同时具备两种能力,完全是一种全新的产品形态。

它的桌面端(desktop)提供 Cowork 能力,专家模式(experts)则提供 Skill 能力。

三、桌面端操作助手

下面,我来展示,它跟传统智能体的差异在哪里。

它的桌面客户端定位就是"AI 原生工作台",具备以下能力。

  • 直接访问本地文件:能够读写,以及自动上传或下载文件。
  • 自动化工作流程:能够分解任务,运行 Web 自动化。
  • 交付专业成果:运行结束后可以生成高质量的交付产物,比如 Excel 电子表格、PowerPoint 幻灯片、格式化文档。
  • 长时间运行任务:对于复杂任务,可以长时间运行,不受对话超时或上下文限制的影响。

注意,由于它可以操作计算机,并跟互联网通信,执行之前,一定要指定目录,防止读写不该操作的目录,而且要有备份,防止原始文件被删改。

首先,前往官网下载桌面客户端,Windows/Mac 版本均有,新注册用户目前可以免费试用3天。

安装后运行,直接进入任务界面,就是一个传统的对话框。

这时指定运行目录,就进入"工作台"模式,可以对该目录进行操作。软件会跳出一个警告,提示风险。

这时,就可以让它执行各种任务了。比如,我让它整理各种电子服务的发票 PDF 文件,然后生成一个汇总的 Excel 文档。

这时,它会在当前目录里面,自动安装一个 Python 虚拟环境,然后生成 Python 脚本并执行。

很快就生成好了 Excel 文件。

以此类推,各种文件整理的事情,都能交给它,比如整理照片、文件重命名等等。

它还能进行网页自动化,比如自动浏览某个网页,并提取信息、总结内容。

四、专家系统

上面展示了它的工作台功能,可以担当"数字员工",下面再来看看它的"专家系统"。

所谓"专家系统",就是注入特定的提示词文件,扩展智能体的技能,相当于深度的知识和能力注入。用户还可以上传私有知识库。

大家可以打开它的网页端,点击左边栏的"探索专家"。

系统内置了一些"预设专家",可以直接使用。

我选了一个系统提供的"Icon 制作器",就是制作 Logo 的技能,看看好不好用。

我要求制作一个"熊猫吃冰淇淋"的 Logo,系统提示要选择一种设计风格。

最后生成了两个文件(坐姿和站姿)供选择,效果还不错。

五、创建新技能

除了预设的专家,系统也允许你创建"我的专家",也就是某种自定义技能。

你需要输入能力描述和指令,还可以添加对应的 MCP、SubAgent、环境变量、Supabase 数据库等等。

我直接把 Anthropic 公司提供的 Skill 文件输入,看看效果。

我选了 frontend-design(前端设计)技能,输入以后就可以在"我的专家"分页上看到。

注意,系统目前只支持输入技能描述文件,还不支持上传静态资源文件(asset),希望后面可以加上。

选中这个专家以后,我要求生成一个算法可视化页面。

"生成一个排序算法可视化网站,列出常见排序算法的可视化动画。选中某个算法后,会展示该算法的动画效果。"

生成过程大概十分钟左右,就得到了结果。系统生成了十种排序算法的动画,并直接部署上线。

我后来又调整了一下动画配色,大家可以去这个网站看看效果,还是很酷的。

六、总结

AI native Workspace 将 AI 智能体引入了本地计算机,可以进行自动化操作,同时加入技能接口,允许注入外部知识和能力。并且,所有操作都可以通过自然语言对话完成,对用户的要求低。

这一下子打开了 AI 智能体的想象空间,它所能完成的任务,将不再受限于模型的能力,而只受限于我们的想象力。

我认为,这个产品代表了下一阶段 AI 智能体的发展方向,将开启很多全新的可能性,等待我们去探索。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年1月22日

科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么

2026年1月16日 08:13

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。 (@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年1月16日

科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益"

2026年1月9日 08:11

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系(yifeng.ruan@gmail.com)。

封面图

中法合作的一个艺术项目《挑战第841次》,让路过的行人在黄浦江边的一个玻璃亭子里,弹奏法国作曲家的一个钢琴作品。(via

为什么人们拥抱"不对称收益"

前两周,我跟大家说,美国现在最流行"预测市场"。我当时没有统计数字,现在有了。

2025年11月,美国前两大预测市场---- PolymarketKalshi ---- 一共成交了超过100亿美元。

看这个数字,大家可能没感觉。作为对比,美国全国的体育彩票,2024年的销售额是137亿美元。

这就是说,预测市场一个月的交易量,接近了体育彩票全年的销售额。要知道,这两个网站6年前都还不存在!

这么恐怖的增长速度,难怪美国各大公司现在都想挤入这个市场,分一杯羹。

预测市场就是变相的网络彩票,它的火爆只能说明一件事情,美国正出现疯狂的"彩票热"。

本周,我看到一篇文章(上图),一位风险投资家分析这个现象。我想分享他的观点,他认为,预测市场火爆的根本原因,是社会心态的焦虑和绝望

(1)财富转移机制失效了,通过正常工作致富,越来越不可能。工资的增长速度,低于消费的增长速度,个人债务正在变多。

虽然资产的价格(比如股票、黄金、房产)也在上涨,但只是让那些拥有资产的人受益,对于没有这些资产的穷人,只是变得更贫穷。

(2)传统的人生模式也失效了。以前的模式是,找一家大公司,每天按时上班,努力工作,对公司忠心耿耿,坚持多年就会得到回报。你会收到公司的奖励,退休后还有养老金。

这种模式现在行不通了。公司的经营短期化,能存活20年的公司并不多,更不要说你的岗位了。一旦失去现在的工作,再次就业非常困难,以前的工作经验很可能用处不大。

(3)AI 的出现,加剧了前两种情况的发展速度。AI 让一切加速了,压缩了时间。以前,你有五年的时间奋斗,AI 让你感到必须在一年里拿到结果,否则就可能为时已晚。

(4)社交媒体则使得人们永远不会对现状满意。

以前,你的参照群体只是周围人群,现在的参照群体是全世界。你每天看到的都是收入高、赚钱容易、生活优渥的人群,永远会让你感到自己的生活不够好,而无论你已经取得了怎样的成就。

(5)结果就是,越来越多的人失去了耐心,不再相信长期投入,不再幻想长期的劳动积累会通往圆满的人生,社会也不奖励耐心。

为什么要苦苦奋斗20年,去争取10年后可能根本不存在的晋升机会?我要的是一条快速的道路,摆脱日常生活的困境,而且越快越好。

(6)这种心态下,人们的风险偏好发生了变化。为了快速摆脱困境,在风险更大的选项上放手一搏,成了合理的选择

即使只有5%的希望,也比100%的停滞不前更有吸引力。这就是彩票在贫困社区更畅销的原因。

这在经济学上称为"不对称收益"(asymmetric returns),就是风险和收益不对称。失败的可能性很大,但只会损失一小笔钱,成功的可能性很小,但是一旦成功,就会获得巨大收益,简单说就是"小亏大赚"。

追求不对称收益,已经成了一种普遍的心态。它推动了前几年的加密货币和 NFT 的热潮,现在又推动了预测市场。

可以确定,凡是能够产生"不对称收益"的事情,今后都会迅速成为热点。

新人上手 Claude Code 的简单方案

AI 编程工具,我用的是 Claude Code。以前推荐过,非常好用,功能很强。

我现在依然这样认为,但是必须说,Claude Code 不适合所有人,有使用门槛

它要求用户熟悉命令行,而且 Windows 安装不方便,需要启用 Linux 子系统 WSL。另外,如果在外面,没有自己的计算机,临时想用一下,也很麻烦。

元旦的时候,我在广东听说,有人做了"云端 Claude Code 客户端",解决了这些痛点,就很感兴趣。

他们团队叫做 302.AI,我以前就有接触。他们做云端服务很多年了,现在专注于 AI 模型接入。大家可以去官网看一下,用他们的 API 能够接入几乎所有主流模型,数量有几百个。

他们跟我一样,也感到 Claude Code 的诸多不便,就想能不能再开发一个它的客户端,封装所有复杂性,提供最好用的 AI 编程体验。

(1)跨平台桌面应用。他们提供 Win/Mac/Linux 安装程序,通过桌面窗口去使用云端的 Claude Code。

(2)零配置的云端沙盒。云端的 Claude Code 预装在一个沙盒里,集成了 Node.js、Python、Git、CMake、build-essential 等开发工具,不需要任何本地环境配置,开箱即用。

同时,沙盒也保障了安全,跟本地电脑是隔离的,AI 就不会误删本地文件。

(3)对话界面。对于不习惯命令行的用户,他们提供对话式交互界面(Chat UI),以聊天方式完成编程。

(4)随意更换模型。Claude Code 更换底层模型,需要配置环境变量,他们的客户端不需要这么麻烦,只需要鼠标选中即可。

你可以直接用他们的 API,也可以配置自己的 API Key。

(5)一键部署。他们还提供了部署功能,AI 生成的结果可以一键发布到公网,直接访问,无需购买服务器或配置域名。

可以说,这个方案完全针对 Claude Code 的各种痛点,目标是打造新手最容易上手的 Vibe Coding 工具。

感兴趣的朋友可以去 studio.302.ai 下载,体验一下。(提醒:使用前需要注册/登录 302.AI 账号。)

科技动态

1、乔布斯写的程序

乔布斯创立苹果公司之前,当过短时间的程序员。1975年,他20岁,从大学退学后,进入雅达利公司写电子游戏。

人们一直不知道,他的编程水平如何,现在终于曝光了。

本周,乔布斯的一些个人档案公开拍卖,其中就有当年他写的程序,打印纸上还有他的亲笔注释。

有人把这个程序还原出来,放到虚拟机上跑,终于让我们看到了乔布斯的软件作品。

这个程序叫做 AstroChart,跟星座有关。用户提供出生的时间地点,它会显示太阳系主要天体的位置。

从代码来看,乔布斯的编程水平可以,他使用三角函数计算行星位置,并且绕过当年硬件没有双精度浮点数的限制,用整数除法代替。

2、世界最大电动船

澳大利亚建造了世界最大的电力轮船,长度130米,里面的电池重达250吨。

这艘船将用作阿根廷与乌拉圭之间的轮渡,可以搭载多达2100名乘客和225辆汽车。

这艘船不仅是史上最大的电动船,可能也是史上最大的电动装置,一次可以携带超过4万度电。

3、最高过山车

2025年的最后一天,沙特阿拉伯在距离首都利雅得40分钟车程的地方,开张了一个乐园。

这个乐园有27个游乐设施,很多都是世界之最,其中就有目前世界最高的过山车。

这个过山车高达195米,相当于60层楼,比先前的世界纪录高出了55米。

整个过山车的长度是4.2公里,最高速度可以达到240公里/小时,全程只有3分多钟。

网上有很多这个过山车的视频,不要说坐在车上,就是看视频都觉得惊心动魄。

文章

1、2025年大模型回顾(英文)

西蒙·威利森(Simon Willison)的 AI 年度回顾,过去一年的大事件基本都提及了,总结和评点得非常好,推荐阅读。

2、华为的 5nm 制程怎么样?(英文)

这是一家美国技术媒体对华为麒麟9030芯片(搭载于最新的 Mate 80 手机)的分析文章。

该文认为,该芯片比早先的 7nm 制程有提升,是大陆制造的最先进芯片,但从跑分看,还没达到台积电的 5nm 水平。文章有中文版

3、Opus 4.5 将会改变一切(英文)

作者不相信 AI 会取代程序员,直到遇到 Anthropic 公司的 Opus 4.5 模型。本文是他的4个项目的编程体会,他现在确信程序员会被替代。

4、HTTP caching, a refresher(英文)

对于 HTTP 缓存机制的一个总体介绍,梳理浏览器缓存的处理逻辑。

5、Vitest 的浏览器模式介绍(英文)

JS 测试框架 Vitest 4.0 引入了浏览器模式,可以进行浏览器自动化,类似于 Playwright,进行 UI 测试,本文是一个简单介绍。

6、如何提高 JS 数组的读写速度(英文)

一篇 JavaScript 中级教程,介绍通过为 JS 数组分配连续内存,提高数组的读写速度。

工具

1、ZenOps

一个命令行工具,在本地终端里查询阿里云/腾讯云等云平台的运行数据,并提供钉钉、飞书、企微机器人,进行自然语言查询。(@eryajf 投稿)

2、白虎面板

轻量级的服务器定时任务管理系统,适合低配置的服务器。(@engigu 投稿)

3、OnlinePlayer

一个网页播放器,可以播放本地视频和云盘视频。(@13068240601 投稿)

4、gitstats

命令行工具,生成 Git 仓库的统计数据。(@shenxianpeng 投稿)

5、云图

一个极简风格的图床,可以搭建到自己的 NAS,提供灵活的 API。(@qazzxxx 投稿)

6、KeyStats

开源的 macOS 小工具,对按键行为进行统计。(@debugtheworldbot 投稿)

7、py2dist

这个工具可以将 Python 脚本编译成二进制模块,方便隐藏源码。(@xxnuo 投稿)

8、Stream Panel

Chrome 浏览器开发者工具的一个扩展,用来调试服务器发送事件 (SSE) 和 Fetch 的流式连接。(@bywwcnll 投稿)

9、Zedis

Redis 的图形客户端,跨平台的桌面应用,不使用 Electron,而是使用 Rust + GPUI,性能更好。(@vicanso 投稿)

10、QDav

这个网站可以为夸克网盘加入 WebDAV 协议,从而挂载到网盘播放器来播放夸克网盘的视频。(@ZhouCai-bo 投稿)

11、XApi

开源的 Chrome 浏览器插件,自动捕获当前网页的 Fetch 与 XHR 网络请求,支持改写 Cookie、Origin、Referer 字段,方便开发调试。(@lustan 投稿)

12、PDFCraft

纯浏览器的 PDF 开源工具集,目前有80多个工具。(@pccprint 投稿)

AI 相关

1、Open-AutoGLM

智源公司的开源安卓应用,使用自然语言,让 AI 操作手机,进行手机自动化,可以接入各种模型,无需电脑端。(@Luokavin 投稿)

2、Claude-Ally-Health

一个基于 Claude Code 的个人医疗数据中心,定义了一组自己的命令和技能,用 AI 分析个人医疗数据(体检报告、影像片子、处方单、出院小结)。(@huifer 投稿)

3、灵猫

免费的 AI 图片去水印网站,但只是去除视觉水印,嵌入的数字水印还在。(@pangxiaobin 投稿)

4、DeepDiagram AI

开源的 AI 应用,用自然语言驱动内置的 mermaid、echarts、mindmap、Draw.io 等绘图工具生成图表。(@twwch 投稿)

资源

1、100万首页截图

这个网站收集了100万个热门网站的首页截图,将它们做在一个页面,可以放大查看。

2、Emulator Gamer

各种老游戏机的经典游戏,通过模拟器免费在线游玩。(@SinanWang 投稿)

图片

1、如今的 Mozilla

Mozilla 浏览器的新任 CEO 宣称,公司的发展方向是 AI 浏览器

这让 Mozilla 社区感到担忧,因为没人是为了 AI 而使用它。一位使用者就画了下面这张图。

Mozilla 的吉祥物----一只小狐狸拿着锯子,把自己正坐着的树枝锯断,旁边还有一只鸟,为它递上更锋利的电动锯子,上面写着"AI"。

这张图比喻 Mozilla 一直在自寻死路,全力转向 AI 只会死得更快。

文摘

1、外卖应用的秘密

我是一个大型外卖应用的开发者,受一项严格的保密协议约束。但是,我已经不在乎了,我昨天向公司递交了离职报告。

说实话,我希望公司能起诉我,这样一来,这些事情就会曝光。

我已经消极工作大约八个月了,只是看着代码被推送到生产环境。一想到自己参与了这台机器,我夜里都睡不着。

人们总怀疑算法对用户不利,现实比这更糟。我是一名后端工程师,每周参加产品会议,产品经理(PM)讨论如何才能挤出额外0.4%的利润,他们把用户当成有待开发的资源。

公司有一个"优先配送"服务,你多付2.99美元,就可以更快拿到外卖。这完全是个骗局,根本没有加快派送的速度,而是人为把非优先订单延迟5到10分钟,让你感觉优先订单更快。我们仅仅通过让标准服务变差,就赚取了数百万美元的纯利润,而不是真正改善服务。

最让我恶心的是"绝望分数",这是一个隐藏的外送员指标,根据外送员的行为判断他们多想赚钱。

如果外送员在晚上10点登录系统,毫不犹豫地立即接下每一个3美元的垃圾订单,算法会将他们标记为"高度绝望"。一旦被标记,系统就会停止向他们显示高价订单,理由是"既然我们知道他绝望到愿意接受3美元,为什么还要让他看到15美元的订单呢?"。系统把高价订单留给"休闲"外送员,即那些不愿接低价单的外送员,吸引他们接单,而全职外送员则被碾压成尘埃。

公司还会从用户的账单扣除一笔1.50美元的"外送员福利费",这个名字让用户感觉在帮助外送员。实际上,这笔钱流入了游说反对外送员成立工会的基金,这是公司用于"政策防御"的费用。用户实际上是在为那些高端律师付费,那些律师为削弱外送员的权益而工作。

最后,虽然公司不再从外送员的小费里面提成,因为被起诉过,但是使用其他方法窃取小费。

如果算法预测你是"可能支付小费的用户",而且你很可能会给10美元小费,那么公司只会给外送员可怜的2美元基本派送费。如果你给了0美元小费,公司会给外送员8美元的基本派送费。结果是用户的小费并没有奖励外送员,而是在补贴公司。用户给外送员付工资,这样我们就不用付了。

言论

1、

在美国东海岸(纽约和华盛顿),人们会问:"中国是否就要失败了",而在西海岸(洛杉矶和旧金山),人们更倾向于问:"万一中国成功了会怎样?"

这一定程度上反映了硅谷的特点:更注重收益最大化,而非风险最小化。东海岸的问题也值得认真对待,但过分关注中国是否失败,会助长一种美国无需做出任何改变就能击败对手的论调,从而削弱美国改革的紧迫性。

-- Dan Wang《2025年度信件》

2、

如果美国或中国在某个方面落后太多,落后者就会奋起直追。这将是未来数年甚至数十年世界变化的动力。

-- Dan Wang《2025年度信件》

3、

程序员对待 AI 有两种态度:一种以结果为导向,渴望通过 AI 更快拿到结果;另一种以过程为导向,他们从工程本身获得意义,对于被剥夺这种体验感到不满。

-- Ben Werdmuller

4、

AI 数据中心的建设热潮,导致内存价格暴涨,进而产生一系列连锁反应。

手机和电脑厂商别无选择,只能提价。我们估计,2026年全球的手机市场和电脑市场都会萎缩。手机萎缩2.9%到5.2%,电脑萎缩4.9%到8.9%。

-- IDC 公司的预测

5、

eSIM 手机卡一旦更换就可能失效,相比之下,实体 SIM 卡可以随意插上插下,几乎不会出现故障。推广 eSIM 的后果就是,手机号丢失的事件会大大增多。

-- 《我后悔使用 eSIM》

往年回顾

一切都要支付两次(#333)

没有目的地,向前走(#283)

生活就像一个鱼缸(#233)

腾讯的员工退休福利(#183)

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年1月 9日
❌
❌