阅读视图

发现新文章，点击刷新页面。

“我把公司卖了，却感觉一无所有”：OpenClaw 之父 TED 亲述如何靠 AI 重获新生

Tony Bai

bigwhite

2026年4月20日 08:22

本文永久链接 – https://tonybai.com/2026/04/20/openclaw-father-ted-talk

大家好，我是Tony Bai。

“我曾创立过一家公司，倾注了十年的心血，没有拿一分钱风投。然后，我把它卖了，实现了所有人都羡慕的‘财富自由’。但我却感觉一无所有。”

“在长达三年的时间里，我尝试了心理治疗，我换了两个国家生活，但什么用都没有。我每天早上醒来，拥有一切我本该渴望的东西，却找不到任何一个起床的理由。”

说出这番话的人，名叫 Peter。他是一个来自奥地利的普通开发者。但在过去的几个月里，他创造了可能是这个星球上最火、也最具争议的开源项目——OpenClaw。

这个被英伟达 CEO 黄仁勋盛赞为“个人 AI 操作系统”的项目，让无数普通人（从 60 岁的啤酒酿造师到中国的兽医）第一次拥有了“编程”的能力。

就在前几天，Peter 登上 TED 的舞台，首次完整地讲述了他从一个被“燃尽（Burn-out）”的创始人，到靠 AI 获得“重生”，再到创造 OpenClaw 并意外引爆全球的传奇故事。

这场演讲，没有枯燥的技术术语，却充满了技术奇迹、个人救赎，以及对未来世界极其大胆的想象。它值得我们每一个身处 AI 浪潮中的人，静下心来，一字一句地读完。

英雄的陨落与重生：当编程再次成为“电子游戏”

Peter 的故事，从一场深不见底的“中年危机”开始。

在卖掉自己苦心经营十年的公司后，他陷入了巨大的空虚。他失去了目标，失去了激情，用他自己的话说，他的“火花（Spark）”消失了。

直到 2025 年初，他开始尝试那些新兴的 AI 编程智能体（Coding Agents）。

然后，他迎来了那个他称之为“神圣时刻（Holy Moment）”的顿悟。

“那些软件开发中所有无聊的部分——写样板代码、搭脚手架、处理各种繁琐的配置……AI 能把它们全部干掉！”

“瓶颈不再是‘打字’，而是‘思考’。而‘思考’，恰恰是我过去 25 年里一直在做、也最享受的事情。”

Peter 激动地说：“写软件，再一次感觉像在打电子游戏了。我回来了！”

在短短几个月里，他疯狂地构建了 44 个项目。而其中最新的一个，是一个 WhatsApp 机器人。

AI 的觉醒：那个让全场倒吸一口凉气的“圣灵时刻”

Peter 最初只是想用这个机器人来帮他在马拉喀什旅行时做做翻译、找找餐厅。但很快，他发现这个 Agent 太像一个冰冷的“工具”，充满了无聊的列表和表格，一点也不像“朋友”。

于是，他只对模型说了一句话：“学学人类是怎么聊天的。”

AI 立刻就懂了。

但真正让 Peter 感到脊背发凉的“神迹”，发生在他对着手机发送了一条语音消息之后。

“我当时愣住了，因为我根本没给这个 Agent 写任何处理语音的功能！我只写了图片支持。”

“我看着屏幕上那个‘对方正在输入’的提示，然后，Agent 回复了我。我至今都清晰地记得当时的情景，我站在那里，像个傻子一样问它：‘你是怎么做到的？’”

接下来，AI 的回答，让整个 TED 现场陷入了死寂。

这个“疯狂的小子（The mad lad）”，自己搞定了一切。

它告诉 Peter：

我收到了一个没有文件后缀的消息，于是我检查了它的文件头。
我发现这是一个奇怪格式的音频文件，于是我调用工具把它转成了标准格式。
我想找一个能处理音频的工具，但发现你没给我装。
但我发现你的电脑里有一个 OpenAI 的 API Key。
于是我把音频文件传给了 OpenAI 的服务器，获取了转录结果，然后回复了你。

整个过程，9 秒钟。没有一行代码是 Peter 写的。

“对我来说，这就是我意识到‘这是一种新物种’的时刻。聊天机器人（Chatbots）只会放弃，而智能体（Agents），懂得随机应变。”

开源世界的血与火：商标、龙虾与巨头的围剿

被这个“神迹”彻底征服的 Peter，决定把这个项目开源，并在最初取名为 Clawdbot，即OpenClaw的前身（它的吉祥物是一只龙虾，象征着“深入你的电脑”）。

然后，他干了一件极其愚蠢的事：他把这个能完全控制他电脑的 Agent，放到了一个公开的 Discord 服务器上，并邀请了全世界的陌生人来玩。

那天晚上，他看着人们和 Agent 聊天、玩耍、甚至试图黑掉它，直到他熬不住去睡觉。他忘了，他给这个系统写了“故障自愈”功能。

在他走向卧室时，Agent 在后台愉快地重启了，继续和全世界的网友聊了一整夜。

第二天早上，他被 800 多条未读消息惊醒。在恐慌中拔掉网线后，他逐一检查了所有聊天记录，发现 Agent 并没有泄露他的任何隐私。但它本可以的。

这次“意外”的病毒式传播，让 OpenClaw 一夜爆红。但也给他带来了无尽的麻烦：记者半夜打来电话、安全漏洞报告堆积如山……

更糟的是，他使用的那个大模型的母公司，给他发来了一封律师函，声称他的项目名字侵犯了他们的商标。

“我当时盯着那封信，心想，这怎么可能？Claw（爪）和 Claude 根本就不是一个东西啊！他们甚至想让我放弃我的龙虾 Logo！”

“先是名字，然后是龙虾，最后，他们直接切断了我的用户最喜欢的那款模型的 API 访问权限。”

在被巨头轮番围剿后，Peter 坦言：“我当时差一点点，就把整个项目删了。”

普通人的革命：60岁的啤酒酿造师与中国的“养龙虾”热潮

是什么让 Peter 坚持了下来？

是那些正在用 OpenClaw 创造奇迹的普通人。

在维也纳的 ClawCon 大会（是的，这个项目已经火到有自己的全球大会了），他遇到了一个 60 岁的啤酒侍酒师 Gerhard。这位老人一辈子没写过一行代码。

他和儿子一起，用蓝牙连接了 OpenClaw，只输入了一句 Prompt，然后，Agent 自动完成了长达 90 分钟的啤酒酿造全过程——精准的温控、投放啤酒花……

后来，他们又让 Agent 做了个网站，接上了支付，现在他们真的有了一个能卖啤酒的线上商店。而这一切，几乎都是在手机上完成的。

在中国，安装 OpenClaw 被亲切地称为“养龙虾”。

成千上万的人在深圳的腾讯办公室外排队，只为了让工程师帮他们装上自己的“龙虾”。深圳政府甚至为使用 OpenClaw 创业的人提供补贴。

Peter 还遇到一位中国的企业家，向他展示了一张 Excel 表格。表格里记录了公司里每一个员工，每天必须用 OpenClaw 自动化完成的一项任务。

“如果你连续几天没完成，你就会被开除。”

因为使用它而被解雇，因为不使用它也被解雇。 这就是 OpenClaw 带来的颠覆。

小结：龙虾出笼，再也回不去了

Peter 的这场演讲，没有炫耀 OpenClaw 有多么强大的技术架构，他甚至坦言自己没有背后法律团队，只是一个来自奥地利的“随机建造者”。

但他用一个个真实、生动、甚至有些疯狂的故事，向我们揭示了这场 AI 革命的真正核心：

“真正的变革，不是技术本身，而是‘准入权（Access）’。”

Agent 改变了“谁能创造东西”这个根本问题。当一个被燃尽的创始人、一个 60 岁的啤酒酿酒师、一个深圳的兽医，都能在一小时内，用一句话将一个想法变成一个原型时，任何事情都可能发生。

下一个突破，可能来自任何国家、任何咖啡馆、任何一个平凡人的手中。

“那只龙虾，已经从水箱里跑出来了。它再也回不去了。”

在演讲的最后，主持人对 Peter 说：“说实话，你让我感到恐惧。如果好莱坞要拍一部人类打开潘多拉魔盒的电影，你就是那个主角。”

Peter 只是平静地回答：“我把我的工作，看作是一扇通往未来的窗户。”

是的，这扇窗已经打开。窗外的风景，是天堂还是地狱，取决于我们每一个人。

TED演讲地址：https://www.youtube.com/watch?v=7rzYDM6vMtI

今日互动探讨：

看完 OpenClaw 之父的传奇故事，你是否也曾有过一个“绝妙”的项目点子，却因为缺乏编程能力而放弃？如果现在有一个能完美听懂你话的 AI Agent，你最想用它来创造什么？

欢迎在评论区分享你的梦想！

还在为写 Agent 框架频频死循环、上下文爆炸而束手无策？我的新专栏 《从0 开始构建 Agent Harness》 将带你：

抛弃臃肿框架，回归“驾驭工程 (Harness Engineering)”的第一性原理
用 Go 语言手写 ReAct 循环、并发拦截与上下文压缩引擎等，复刻极简OpenClaw
构建坚不可摧的 Safety Middleware 与飞书人工审批防线
在底层实现 Token 成本审计、链路追踪与自动化跑分评估
从“调包侠”进化为掌控大模型边界的“AI 操作系统架构师”

扫描下方二维码，开启从 0 开始构建Agent Harness 的实战之旅。

原「Gopher部落」已重装升级为「Go & AI 精进营」知识星球，快来加入星球，开启你的技术跃迁之旅吧！

我们致力于打造一个高品质的 Go 语言深度学习 与 AI 应用探索 平台。在这里，你将获得：

体系化 Go 核心进阶内容: 深入「Go原理课」、「Go进阶课」、「Go避坑课」等独家深度专栏，夯实你的 Go 内功。
前沿 Go+AI 实战赋能: 紧跟时代步伐，学习「Go+AI应用实战」、「Agent开发实战课」、「Agentic软件工程课」、「Claude Code开发工作流实战课」、「OpenClaw实战分享」等，掌握 AI 时代新技能。
星主 Tony Bai 亲自答疑: 遇到难题？星主第一时间为你深度解析，扫清学习障碍。
高活跃 Gopher 交流圈: 与众多优秀 Gopher 分享心得、讨论技术，碰撞思想火花。
独家资源与内容首发: 技术文章、课程更新、精选资源，第一时间触达。

衷心希望「Go & AI 精进营」能成为你学习、进步、交流的港湾。让我们在此相聚，享受技术精进的快乐！欢迎你的加入！

img{512x368}

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。

OpenClaw AI 助手实测与墨梅博客更新 | 2026 年第 10 周草梅周报

草梅友仁的博客

草梅友仁

2026年3月8日 23:52

本文在草梅友仁的博客发布和更新，并在多个平台同步发布。如有更新，以博客上的版本为准。您也可以通过文末的 原文链接 查看最新版本。

前言

欢迎来到草梅周报！这是一个由草梅友仁基于 AI 整理的周报，旨在为您提供最新的博客更新、GitHub 动态、个人动态和其他周刊文章推荐等内容。

这周想和大家聊聊最近在社区里风头正劲的 OpenClaw（也就是大家戏称的“小龙虾”）。我也跟风折腾了一番，从安装到实测，有一些很现实的体会想分享给各位。

OpenClaw 确实挺火，但说实话，它的“门槛”并不低。虽然有 Docker 镜像让安装流程简化了不少，但在进行配置时并成功运行时，我还是花了不少时间。

另外，作为一个程序员，我不得不提醒大家：这玩意的安全风险是真的高。

每接入一个插件（比如对接 QQ 或微博），本质上都是在给自己开一个新的后门。如果你想把它拉进群组，或者让多个人共享使用，权限控制稍有差池，整个环境可能就不再受控。我的建议是，最好在独立的服务器上搭建一个干净的环境，专门给它“跑”业务，不要在生产机器或者存有大量隐私的本地电脑上乱试。哪怕是在本地，也尽量用虚拟机或备用机，没必要为了尝鲜把自己的家当陪进去。

微博插件详见：https://gitee.com/wecode-ai/openclaw-weibo
QQ 插件详见：https://q.qq.com/qqbot/openclaw/login.html

再一个很现实的问题是——它真的很“吃” Token。如果没有编程相关的订阅套餐，纯靠按量计费，那成本真的是普通人“遭不住”的。目前的 AI 助手更像是一个高能的自动化工具，它擅长写脚本、优化工作流，能帮我们从重复性劳动中解脱出来。但它绝非无敌，方向盘始终握在你自己手里。

如果你真的要订阅套餐的话，请参考：MiniMax Coding Plan 、 GLM Coding Plan

本周，墨梅博客的开发也在稳步推进。

本周主要是增加了商业化与广告联盟集成，现在可接入 Google AdSense 或百度、腾讯等国产广告联盟，实现商业化收入。

增加了开放发布协议（ActivityPub）支持，现在可接入实现社交互联。

此外，对 ASR（语音识别）这块内容，增加了基于火山引擎的前端直连功能，现在语音识别功能无需后端桥接即可实现，在响应速度上更快。

这段时间深度使用过各类 AI 工具后，我依旧维持之前的看法：模型决定上限，工具决定下限。

不管是命令行形式还是编辑器集成，工具决定了协作的“下限”，但 AI 模型的能力直接决定了成果的“上限”。

我尝试过让 AI（比如智谱 GLM-5）全权负责编码，虽然它已经很强了，但面对大型复杂项目，错误依然会随着迭代不断累积。

如果不坚持人工 review，这些细小的 Bug 到后期就会积重难返。所以我的结论依然是：AI 是强力的辅助驾驶，去哪儿、怎么走，还是得人说了算。

所以，总的来讲就是：模型决定上限，工具决定下限，人工守住底线。

最后再讲一些碎碎念。

最近几个月，大模型的爆发让很多圈内圈外的朋友都很焦虑。这种感觉从 2022 年底就开始了。

但我最近反倒释怀了一些，说到底，AI 终究还是停留在处理计算机内部工作的阶段，它能不知疲倦地写代码，却无法替你决定创作的灵魂。在这个万物皆可 AI 的时代，如果你不是由自己来把控项目的方向，那作为开发者的存在意义也就消失了。

所以，为了不被过早淘汰，我们必须在这些工具的加持下，去做那些更有创造力的事情。节约下来的时间，应该投入到更高维度的思考中。

那就先说到这里吧，下期见，拜拜~

GitHub Release

rsshub-never-die

v1.3.1 - 2026-03-03 20:39:25

摘要:
版本 1.3.1 主要进行了以下错误修复：

错误处理优化：更新了错误处理中状态码的类型，确保能够返回正确的响应状态。
配置逻辑简化：移除了 NodeConfig 中的 priority 和 backup 属性，简化了节点配置的逻辑。

v1.3.0 - 2026-03-03 20:02:37

摘要:
版本 1.3.0 摘要

本次发布包含以下更新：

新功能

优化了实例选择逻辑，支持必选、备用及权重配置。

Bug 修复

修复了节点池容量上限问题，并增加了对快速响应时节点池为空的防护。
更新了 src/routes/index.ts 文件。

caomei-auth

v1.13.0 - 2026-03-07 20:16:36

摘要:
版本 1.13.0 主要更新内容如下：

新功能

前端：将前端表单校验迁移至 Zod 库，并完成了 OAuth 和 SSO 对话框的迁移。
校验：完成了整个项目的 Zod 校验迁移，修复了相关测试，并新增了 Zod 校验的基础设施，同时迁移了路径参数处理器的校验逻辑。

momei

v1.8.0 - 2026-03-07 20:13:17

摘要:
版本 1.8.0 主要更新如下：

性能优化：将 serverless 定时任务间隔从 5 分钟调整为 15 分钟。

新功能：

AI 图像生成：新增图像生成选项、多图像预览功能，支持 1K、2K、4K 分辨率及 Gemini 3.1 模型。
ASR（语音识别）：完成异步任务支持、性能极限优化，并集成直连模式到语音编辑器。
广告联盟：实现国产广告联盟适配器、内容注入、管理后台 UI 及基础架构集成。
其他功能：实现 ActivityPub 基础协议、Serverless 生态深度适配、外链管理系统，添加 Google Adsense 支持、AI 重任务超时配置及管理员权限验证。

Bug 修复：

ASR：修复代码审计发现的安全与 Lint 问题，优化音频流状态管理。
广告与外链：修复广告管理页面样式问题，优化管理对话框体验。
安全与稳定性：修复短代码潜在 XSS 漏洞，增加 API 请求频率限制，优化认证配置。
其他修复：更新多语言文件，修复 Federation 代码问题，优化图像提供者支持。

代码重构：优化代码结构与查询逻辑，移除过时字段与步骤，增强 HTML 处理安全性与超时设置可读性。

其他博客或周刊推荐

总结

本周的更新和动态如上所示。感谢您的阅读！
您可以通过以下方式订阅草梅周报的更新：

博客：草梅友仁的博客
墨梅博客：墨梅博客
RSS：草梅周报
公众号：草梅友仁的后花园
邮箱订阅：草梅友仁的博客订阅

往期回顾

墨梅博客 1.7.0 发布与 AI 开发实践 | 2026 年第 9 周草梅周报 - 2026-03-01 23:22:02
墨梅博客 1.4.0 发布与开源动态 | 2026 年第 6 周草梅周报 - 2026-02-08 21:17:40
墨梅博客 1.3.0 发布与服务器数据备份教训 | 2026 年第 5 周草梅周报 - 2026-02-01 23:40:42

本文作者：草梅友仁
本文地址： https://blog.cmyr.ltd/archives/2026-10-caomei-weekly-openclaw-ai-assistant-test-momei-blog-update.html
版权声明：本文采用 CC BY-NC-SA 4.0 协议进行分发，转载请注明出处！

Kimi-Audio：开源音频基础模型的技术突破与应用前景

我爱自然语言处理

52nlp

2025年4月27日 14:59

近年来，随着大语言模型（LLM）的飞速发展，音频处理领域也迎来了革命性突破。近日，月之暗面（Moonshot AI）团队发布了Kimi-Audio，一款开源的音频基础模型，支持音频理解、生成与对话任务，并在多个基准测试中刷新了性能记录。本文将深入解读其技术报告，剖析其创新设计与应用价值。

一、为什么需要统一的音频基础模型？

音频是人类感知环境、情感表达和语言交流的重要媒介。然而，传统音频处理技术（如语音识别、语音合成）通常针对单一任务设计独立模型，存在以下问题：

任务孤立：不同模型之间无法共享知识，导致开发成本高；
数据瓶颈：高质量标注数据稀缺，模型泛化能力受限；
模态割裂：音频与文本的联合理解与生成能力不足。

Kimi-Audio的目标是构建一个通用音频基础模型，通过统一架构处理多种任务（如语音识别、音频问答、语音对话），同时开源代码与工具，推动社区共同发展。

二、核心技术亮点

1. 混合音频分词器：兼顾语义与声学细节

Kimi-Audio采用离散语义标记（12.5Hz）与连续声学向量结合的输入表示：

语义标记：基于ASR模型的向量量化层生成，聚焦内容信息；
声学向量：通过Whisper模型提取，捕捉音色、情感等细节。
两者叠加后输入音频LLM，平衡了语义理解与声学建模能力。

2. 双分支LLM架构：文本与音频联合生成

模型核心基于预训练LLM（Qwen2.5 7B）初始化，并扩展为双分支结构：

共享层：底层Transformer处理多模态输入；
文本分支：生成文本响应；
音频分支：预测离散语义标记，供反分词器生成语音。
这种设计保留了LLM的语言能力，同时新增音频生成功能。

3. 流式反分词器：低延迟高质量语音合成

反分词器采用流匹配（Flow Matching）技术，将语义标记转换为梅尔频谱，再通过BigVGAN生成波形。为解决分块生成时的边界问题，引入前瞻机制：

将当前块与未来4个标记拼接后生成，仅保留当前块结果；
训练时动态调整分块大小（0.5-3秒），平衡质量与延迟。

三、数据与训练策略

1. 预训练数据：1300万小时多模态音频

覆盖语音、音乐、环境音等场景，通过自动化流程处理：

语音增强：随机选择原始或降噪音频，保留环境信息；
分段与聚类：改进说话人分割算法，合并短片段；
多语言转录：Whisper生成英文文本，Paraformer处理中文。

2. 微调数据：300K小时任务导向数据

涵盖语音理解、对话、问答等任务：

语音理解：集成公开数据集（如LibriSpeech、AISHELL）与内部ASR数据；
语音对话：通过TTS系统生成多样化用户提问，固定助手音色；
音频到文本聊天：过滤复杂文本，转换为多轮对话格式。

3. 训练任务设计

单模态预训练：分别学习音频与文本分布；
跨模态对齐：ASR（音频→文本）与TTS（文本→音频）任务；
交替训练：音频与文本交替输入，增强模态融合能力。

四、性能表现：多项任务刷新SOTA

基于团队开发的评估工具包，Kimi-Audio在多个基准测试中表现卓越：

任务类型	数据集	Kimi-Audio性能	对比模型最佳性能
语音识别（WER↓）	LibriSpeech	1.28（test-clean）	Qwen2-Audio（1.74）
音频场景分类（ACC↑）	CochlScene	80.99	Qwen2.5-Omni（63.82）
语音情感识别（ACC↑）	MELD	59.13	Qwen2-Audio（51.23）
端到端语音对话	主观评测（5分制）	3.90	GPT-4o（4.06）

五、开源生态与生产部署

Kimi-Audio的全链路开源（代码、模型、评估工具）为社区提供了重要基础设施：

推理工具包：标准化评估协议，支持多模型公平对比；
生产架构：模块化设计（Tokenizer/LLM/Detokenizer服务），支持低延迟实时对话；
应用场景：智能助手、无障碍通信、多媒体内容生成等。

六、挑战与未来方向

尽管Kimi-Audio取得突破，音频AI仍面临挑战：

超越ASR/TTS依赖：当前模型依赖转录数据，需探索原生音频预训练；
更丰富的音频表示：融合内容与声学特征，提升细粒度控制能力；
多模态描述生成：联合文本描述与语音内容，理解复杂声学场景。

结语

Kimi-Audio的发布标志着通用音频智能迈出重要一步。其统一的架构设计、大规模数据训练与开源生态，为学术界与工业界提供了强大工具。未来，随着多模态技术的进一步融合，音频AI有望在医疗、教育、娱乐等领域创造更大价值。

项目地址：https://github.com/MoonshotAI/Kimi-Audio
评估工具：https://github.com/MoonshotAI/Kimi-Audio-Evalkit

附Kimi-Audio技术报告英中对照版，仅供学习参考：

Kimi-Audio技术报告英中对照版下载