阅读视图

发现新文章，点击刷新页面。

一句话，AI 直接给我建了个能跑能跳的「吉卜力」3D小镇

爱范儿

张子豪

2026年4月17日 17:50

这周的大模型热点除了 Anthropic 刚刚发布的 Opus 4.7，世界模型成了另一块角力的阵地。

短短几天内，AI 圈几乎是连珠炮式地发布了一系列重磅世界模型。

先是李飞飞的 World Labs 开源了 Spark 2.0，紧接着腾讯在昨天正式发布并开源了混元 3D 世界模型 2.0（HY-World 2.0）。

▲腾讯混元 3D 世界模型 2.0 体验地址：https://3d.hunyuan.tencent.com/sceneTo3D

阿里也马不停蹄，新成立的 ATH 旗下创新事业部团队，刚刚才官宣了 HappyHorse，立刻又发布世界模型 HappyOyster。

▲阿里 HappyOyster 官网截图：https://www.happyoyster.cn/

最容易忽略的还有英伟达 Lyra 2.0，没有发布会和新闻稿，旗下的空间智能实验室直接甩出一篇论文，「可探索的生成式 3D 世界。」

▲英伟达研究博客：https://research.nvidia.com/labs/sil/projects/lyra2/

这种密集程度让人产生一种错觉，那些生图生视频模型是不是都弱爆了。现在的 AI 已经从「生成一张图、一段视频」的平面阶段，大步来到「构建一个世界」的 3D 空间时代。

不仅技术端在狂飙，资本市场也给出了强烈的回应。

今天，群核科技正式登陆港交所。这家空间智能公司一直致力于推动 AI 进入物理世界。它的成功上市，标志着「世界模型第一股」的正式诞生，也向外界释放了一个明确信号：世界模型，真的开始火了。

而在热闹之余，我们也发现虽然这些公司都叫世界模型，但是路线完全不同，只能生成视频的像是一个 Demo 产品；能生成 3D 资产的看似可以融入开发设计的工作流；还有在论文里的未来工作畅想，希望用于机器人的训练。

目前，腾讯混元 3D 世界模型 2.0 已经开放了申请。我们第一时间进去体验了一波，试图从中找到一个答案：这些被认为是 AI 下一阶段的世界模型，到底能解决真实世界的哪些问题？

从看电影到开始游戏

此前我们聊世界模型，大多像在聊一个「更长、更懂物理规律、一致性保持更强的视频」。但这次体验混元 2.0，最直接的冲击力在于，它生成的不再是 MP4，而是真正的 3D 资产文件。

在体验中，我用简单的提示词输入了「吉卜力风格的山间小镇，黄昏」。在几分钟的计算后，出现在屏幕上的画面像是一个大世界游戏。

点击下载，混元 3D 提供了全景图、Splats 的 .spz 文件和 .ply 文件，以及 Collider mesh 一共四种 3D 资产文件格式。

四种文件类型涵盖了 Mesh（三角面片网格）、3DGS（3D 高斯泼溅）、点云等多种格式的 3D 资产文件，这些文件可以直接导入 Unity、Unreal Engine，游戏开发者拿到手之后可以继续编辑、调整、搭建关卡。

▲所生成的世界同样可以保存为全景图片，原图约 20MB。

在世界生成任务上，除了常见的文生世界，混元 3D 同样支持图生世界。我们找了一张《拯救计划》电影截图，Rocky 最后在波江座人给他搭建的世界里漫步，让混元来还原整个波江座。

▲由于电影截图里就有显示一个外壳包围着 Rocky 居住的海边，所以混元生成的世界也有一块「黑影」

当使用 Unsplash 上下载的高清雪山图片时，混元 3D 世界模型 2.0 生成的雪景，画质和真实感都更强。

▲全景图和导演模式下的角色漫游

无论是上传图片还是文字提示词，应用内都有相关的指引，例如上传的图片分辨率不能小于 512*512，避免画面出现人物，不要有动物/人物特写，避免使用纯色、纯纹理图片；以及天空、星空等画面占比较大图片也不适合等。

而文本提示词，最好是场景类别（沙漠、海面、房间等）+ 场景特征（物体、天空等视觉描述）+ 风格（可选，卡通/写实/油画风格等）。

混元 3D 世界模型 2.0 的风格化控制表现也很好，从官网已有的世界案例能看到，无论是温馨的绘本风还是写实的游戏风，它对语义的解析非常精准；墙壁的纹理、地牢的阴影和光感都极具沉浸感。

除了能生成可用的 3D 资产，混元 2.0 真正让我感到「世界」属性的，是它的角色模式。

现在我们可以直接操控一个角色在刚刚生成的场景里行走、加速、跳跃、转弯、探索，整个过程就像是在玩一个大世界游戏。同时，它自带物理碰撞，角色不会穿墙而过，也不会掉出地图边缘。

这种即刻生成、即刻可玩的体验，确实在模糊了 AI 生成与游戏引擎之间的边界，随着能生成世界的范围不断扩大，角色的探索或许会更有意思。

实时生世界时，我们能直接控制角色的行动，混元 3D 模型会自动生成对应的世界，单次生成的时长是一分钟。

对比之前的混元 3D 模型，这次的 2.0 版本在一句话/一张图生世界任务上，不仅支持下载 3D 资产文件，推出了全新的角色模式，而且在画面精细度和真实感方面，也从底层的模型架构进行了重新设计。

▲混元世界模型 2.0 多模态世界架构｜https://3d-models.hunyuan.tencent.com/world/

新的模型架构，打通了「理解、生成、重建」的闭环。

HY-Pano-2.0：不需要专业的相机参数，普通图片就能映射出 360° 全景。
空间 Agent 技术：像给 AI 装上了导航，它能智能规划漫游轨迹，确保护理和视觉上的衔接不会穿帮。
HY-WorldMirror 2.0：保证了即使是在大幅度的视角变换下，物体侧面和背面的完整度依然在线。

在世界重建任务上，混元世界模型 2.0 输入多张图或视频流，就能做到重建真实场景。

在过去，我们想要构建/重建一个可互动的 3D 世界，需要成体系的团队和数月的打磨；而现在，通过混元 2.0 这样的工具，只需要一个创意。

并且，这个创意，无论是以文字、图片还是视频的形式呈现，它都可以生成一个拖进 Unity 的原型，哪怕质量还需要调整，哪怕很多细节还要人工修改，但整个设计的工作流，AI 也开始在发力了。

疯狂的世界模型周，疯狂的 AI

当我们再把视线从混元 3D 世界模型 2.0 的资产生成、角色模式、世界重建，拉回本周连发的其他几个世界模型，我们会发现，这些不同在不同维度突围的世界模型，正共同拼凑出世界模型更明确的样子。

阿里 HappyOyster 目前还在主打漫游和导演模式，让我们用自然语言随时介入世界演化，改写剧情走向和角色动作。

英伟达 Lyra 2.0 用一张图就能生成长达 90 米的连贯 3D 环境，它生成的场景甚至能直接丢进 Isaac Sim 给机器人做物理训练。

李飞飞 Spark 2.0 打通「交付最后一公里」，前面那些模型都在解决怎么造世界，而 Spark 2.0 已经开始解决怎么给人看。它通过独创的流式加载和虚拟内存技术，把上亿个 3DGS 粒子的超大世界，硬生生塞进了普通手机的网页浏览器里。

▲World Lab 生成界面，提示词：吉卜力风格的山间小镇，黄昏

看着这些各显神通的世界模型界面，一个现实的结论是：很明显，世界模型还没迎来它的 ChatGPT 时刻。

四家公司这一周的密集发布更像是在为这个时刻做准备，画面质量、交互能力、资产格式、交付方式、仿真精度，每个都在朝着自己的方向优化。但把这些块拼成一个「让普通人愿意每天打开」的产品，还没有模型做到。

在过去两年里，随着 AI Coding 重塑代码开发、Nano Banana 等模型颠覆平面设计，前端工程师和平面设计师们已经经历了「xxx is DEAD」。现在，这朵雪花大概是要飘到 3D 设计的护城河上。

随着更多模型厂商的下场，3D 设计的工作流也会慢慢从 AI 辅助走向 AI 主导。到那时，生成并体验一个 3D 互动世界，将会像今天我们在手机上刷短视频一样流畅、低成本且理所当然。

毕竟，在所有的科幻叙事里，没有任何人会抗拒自己成为「造物主」，去自定义一个新世界。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

刚刚，阿里ATH事业群甩出王炸「悟空」！企业级正规军下场，龙虾们这次真要炸了

爱范儿

张子豪

2026年3月17日 12:43

昨晚，阿里巴巴突然宣布成立 Alibaba Token Hub（ATH）事业群，CEO 吴泳铭直接负责，这可能是阿里在 AI 时代最重要的一次组织架构调整。

Token ，AI 时代的通用货币。

吴泳铭的逻辑是：未来大量数字化工作将由「数以百亿计的 AI Agent」支撑运行，而这些 Agent 的运行，由模型产生的 Token 驱动。

创造 Token、输送 Token、应用 Token，这将是阿里新的的主线。

其中内部信中还有一个首次出现在公众视野里的名字：悟空事业部。官方对悟空事业部的定位是：「打造 B 端 AI 原生工作平台，将模型能力深度融入企业工作流。」

也就是说原来的钉钉，被提到了一个更核心的战略位置，和千问一起分别在 B 端和 C 端承载阿里 AI 的目标。

这次发布会，悟空事业部交出了成立以来的第一份作业—— AI toB 旗舰应用「悟空 WuKong」，这也是首个以企业智能体为核心的 AI 原生工作平台。

这是ATH 事业群成立第二天，阿里巴巴集团 CEO 吴泳铭也出现在今天的「悟空」发布会现场。

最近在「养龙虾」席卷社交媒体后，每个人或多或少都感受到发现 AI 真的能操控电脑、帮你干活。

然而也便随这混乱，龙虾删邮件停不下来，敏感数据被 AI 随意读取，公司 IT 部门一句「这东西不合规」，大多数企业用户就此止步。

AI Agent 走到了哪一步，能不能广泛使用，还只是个技术问题。企业组织敢不敢用，才是真正的问题。

APPSO 在现场给大家快速梳理了这场发布会的要点：

悟空 WuKong：全球首个以企业智能体为核心、更安全、商业可交付的 AI 原生工作平台
首创 AI 原生文件系统 Real Doc：每一步操作可追溯可回退
钉钉全面 CLI 化：重写底层代码，给 AI 造了一套原生操作语言，可以 CLI 原生安全地访问钉钉应用和数据
十大 OPT 行业方案：一人电商、一人门店、一人知识博主……Skill 即生产力
AI 能力市场：企业级 Skill 生态完整体系上线，全部纳入统一的安全扫描和分级管控体系
AI 硬件：A1 Pro 录音卡 + Cleer H1 AI 耳机首亮相
原生级企业安全架构：底层沙箱隔离与全链路审计，让企业真正敢用 AI

钉钉为 AI 打造钉钉

在理解悟空之前，先要消除一个刻板印象，它绝对不是「钉钉加了一个 AI 对话框」。这句话值得重复一遍——悟空不是钉钉加了一个 AI 功能。

过去两年，我们见过太多「产品加 AI」的案例：Word 加了 Copilot，微信加了元宝，网页端加了摘要按钮。这类产品的逻辑是：原有功能不动，AI 作为辅助层叠加在上面，帮你写写文字、润色润色、总结一下。

悟空的逻辑完全不同。

悟空是一个以企业智能体为核心的 AI 原生工作平台。它能操作我们的电脑、编辑本地文件、调用桌面应用程序、连接钉钉文档 / 审批 / 日程 / 听记等全系产品。

当你对悟空说：「帮我把上周所有客户拜访的记录整理成周报，发给张总确认一下」。

悟空不会给你写一份模板然后让你自己填，它会直接打开你电脑上的拜访记录文件夹，读取每一份记录，生成周报，保存到指定位置，然后在钉钉里发给张总发起审批。

全程，你只说了一句话。

更关键的是：手机可以远程指挥悟空唤起本地环境完成工作。不需要坐在电脑前。出门见客户的路上，发一条消息，悟空在家帮你把活干完。

这是「本地执行 + 远程可控」的 Agent 工作架构，也是悟空正在定义的新工作方式——说一句话，就能干活。

▲体验网址：https://www.dingtalk.com/wukong

悟空与 OpenClaw：解同一道题，用的是不同答卷

很多人的第一反应：这不就是「中国版 OpenClaw」吗？

表面看都在让 AI 操作电脑，但两者的关系，更接近「Linux 的开源社区」和「Red Hat 企业版」，底层技术同源兼容，但面向的战场完全不同。

OpenClaw 证明了 AI Agent 可以操控电脑这个概念，它依赖「视觉模拟」和操作系统原生命令行，让 AI 像人一样看屏幕、点鼠标。这套方案很酷，但也很脆弱，毕竟界面一更新，命令一修改，整个流程就可能崩掉。

更要命的是，OpenClaw 在本地运行时，几乎拥有与用户完全相同的系统权限。理论上，一台实习生电脑上的 OpenClaw，可以读取他不该看到的任何数据。安全机构已发现其技能市场存在数百个恶意程序，Gartner 将其企业部署评级为「不可接受的网络安全风险」。

OpenClaw 是 Agent 的「Linux 时刻」——开源、自由、极客驱动、生态繁荣，但没有企业敢直接用。

悟空要解的题不一样：兼容开源生态的全部 Skill 能力，同时从架构层面把安全内建进去，而非事后打补丁。

统一企业身份认证、专属沙箱隔离、网络代理管控、全链路审计日志——每一层安全都在回答同一个问题：让 IT 部门敢拍板，让 CEO 敢买单。

这是 Enterprise Agent 和「开源 Agent 框架」的本质差距。

钉钉 CEO 无招在发布会现场表示，「今天，我们把钉钉打碎，用 AI 重建，炼出悟空。过去是人用钉钉来工作，未来是 AI 用钉钉来工作。和市面上所有的龙虾 Agent 不一样，悟空天然就长在企业组织中，可以在真实的企业环境中安全使用。」

CLI 化：给 AI 造一套原生操作语言

要理解悟空为什么「真的能干活」，关键是它有一套让 AI 能「听懂」软件的语言。

过去，几乎所有的 AI Agent 都在试图模拟人类的键鼠操作。这就像是蒙着眼睛，靠别人在旁边喊「往左一点，点击」来用电脑，不仅极度低效，而且极其容易出错。

为了让悟空真正能「干活」，钉钉做了一个相当疯狂的决定：所有底层代码重写了一遍。

他们将整个钉钉的既有能力体系全面 CLI 化（Command-line Interface，命令行界面），所谓 CLI 化，就是把钉钉从一个「给人用的图形界面」，变成一个「给 AI 用的命令行接口」。

AI 不再需要「看懂」按钮在哪里，而是直接通过标准化指令调用能力，这相当于给 AI 装上了神经末梢。

其中，包括文档、日程、审批、会议甚至 AI 表格，所有的钉钉产品，全部重写为标准的 CLI 指令。

这意味着，悟空不再需要像人类一样去「点击」按钮，而是通过原生指令，直接调用钉钉的一切能力和数据。

不仅是钉钉应用，阿里集团旗下的淘宝、天猫、支付宝、阿里云等核心业务能力，也将逐步作为 Skill 接入悟空。悟空，正在成为整个阿里巴巴 AI 能力在企业工作场景的统一出口。

当用户说「帮我整理下周的客户拜访记录并生成周报」，悟空不是「看懂」这句话，而是直接触发一系列 CLI 指令：调取日程 API → 抓取 CRM 数据 → 运行听记解析 → 写入文档 → 发起审批流。全程没有模拟点击，没有视觉识别，只有机器对机器的精准调用。

这个逻辑，在行业报告「未来属于智能体：万亿 AI 正在重新定义软件」里有一段话说得非常准确：

你构建的一切都必须是 API 优先的。如果一个功能没有 API，它就相当于不存在。如果不能通过 CLI 或 MCP 服务器暴露，你就是处于劣势。

换言之：在 AI 智能体成为软件「主要用户」的时代，不能被 AI 原生调用的软件，等于不存在。

▲图片来源：X@karpathy

钉钉理解了这个逻辑，所以选择了极其昂贵的方式——重写服务全球 8 亿用户、2700 万家企业的产品底层。钉钉全面 CLI 化之后，Agent 才能从「能聊天」变成「能干活」。

Realdoc，AI 终于有了原生的文件操作语言

但 CLI 化只解决了「AI 能不能调用钉钉」的问题。还有一个更底层、常被忽视的问题——AI 怎么操作文件？

目前市面上几乎没有 AI Agent 产品专门为 AI 设计过文件系统。所有人都在用传统文件系统凑合，结果是什么？

AI 要改一份文档里的一个词，必须先把整篇文档读进内存，改完再整篇写回去。就像改一本书里的一个错别字，却要把整本书重新抄一遍——荒诞，但这就是现实。

这带来三个连锁问题。

第一是 Token 爆炸，每次操作都吞进整篇文档，成本直线飙升，有用户实测用 AI 制作一个 PPT，消耗了 2.7 亿 Token，约合 500 美元。

第二是无法回退，AI 覆盖写入即生效，改坏了没有存档可以回溯，只能从头再来；

最后是文件失控，Agent 随机创建文件，企业根本不知道 AI 在哪里生成了什么，散落的结果是既找不到，也管不住。

悟空为此专门从零搭建了一套 AI 原生文件系统 Realdoc，这是行业首次，有人专门为 AI 重新设计一套文件操作语言。

在 Real Doc 里，悟空可以像外科医生一样，按行号、按关键词定位，只动需要动的地方，其他内容一字不碰。Token 消耗大幅压缩，不再因为改一个词而把整篇文档走一遍。

更关键的是版本管理。AI 每执行一步操作，Realdoc 自动保存完整快照——就像游戏里的自动存档点，每一步操作都有记录，可随时退回任意版本，还能自动对比两个快照之间的 Diff，精确到每一行的变动。

还有文件归宿的问题。Realdoc 为每个 AI Agent 分配独立的云端工作空间，AI 产出的每一份文件都有「户口」——存在哪里、谁创建的、哪个 Agent 在什么时候改过，企业管理者一目了然。

到这里，悟空做出了大多数企业级产品还没意识到的改变：不再让 AI 套用到现有工具中，要为 AI 重新造一套工具。

悟空首发十个 OPT Skills 套件，钉钉原生协同

如果说 CLI 化解决了「AI 如何干活」，那么接下来的问题是：AI 该干哪些活，谁来告诉它怎么干？

答案是：Skill。

Skill 是悟空的最小生产力单元——一个封装了行业专家 SOP、可直接调用的能力模块。我们不需要懂 AI，不需要写 Prompt，一键启用，AI 团队立刻就位。

这不是一个新概念，但悟空把它推向了一个全新的量级。

悟空首批推出十大行业 OPT（One Person Team，一人团队）技能套件，覆盖一人电商、跨境电商、知识类博主、开发、门店、设计、制造、法律、财税、猎头十大场景。每个行业包预置了若干串联 Skill，把过去需要团队协作才能完成的工作流，压缩成一个人可以独立驾驭的操作序列。

以跨境电商为例。过去，一个店主每天要在亚马逊上找爆款，去 1688 上比价，跟供应商确认库存，再想破头优化商品描述，一个人能管三个品就是极限。

现在接入悟空 OPT 方案后，「选品雷达」每天定时抓取亚马逊热榜数据写入 AI 表格；发现爆款后，「AI 找同款」瞬间完成国内供应链匹配；直接确认样品、生成产品描述、输出视频脚本，都有行业级的 Skills 辅助。从发现需求到供应链跟进，一个人用一个下午，干完了一个小团队一周的活。

「一人门店」的场景更让人感慨。街边的汽修店、美甲店老板，白天忙服务，晚上还要强打精神刷小红书学竞品写文案。现在，同样是多个 Skill 串联，AI 自动监控同行爆款，提炼出可复用的创作模板，自动生成原生网感文案并发布，甚至能 7×24 小时智能回复客户私信。

「当一个店主用 AI 运营账号的质量，比竞争对手请的代运营公司还好时——这件事就不只是效率提升了。这是小微门店生存逻辑的重写。」

这正是 Skill 即生产力的核心逻辑：把行业专家的隐性经验，变成人人可调用的标准化能力。Skill 不只是提高效率，它在重新分配能力——让不具备专业背景的人，也能获得专业级的产出。

这个逻辑的更大野心，体现在钉钉同步上线的 AI 能力市场。

Anthropic 推出 Claude Skills 开放标准后，微软、OpenAI、Cursor 等巨头迅速跟进。行业共识正在形成：下一阶段的竞争，不是「谁的模型更强」，而是「谁的 Skill 生态更完整」。

钉钉 AI 能力市场覆盖 Skill、Agent、Service 完整体系，从开发、审核、上架、分发到管理，全链路打通。

企业可以把资深员工的方法论固化成私有 Skill，彻底摆脱人才流失的阵痛；开源社区里数千个现成的能力，也能在企业级安全架构下被随时调用。

这是悟空最有想象力的部分，它在搭建 AI 时代的生产力基础设施——Skill 是这套基础设施里流通的「货币」，谁掌握更多高质量的 Skill，谁就掌握了 AI 时代更大的生产力。

AI 新硬件

除了软件，在这场发布会上，钉钉还发布了多款 AI 硬件。

DingTalk A1 Pro：录音卡形态，专为会议和工作场景设计，支持多麦克风阵列拾音，AI 实时转录、翻译、摘要，把「开完会还要整理纪要」的低效循环彻底斩断。

Cleer H1 AI 耳机：钉钉与 Cleer 联名推出，首款与悟空深度联动的 AI 耳机。戴上耳机，语音即可直接与悟空对话下达指令，无需打开屏幕，从而实现真正的「所想即所达」。

更值得关注的是 Real AI 硬件（Realbox）：搭载 1 台 PC 环境 + 5 台手机环境，支持多人共用、多并发任务处理。企业部署一台 Realbox，可以同时为多个员工运行多个悟空实例；部署多台 Realbox，可构建 AI 计算机集群，任务并行处理，弹性扩展。

不难看出，钉钉这些 AI 硬件并不是独立存在市面上的同类产品抢夺市场，核心都是为了更好地打通 AI 工作流，成为软硬一体的 AI 原生工作平台。

OpenClaw 跑在一台电脑上，做一台电脑能做的事；悟空搭载 Realbox 集群，正式宣告：AI 算力，可以像水电一样，以基础设施的形式在企业内部流通了。

AI 时代的组织生产力

在观看这场发布会时，我想起前段时间 Sam Altman 在采访中提到的观点：「历史上第一家由一个人独立运营的十亿美元公司，即将出现。」

彼时龙虾还没火爆，一人团队（OPT）的概念也只是在 AI 圈子里。他没有解释这个人会用什么工具，会在哪里，会干哪个行业。但看完这场发布会，这句话变得具体了一些。

这个人，大概率会有一套像悟空这样的东西在身边。过去十一年，钉钉一直在让人学会用工具。悟空想做的，是逐渐让工具真正学会理解人。

当工具开始理解人，一件以前不可能的事情正在变得可能：组织生产力，第一次可以真正被数字化封装、分发和扩展。当 Skill 把行业专家的经验变成人人可调用的能力货币，当 AI 原生平台成为个体接入组织能力的操作系统，一个人或组织能做的事情的边界，将被彻底重新定义。

Sam Altman 看到的是「一人公司」这个终点，悟空要做的，是让更多普通人有机会走到那条路上。它不是专门为天才准备的工具，而是为所有「想做更多但苦于一个人精力有限」的人，提供一套 AI 时代的组织生产力基础设施。

AI 原生工作平台，正在成为这个时代最关键的组织变量。谁先跑通它，谁就先拿到了超级个体时代的入场券。

之前有一个观点，燃烧 Token 的速度，决定了人的进化速度。而悟空的 1.0 版本，指向的就是人和组织进化的下一个版本。

文｜李超凡

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

面试经历 – 阿里国际后端开发校招

HikariLan's Blog

贺兰星辰

2025年6月12日 19:16

于 2025/6/12 进行的为时 26 分钟的面试，淘宝的国际化部门，为电话面。把简历简单问了一遍就结束了，因为是电话面所以也没有算法部分。面试反馈也挺好，说后面还有两轮技术面。不过我有点担心会卡我学历之类的（本来说加我微信的，但是截至发稿日还没有动静）。以下是面经：更新：后续约二面后当天面试官未赴约，当晚流程直接结束。

来源