普通视图

发现新文章,点击刷新页面。
昨天以前jax - 走在路上

春节期间我做了个 Agent 客户端:TurboClaw

作者 jaxli
2026年2月24日 12:34

正月初八,开工大吉!

Claude Code 发布正好一周年了。

这一年,CLI Agent 帮我们搞定了不少 coding 和系统维护工作。

直到上个月 OpenClaw 爆火,我们正式进入了个人 Agent 时代。

但说实话,OpenClaw 使用门槛有点高。

安装部署麻烦,用起来也偏技术,普通人根本玩不转。

春节期间突发奇想,我就做了这个东西。

图片

TurboClaw 是什么

TurboClaw 是最新的个人 Agent 客户端。

说白点,把用 OpenClaw 类 Agent 的门槛直接降到 0。

安装包只有 10MB,下载就能用。

自带免费基础模型,不用配置大模型 API Key 也能跑。

内置实用热门skills,开箱即用。

图片

能干什么

本地文件访问、编辑、整理、系统级命令行权限,这些都有。

你可以用它整理桌面、清理缓存、操作任意文件夹。

它支持个性定制、长期记忆、主动性的心跳机制、定时任务。

多会话管理、多模型、多语言,也都支持。

最爽的是,可以用你熟悉的聊天 App 随身控制。

图片

接入聊天软件

Telegram、Discord、飞书、钉钉、QQ,这些消息应用都支持。

设置里填个 Token 或 App ID,就能开启远程控制模式,立即拥有随时待命的AI同(niu)事(ma)。

新手友好,连 @BotFather 创建机器人都有提示。


模型选择

支持 Zhipu(智谱)、OpenAI、Anthropic、DeepSeek、OpenRouter 这些主流供应商。

默认内置 glm-4.7-flash,开箱就能免费体验。


下载使用

目前只支持 Apple Silicon 的 Mac。

下载地址:https://github.com/aooyoo/TurboClaw/releases/tag/v1.0.0(点击阅读原文直接前往)

安装很简单,双击解压,把 app 拖到应用程序文件夹就行。

首次打开如果提示「无法验证开发者」,点击「完成」后到系统设置-隐私与安全性中选「仍要打开」就行。


源码开源

源码我也开源了:https://github.com/aooyoo/TurboClaw

有问题或者有功能建议,欢迎交流。

10分钟上手 Clawdbot/Moltbot/OpenClaw:需要给它配备个电脑的AI Agent

作者 jaxli
2026年1月27日 23:30

在本文截稿时,Clawdbot官方已经宣布更名为MoltBot,如果接下来你在其它地方看到MoltBot,那也是它。

前言:这两天它太火了,不用焦虑,先看看我的体验

上个月在 X 上就刷到过 Clawdbot 的讨论,那时候 Claude Cowork 都还没出。

说实话,第一眼看到这个项目时,我有点怀疑:又是哪个轮子?

真正让我决定试试的,是 Youtube 上看到一个硅谷的博主推荐,他专门买了个mac mini来跑。

于是我在一台老 Intel MacBook 上装了 Clawdbot。(先说,不用另买mac mini,老mac/vps/树莓派/WSL2都行。至于为什么不推荐在主力电脑上安装,主要是因为它权限太高,容易把你的工作环境弄坏。)

然后就开始踩坑。

官方的安装命令在 macOS 11.7 上直接编译失败,Node.js 依赖各种报错。折腾了一晚上,最后手动装了 nvm 和 Node.js 22.0 搞定。

如果你也遇到了同样的问题,直接跳到「安装前准备」那一节,我写了详细的解决方案。

装完之后,我真香了。


一、Clawdbot 到底是什么?

Clawdbot 本质上是一个基于 CLI 的桌面 Agent,但它打通了 Telegram、WhatsApp 这些消息服务。

啥意思呢?

你可以在手机上给 Telegram 发一条消息,家里的电脑就开始干活了。

和 Claude Code 的核心区别:

特性ClawdbotClaude Code
消息集成✅ Telegram/WhatsApp/Discord等❌
远程控制✅ 随时随地❌ 只能本地
记忆系统✅ 改进版会话级
本地权限✅ 更多受限/请求授权
费用✅ 使用现有订阅(ChatGPT/GLM等)Cowork 需会员

说白了,它就是一个「随时能联系上的 AI 助手」。


二、安装前准备(重要!)

前置要求

  • Node.js >= 22(注意版本!
  • macOS / Linux / Windows (WSL2)

⚠ 常见坑:Node.js 版本问题

如果你用的是老版本 macOS(11.7 或更早),官方安装命令大概率会失败。

我的报错是这样的:

gyp ERR! build error
gyp ERR! stack Error: `make` failed with exit code: 2

解决方案:手动安装 Node.js 22

# 1. 安装 nvm
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.0/install.sh | bash
 
# 2. 重新加载终端配置
source ~/.bashrc  # 或者 source ~/.zshrc
 
# 3. 安装 Node.js 22
nvm install 22
nvm use 22
 
# 4. 验证版本
node --version  # 应该显示 v22.x.x

为啥不用官方的 Node.js 安装包?

因为老版本 macOS 上,某些原生依赖编译不过。官方安装包24+在老版本上也不支持。nvm 会下载预编译的二进制文件,直接绕过这个问题。


三、快速安装(10 分钟)

官方安装命令

curl -fsSL https://clawd.bot/install.sh | bash

或者用 npm:

npm install -g clawdbot@latest

Windows 用户(PowerShell):

iwr -useb https://clawd.bot/install.ps1 | iex

验证安装

clawdbot --version

如果能看到版本号,说明安装成功了。


四、配置向导(3 分钟)

Clawdbot 提供了一个 onboarding wizard,会一步步引导你配置:

clawdbot onboard --install-daemon

向导会让你选择:

1. Gateway 模式

  • Local(推荐):Gateway 运行在本机,适合个人使用
  • Remote:Gateway 运行在远程服务器,适合 24/7 运行

2. 模型和授权

  • OpenAI OAuth(推荐):登录 ChatGPT 授权即可
  • API Key:使用自己的 API Key(支持 OpenAI/Anthropic/其他)

我用的是 GPT-4,直接用 ChatGPT 登录授权就行。

3. 消息渠道配置

  • WhatsApp:扫码登录(类似微信网页版)
  • Telegram:创建 Bot 并输入 Token
  • Discord:创建 Bot 并输入 Token

强烈推荐先用 Telegram 试手,因为配置最简单。

4. 后台服务

向导会问你要不要安装后台服务(launchd/systemd),建议选 Yes

这样 Clawdbot 会开机自启动,不用每次手动运行。


五、连接 Telegram(核心功能)

第一步:创建 Telegram Bot

  1. 在 Telegram 里搜索 @BotFather
  2. 发送 /newbot
  3. 按提示输入 Bot 名称(比如 MyClawdbot
  4. BotFather 会给你一个 Token,类似这样:
1234567890:ABCdefGHIjklMNOpqrsTUVwxyz

复制这个 Token,一会要用。

第二步:在 Clawdbot 中配置

如果你用了 onboarding wizard,直接在向导里输入 Token 就行了,超简单。

如果已经完成了向导,想手动加一个 Telegram Bot,可以这样:

# 编辑配置文件
nano ~/.clawdbot/clawdbot.json

添加 Telegram 配置:

{
  "channels": {
    "telegram": {
      "token": "你的_Bot_Token"
    }
  }
}

第三步:启动 Gateway

clawdbot gateway --port 18789 --verbose

如果安装了后台服务,Gateway 应该已经在运行了。可以用这个命令检查:

clawdbot status

第四步:第一次对话

  1. 在 Telegram 里搜索你刚创建的 Bot
  2. 发送任意消息,比如 hello

重点来了:第一次对话会返回一个 pairing code(配对码)。

别慌,这是正常的。Clawdbot 默认开启安全模式,陌生 DM 需要手动批准。

批准配对:

clawdbot pairing approve telegram <配对码>

然后你再发一条消息,Bot 就会正常回复了。


六、验证和使用

检查状态

# 查看 Gateway 状态
clawdbot status
 
# 健康检查
clawdbot health
 
# 安全审计
clawdbot security audit --deep

打开 Dashboard

Clawdbot 提供了一个 Web 控制面板:

clawdbot dashboard

然后在浏览器打开 http://127.0.0.1:18789/

你可以在 Dashboard 里:

  • 查看所有会话
  • 发送测试消息
  • 配置 Agent
  • 查看日志

远程控制

现在你可以:

在手机上给 Telegram Bot 发消息:

帮我看看 ~/Documents 里有什么文件

家里的电脑就会执行这个命令,然后把结果发回给你。

这太爽了。


七、实用技巧

1. 保持 Gateway 持续运行

如果你用的是 macOS,后台服务会自动管理。

如果想手动启动:

# 前台运行(调试用)
clawdbot gateway --verbose
 
# 后台运行
clawdbot gateway --daemon

2. 查看日志

# 实时查看日志
tail -f /tmp/clawdbot/gateway.log
 
# 或者用 clawdbot 命令
clawdbot logs --follow

3. 配置文件位置(记一下,有用)

  • 主配置~/.clawdbot/clawdbot.json
  • 工作区~/clawd(存放你的 skills、prompts、memories)
  • 凭证~/.clawdbot/credentials/
  • 会话历史~/.clawdbot/agents/<agentId>/sessions/

4. 更新 Clawdbot

# 如果你用的是安装脚本
curl -fsSL https://clawd.bot/install.sh | bash
 
# 如果你用的是 npm
npm update -g clawdbot@latest

八、常见问题

Q1: Telegram Bot 不回复?

原因 1:没批准配对码(最常见)

clawdbot pairing list telegram
clawdbot pairing approve telegram <配对码>

原因 2:Gateway 没运行

clawdbot status
# 如果显示 "stopped",启动它
clawdbot gateway --daemon

原因 3:没配置模型授权

clawdbot onboard  # 重新配置模型和授权

Q2: 如何更换模型?

编辑配置文件:

nano ~/.clawdbot/clawdbot.json

修改模型配置:

{
  "models": {
    "defaults": {
      "provider": "openai",
      "model": "gpt-5.2"  // 或其他模型
    }
  }
}

然后重启 Gateway:

clawdbot gateway restart

Q3: 能同时在多个渠道用吗?

可以。

Clawdbot 支持同时连接 WhatsApp、Telegram、Discord 等多个渠道,想配几个配几个。

配置方式都和 Telegram 类似,在 onboarding wizard 里依次配置就行了。


九、为什么我现在介绍它?

和 Claude Code 对比

场景ClawdbotClaude Code
远程任务✅ 手机随时发任务❌ 必须在电脑前
24/7 待命✅ 家里电脑一直开着❌ 同上
消息集成✅ Telegram/WhatsApp❌
编程能力✅ 完整文件操作✅ 同样强大
Skills 生态✅ 兼容 MCP✅ 更成熟

我的结论:

  • 如果你主要在电脑前用 Claude Code,继续用就行
  • 如果你需要远程控制随时发任务,Clawdbot 更香

和豆包手机对比

这是两个不同的技术路线:

Clawdbot豆包手机
路线CLI AgentGUI Agent
操作方式命令行图形界面
适用场景开发者、系统操作普通用户、手机操作

它们不是竞争关系,而是互补。

我相信未来会出现两者结合的方案。


十、适合谁用?

✅ 推荐人群

  1. 需要远程控制电脑的开发者
    • 随时随地查看服务器状态
    • 手机上发任务,家里电脑执行
  2. 重度 Telegram/WhatsApp 用户
    • 喜欢在聊天软件里直接操作
    • 不想切换到专门的 AI 应用
  3. 对 Claude Code 的限制不满的人
    • Cowork 要付费
    • 想要更多本地权限
    • 需要更好的记忆系统
  4. 喜欢折腾的技术爱好者
    • 愿意花时间配置
    • 想要完全掌控自己的 AI 助手

❌ 不推荐人群

  1. 完全不熟悉命令行的用户
    • 虽然有向导,但还是需要一点 CLI 知识
    • 可以先学学命令行基础
  2. 只需要偶尔用 AI 的人
    • 如果只是偶尔问问题,ChatGPT 网页版就够了,别折腾
    • 够用就好
  3. 对隐私极度敏感的人
    • Clawdbot 需要授权访问文件系统
    • 虽然是本地运行,但如果你很在意这个,要考虑清楚
    • 安全第一

十一、最后:我的真实体验

装好 Clawdbot 之后,我最大的感受是:

随时能联系上的 AI,真的不一样。不是一点点的不同,是「完全不同物种」的那种不一样。

以前用 Claude Code,我得:

  1. 打开电脑(如果电脑没开的话)
  2. 打开终端
  3. 输入命令
  4. 等结果

现在用 Clawdbot:

  1. 掏出手机,Telegram 发一条消息
  2. 该干嘛干嘛,等它干完活通知我

体验完全不同。

听起来好像差别不大?

但你试过在外面突然想起来「哎呀,家里有个脚本没跑」,掏出手机就能操作,就知道有多爽了。

而且它本身完全开源且免费,用你现有的AI订阅连接上即可。

如果你之前对 Claude Code、Claude Cowork 又爱又恨,那 Clawdbot 值得认真试一试。


十二、快速开始

安装(10 分钟左右,需要本地编译依赖):

curl -fsSL https://clawd.bot/install.sh | bash

配置向导(3 分钟):

clawdbot onboard --install-daemon

启动 Gateway:

clawdbot gateway --daemon

然后在 Telegram 上给你的 Bot 发第一条消息。

试试看,你会有惊喜。


参考资源

  • 官方文档:https://docs.clawd.bot/
  • GitHub 仓库:https://github.com/clawdbot/clawdbot
  • Reddit 讨论:Clawdbot: the full setup in 30 minutes
  • Medium 教程:How to Set Up Clawdbot

作者的话:这篇文章是基于我的真实安装经历写的。如果你在安装过程中遇到问题,欢迎在评论区交流。

2025年的碎碎念

作者 jaxli
2026年1月16日 23:50

年更文来啦,2025年的合集——

今年因为有了更好的AI,做了更多事情。可以称为Agent元年了,助手们都升级成了Agent:ChatGPT、Gemini+NotebookLM、Claude Code、Manus。

今年,做了近30个大大小小的demo,去复现、去学习、去思考创新。

今年,写了52期AI大模型动态周报,完成了又一年的AI编年史。

1月

2025-01-02 13:05:12
芒果tv app竟然没有湖南卫视直播

2025-01-05 14:09:01
闪念胶囊AI版

2025-01-07 18:58:57
Time Machine用移动硬盘,就老是要忘记备份

2025-01-08 11:32:51
飞书的会议后智能纪要和近期会议总结,完全就是AI秘书了,秒杀实习生……

2025-01-10 14:29:31
微信啥时候能支持会话分组啊,现在要变相实现的话只能把工作群全丢到折叠的群聊里

2025-01-11 09:43:03
ICS、纪实人文、七彩戏剧三个频道停播,在东方有线和电信IPTV被直接跳过,看看新闻把ICS直播替换为了ShanghaiEye,纪实人文替换为了新纪实(轮播东方卫视制作的纪录片)

2025-01-11 21:21:42
飞机两个黑匣子数据可以实时流式传输到服务器备份,航班执行完成后则删除

2025-01-11 21:25:05
五星体育广播、KFM981、浦江之声广播三套广播频率停播

2025-01-12 13:22:50
#nowplaying 许卿安 – 周深

2025-01-13 09:51:19
摸鱼神器:https://iwoso.co/hotnews

2025-01-14 16:39:47
Ollama几乎可以让任何8GB及以上内存的PC变成AI PC

2025-01-19 00:40:56
凌晨12点的宝安机场就跟晚高峰一样🤪

2025-01-19 00:43:22
原来开启了面容锁的app,桌面小组件也会被删掉/无法添加(合理但好像少了提示

2025-01-20 01:00:46
有人在小红书评论区写了一句hack prompt,大模型翻译时遵循了这句prompt😂

2025-01-21 19:57:47
今天热到什么程度呢?就是在餐厅吃饭脱了外套,然后走的时候走出来很远了,都没有发现外套忘了带。

2025-01-24 14:23:40
ChatGPT Operator的演示中用到的服务都是web的(browser use),湾区生活中的主流服务,包括opentable、instacart、stubhub、thumbtack、doordash,没有演示跨服务的操作。

2025-01-24 14:28:57
https://www.youtube.com/watch?v=CSE77wAdDLg

2025-01-26 12:57:28
DeepSeek-R1已经被Ollama放在首页第二位推荐了

2025-01-26 13:19:33
DeepSeek官方线上版本比开源的效果好,本地跑的7b的版本我觉得不如qwen2.5,可能要更大参数,但我设备性能不够了

2025-01-27 18:15:06
过年期间亲戚聊天内容来自大家平时刷的短视频😳

2025-01-28 23:53:03
春晚直播信号版本:高清、超高清HDR、竖屏、听觉无障碍、视觉无障碍、CGTN版
春晚视频号:竖屏+后台
春晚小红书:大家的春晚

2025-01-30 16:08:39
过年期间给不方便科学上网的朋友按头安利了DeepSeek

2月

2025-02-01 09:33:32
测试了两道此前仅有r1和o1做对的数学题,免费的o3-mini都做对了,且推理速度和输出速度极快!真卷啊

2025-02-02 07:39:41
siliconflow在华为昇腾芯片的集群上部署了deepseek-r1推理服务!

2025-02-03 10:38:28
https://www.setn.com/News.aspx?NewsID=1603533

2025-02-03 12:46:16
在飞机上读paper,配合本地LLM可以轻松翻译加查询讨论

2025-02-03 14:56:00
sam altman正在东京跟孙正义对谈。今天早上OpenAI宣布的Deep Research也是在东京办公室发布的。

2025-02-05 14:20:53
除了openwebui,Enchanted客户端是mac上最好的ollama UI

2025-02-06 17:11:12
16G内存的mbp,本地部署ds有两种方案:
1、Ollama + deepseek-r1:14b + chat app,chat app推荐CherryStudio
2、LM Studio + deepseek-r1:7b去审查版gguf模型

2025-02-06 23:24:06
哪吒2的第一出品方是成都的公司,导演也是四川人

2025-02-07 08:49:42
GTA6今秋发布 https://a.jump-game.com/wapp/p/537313

2025-02-07 14:18:46
看完哪吒2,想起《十万个冷笑话》,又翻出来看了一遍,真是经典啊 https://www.bilibili.com/bangumi/play/ep12087/

2025-02-09 11:28:48
微博b站抖音毛象都能多点登录,小红书还不能

2025-02-09 15:18:06
Deepsex 离谱 https://huggingface.co/spaces/ValueFX9507/Tifa-Deepsex-Cot-14B

2025-02-10 14:41:05
双流T1翻新完毕,2月24日恢复运营,成都再次回到两场4航站楼1卫星厅

2025-02-10 14:43:08
https://unsloth.ai/blog/r1-reasoning

2025-02-11 11:59:02
https://www.bbc.com/zhongwen/articles/cgmyp4dpykzo/simp

2025-02-12 18:27:13
huggingface上这么多model的下载量,带宽得多大。。

2025-02-12 19:07:59
https://www.bilibili.com/video/BV1bnNDeFELK/
https://www.xiaoyuzhoufm.com/episode/67a1b697247d51713c868367

2025-02-13 19:11:36
哪吒2突破百亿票房

2025-02-13 22:14:31
【大神Andrej Karpathy最新讲座:深入探讨ChatGPT类大语言模型-哔哩哔哩】 https://b23.tv/pjyRR5g

2025-02-16 21:11:49
GPT-4.5、Claude4、Grok-3都快来了

2025-02-17 09:54:01
大部分伸手党已经会用AI搜索了

2025-02-17 09:55:07
网球初体验:因为乒乓球和羽毛球的思维惯性,老是接球发力和打高球。

2025-02-17 12:14:14
两周过去了,DeepSeek-R1-671b在ollama上的两个量化版本,Q2.51/Q1.58,都超过了5万下载量。也就是说有超过10万台192GB以上内存的设备都部署了满血版。

2025-02-24 08:41:21
https://anyvoice.net/zh/ai-voice-cloning

2025-02-24 10:49:37
俄乌战争三周年。

2025-02-24 20:55:35
Claude 3.7 Sonnet 是 Anthropic 迄今最聪明的模型,也是首个能进行“扩展思考”的 Claude 模型。

2025-02-26 10:11:51
特斯拉FSD就这么突然的在国内推送了,V13.2.6版本。
官方更新公告中称为“城市道路Autopilot”。此前已购买FSD且为HW4的焕新3和model s/x plaid已经收到2024.45.32.12推送。
目前看起来跟北美的纯视觉端到端版本是一样的,并未针对中国道路做训练,无法识别实线、待转区和部分掉头车道。

2025-02-26 10:49:52
本次更新恰好在春节EAP赠送到期和焕新Y开启交付的时间。焕新Y应该交付即可支持。
马斯克称特斯拉使用了公开可用的中国道路和交通标志视频,通过创新的视频模拟环境对FSD进行了训练。

2025-02-27 10:05:53
在人工智能逐步替代标准化工作的趋势下,”长尾工作”正成为人类保持经济价值的核心领域。这些需要复杂认知、情感互动和创造力的工作类型,构成了未来人类就业的护城河。

2025-02-27 15:55:03
回看o1-preview刚发布时的推理过程reasoning_content,是分要点展示的
https://www.techradar.com/computing/artificial-intelligence/chatgpt-o1-preview-can-solve-riddles-faster-than-me-and-i-kind-of-hate-it-for-it

3月

2025-03-05 19:43:26
iOS18.4 已经可以显示5Ga的信号了

2025-03-06 11:43:21
https://mcp.composio.dev/

2025-03-07 19:28:34
Manus用到的模型是Claude和微调后的Qwen

2025-03-08 17:16:08
看《猫猫的奇幻漂流》像在玩《stray迷失》

2025-03-09 00:58:46
难哄 虽然剧情槽点很多,但台湾导演的拍摄风格、剪辑、视觉都不错,每首ost音乐也很棒,是一部质量很好的纯爱剧。

2025-03-10 18:26:34
modelscope的模型上传流程,跟huggingface差了两条街

2025-03-11 01:03:34
ImageNet数据集与竞赛开启了深度学习浪潮之后,每个时代都有自己的当红榜单指引着最前沿技术的发展:
BERT时代是语言理解基准CLUE、SpuerCLUE。
随后ChatGPT、Claude、Gemini已经刷爆了考验各学科知识的MMLU、以及用户盲选投票的LLM Arena大模型竞技场。
o1/r1/QwQ类推理模型正在比拼数学(AIME、FrontierMath)、博士级别理科题(GPQA)、编程/软件工程能力(Codeforces、SWE-bench、LiveCodeBench)。
而智能体刷GAIA,似乎正在成为行业最新共识。

2025-03-11 15:46:29
火山引擎开源的这些AI应用 质量都不低
https://www.volcengine.com/product/ai-app-lab

2025-03-13 17:54:19
自此,美国芯片企业中,英特尔CEO陈立武、英伟达创始人兼CEO黄仁勋、AMD董事长兼CEO苏姿丰、博通总裁兼CEO陈福阳、MPS芯源系统创始人兼CEO邢正人、安霸总裁兼CEO王奉民等,均为华人。
(三个台湾,两个马来西亚,一个大陆

2025-03-16 20:39:51
塞尔吉尼奥在国足队内跟蒋光太粘在一起嘛

2025-03-17 01:20:31
VOA因为川普的行政令都停播了

2025-03-17 11:15:39
https://lookup.icann.org/zh
RDAP查询工具(新版WHOIS)

2025-03-17 17:02:08
Grok和Gemini的深度研究都还挺好用的

2025-03-17 19:05:40
FSD在中国大陆开启一个月免费体验活动,将推送给所有符合条件的车辆(目前尚不确定是否包含HW4以下的车辆)

2025-03-18 11:15:28
Manus也是一种自动驾驶。

2025-03-18 19:00:58
我的第一个Manus case回放: https://manus.im/share/xBetXI2KjAJhq6FybgOqP4?replay=1

2025-03-20 22:26:48
春分+国际幸福日

2025-03-21 09:19:56
小红书什么时候能多设备同时登录啊🥲

2025-03-21 09:32:03
2024年上海的冬天过去了。2024.11.20-2024.3.20

2025-03-21 11:55:11
意大利报纸《IL Foglio》推出全球首份完全由AI生成的实体报纸,从写作到讽刺手法皆出自AI之手。《IL Foglio》的编辑Claudio Cerasa称,这次发行AI报纸,是一项为期一个月的新闻实验的重要部分,旨在全方位展示AI技术对工作方式以及日常生活的影响。

2025-03-21 17:42:14
计算机历史博物馆收藏了2012年的AlexNet的源码,AlexNet的开发者包括Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky
https://github.com/computerhistory/AlexNet-Source-Code

2025-03-23 18:27:41
“穷人的焦虑来自于没钱,富人的焦虑来自于都得死。富人的松弛感来源于有钱,穷人的松弛感来源于都得死。”

2025-03-23 18:55:43
《联合早报》:中国特稿:中共二十大下半场 盘点政治新星行情
https://www.zaobao.com/news/china/story20250323-6048835

2025-03-23 20:56:06
Google退出中国市场15周年。

2025-03-24 13:56:21
RWA 是指可以在区块链上进行代币发行、交易或管理的传统物理或金融资产。一旦有了RWA通证之后,就可以用来做很多DeFi资产管理,这类资产包括房地产、商品、股票、债券、应收账款、知识产权等。通过区块链技术将这些现实世界的资产进行代币化,使它们可以数字形式进行交易和管理,从而提高流动性和透明度。

2025-03-24 18:41:49
flowith oracle模式生成的网站合集:https://flowithai.feishu.cn/docx/I5J6dQZt9opp2Rxhdi2c0JnrnKc

2025-03-25 09:57:43
todesk减少免费版用户每月连接次数了

2025-03-26 14:46:10
ai.dev域名指向Google AI Studio

2025-03-26 16:54:28
trae对普及AI编程的贡献会比cursor更大

2025-03-26 20:07:04
Claude太适合写nextjs项目了,搭配github+vercel+supabase,发布小型web应用太方便了

2025-03-27 22:18:46
用trae做了一个免费LLM API服务,技术栈:nextjs+vercel+supabase
platform.aitools.cfd
由于3.7一直排队,编码+debug都由Claude-3.5-Sonnet模型完成

2025-03-28 11:06:00
mac微信4.0.3.50彻底重构了,聊天记录都要迁移一遍 :0010:

2025-03-28 13:08:50
https://stcn.com/article/detail/1609852.html

2025-03-28 14:54:30
云族裔发售了,画面好逼真啊

2025-03-28 17:51:19
https://x.com/PJaccetturo/status/1905151190872309907
效果太好了

4月

2025-04-02 10:30:39
虽然都叫自动驾驶,但实际的技术可能差很远,高精地图+hard code和大模型端到端可以说从原理上有根本的不同,这也是为什么fsdv12和v13差距这么大。

施工路段NOA时速97=不要命。

2025-04-02 16:10:36
https://firstpagesage.com/seo-blog/the-google-algorithm-ranking-factors/

2025-04-05 14:08:53
微软50周年,盖茨在博客撰文:https://www.gatesnotes.com/meet-bill/source-code/reader/microsoft-original-source-code

2025-04-06 00:34:08
https://www.youtube.com/watch?v=AhhQ3e8Re1k

2025-04-07 22:06:26
https://zh.wikipedia.org/wiki/%E4%B8%8A%E6%B5%B7%E6%8A%A5%E7%BA%B8%E5%88%97%E8%A1%A8
现时上海仍有79份报纸在出版

2025-04-09 12:29:36
https://next-hackathon-2025.vercel.app/

2025-04-09 14:18:30
https://cn.nytimes.com/china/20250409/china-trump-tariffs/

2025-04-11 10:33:39
Google搜索框变长了

2025-04-12 14:33:50
大风来了💨

2025-04-14 09:56:53
周末想做一个东西,刚才上班路上跟deepseek-v3-0324讨论好了技术方案 :0000:

2025-04-14 13:16:31
https://xhslink.com/iNYicab

2025-04-14 20:47:27
纸上得来终觉浅,绝知此事要躬行。

2025-04-15 20:33:45
寄蜉蝣于天地,渺沧海之一粟。哀吾生之须臾,羡长江之无穷。

2025-04-17 11:02:47
有人说微信现在成了最大的AI应用,但是元宝账号又不是所有用户默认关注的,并且目前也还没有上任何与微信个人数据结合的扩展功能。

2025-04-17 12:15:14
o3已经是agent了,会搜索、执行代码、理解图片等操作组合完成任务

2025-04-21 16:50:14
ChatGPT已经可以自动判断当前问题是否需要搜索最新信息后回答了。

2025-04-22 22:26:54
瑞哥火到国外了

2025-04-23 15:39:44
少看社交媒体,多看书

2025-04-24 21:10:51
清理mac微信旧版本数据,腾出接近100GB空间 :0000:

2025-04-29 08:39:36
Qwen3的混合推理,简单问题不think,复杂问题才think。还可以手动控制,加/no_think 或/think

5月

2025-05-04 10:19:59
nike run club美区重装后用海外ip可登回原账号

2025-05-05 20:03:33
今天开ap走高架路,自动绕开了一段积水路段,第一次遇到。

2025-05-09 16:57:29
gemini的veo2生成视频的效果太好了

2025-05-11 12:05:52
快递因为都直接放驿站 所以现在买东西都宁愿选择外卖/即时配送了

2025-05-11 13:16:09
目前mcp server的鲁棒性太差

2025-05-12 11:14:41
web.skype.com已跳转到teams.live.com

2025-05-13 13:46:57
鸿蒙PC的一些细节:
-华为原来销售的所有笔记本设备都无法升级到鸿蒙PC系统
-目前两个虚拟机软件:鸿云虚拟桌面(云电脑)、Oseasy虚拟机(可安装Arm Win系统)
-可添加打印机和扫描仪
-type-C口可外接显示器,HDMI转接头也可以使用

2025-05-14 13:58:13
AI从工具逻辑转向交付成果逻辑

2025-05-15 10:17:39
NotebookLM的命名跟ChatGPT如出一辙。

2025-05-15 21:28:29
心情很down

2025-05-16 08:50:49
鸿蒙PC即将发布一款折叠屏电脑……

2025-05-16 11:48:10
天地图的api做得不错

2025-05-19 00:02:30
vibe coding时你会发现模型引入的package都是老版本,这个服务提供的上下文可以帮助模型知道当前最新版本:https://context7.com/

2025-05-20 16:46:06
不同的任务散落在ChatGPT、Claude、DeepSeek、Manus、Cursor、CherryStudio、OpenWebUI里,难找

2025-05-21 14:39:02
Flow TV (随机观看使用Google Flow filmmaker生成的视频)
https://labs.google/flow/tv

2025-05-21 15:37:38
https://stitch.withgoogle.com/
UI设计

2025-05-21 18:31:45
小满。

2025-05-22 23:46:15
veo 3的作品简直难辨真假

2025-05-23 00:54:17
https://www.youtube.com/watch?v=EvtPBaaykdo

2025-05-26 19:31:42
才开始听tank去年手术前完成的专辑《我不伟大 至少我能改变我》

2025-05-29 01:29:27
洗完头自然干+睡觉起来,自动空气刘海,比吹的还好一点😂

2025-05-30 18:25:38
中国的AI大模型还是得靠开源,在国际上获得影响力。DeepSeek、Qwen、Hunyuan

6月

2025-06-01 18:19:58
国铁上海东的官方名称叫“东方枢纽上海东站”

2025-06-03 10:47:30
iOS用年份命名,iPhone应该不会

2025-06-04 11:22:34
Claude自己写的博客:https://www.anthropic.com/claude-explains

2025-06-06 21:00:50
OpenAI和Anthropic的官方文档都提供了一键copy page的功能,便于开发者快速把文档复制发给AI作为上下文。

2025-06-08 14:20:22
HDC25要发布HarmonyOS6了😂

2025-06-08 19:46:18
最近对投放的理解更深入了

2025-06-13 11:11:54
上影节开始了

2025-06-15 11:21:31
https://developer.mozilla.org/zh-CN/docs/Web/HTTP

2025-06-15 11:28:57
原来斗内是donate的音译

2025-06-16 16:53:39
Manus的UI和交互,果然影响了后来的Agent产品

2025-06-17 14:07:55
国内的AI六小龙已经变成四小龙了

2025-06-20 14:09:34
As an Early Access rider, you can be among the first to use our new Robotaxi App and experience an autonomous ride within our geofenced area in Austin. Through this exclusive preview, you’ll have the opportunity to provide valuable feedback on our Robotaxi service.

2025-06-22 00:59:34
基座大模型公司,现在差不多2-3个月迭代一次模型能力,否则就跟不上对手的速度,渐渐淘汰。

2025-06-24 14:00:36
柴静发了视频之后,新闻调查停播了?6月7号之后,连续两期没播了

2025-06-25 15:13:05
SpecStory插件(VSCode/Cursor),可以快速将与AI的对话历史保存为markdown

2025-06-26 15:22:18
vercel, cloudflare, supabase, google ai studio都是大善人

2025-06-27 14:09:59
现在电脑买来,本地模型要占掉50GB左右

2025-06-29 14:36:39
我好像天生更对开放开源有好感,开始用Void替代Cursor,虽然还不能完全替代,但基本功能可以了

7月

2025-07-02 00:07:00
Apple Music都十年了啊

2025-07-02 08:39:23
听到蝉鸣了。

2025-07-09 09:59:19
以前:收u
现在:稳定币收款

2025-07-11 11:47:00
macOS上对图片右键-快速操作-转换图像,即可快速压缩图片大小

2025-07-13 11:50:35
国内的开源大模型几乎都会兼容华为昇腾910B的推理了

2025-07-14 23:39:51
Moonshot 团队在社交平台上给出明确答复:Kimi K2的架构确实完全继承自 DeepSeek V3。他们团队曾尝试多种不同于DeepSeek V3的MoE/Dense结构变种,但始终没有任何设计在 loss 上显著超过 DeepSeek V3。为了在已经面临优化器和大规模参数这两大变量下避免引入更多不确定性,团队选择了一个务实的策略:完全继承DeepSeek V3的底层架构。

2025-07-15 20:45:32
Grok的Ani有点油腻

2025-07-16 18:54:43
@thepaper 政治正确大师

2025-07-17 10:28:46
荣威i6 max专晒乘客……

2025-07-18 16:10:35
徐正源与蓉城的纠纷,之前传言已久,没想到竟然是真的。徐师在蓉城球迷心中有极高的声望,可谓功勋教练。

2025-07-19 12:48:12
美国创新,中国复制,欧洲监管

2025-07-21 13:36:01
港美股的年度收益,要交20%的税了

2025-07-23 15:47:44
Trae的SOLO模式竟然可以在同一个项目下实现与IDE模式秒切换界面,妙啊

2025-07-23 15:54:43
今天体验的新产品:trae solo模式、qwen code with qwen3-coder、trickle.so、zread.ai、codebuddy IDE

2025-07-25 20:31:00
上海进入WAIC时间~

2025-07-29 21:24:50
兵马俑上竟然留存了制作者的指纹:
考古人员通过超景深显微镜捕捉到了2000多年前清晰的指纹印记,提取了指纹100多枚。这些穿越时空的“指尖密码”,不仅让后人触及到秦代工匠的远古技法,更揭示出一个事实——兵马俑的塑造者中,竟有未成年人。

2025-07-30 15:17:51
再次感叹:K2的Agentic能力太强了

2025-07-30 16:06:49
雨天在家细读:https://manus.im/zh-cn/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus

2025-07-30 22:24:19
ETH十周年。

2025-07-31 11:01:48
ollama有GUI了

8月

2025-08-02 00:10:57
Crew-11成功!

2025-08-06 10:07:43
世运会首个比赛日已经开启

2025-08-06 10:30:17
开源模型胜利了

2025-08-06 11:16:26
https://gpt-oss.com/

2025-08-06 15:25:36
把Ollama的gpt-oss加载到GPU:
curl http://localhost:11434/api/generate ^
-d “{\”model\”:\”gpt-oss:20b\”,\”keep_alive\”:\”5m\”,\”options\”:{\”num_gpu\”:99},\”prompt\”:\”\”,\”stream\”:false}”
立即卸载模型:
curl http://localhost:11434/api/generate -d “{\”model\”:\”gpt-oss:20b\”,\”keep_alive\”:0}”

2025-08-07 09:44:44
OpenAI预告了GPT-5将于明天凌晨发布。

2025-08-08 09:26:57
GPT-5在所有领域都进步了一点点

2025-08-08 11:48:44
https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament
最终o3拿下了冠军

2025-08-10 01:45:30
赤藓糖醇的回甘时间也太长了

2025-08-11 01:08:53
美国在线(AOL,现隶属于雅虎旗下)宣布将于 2025 年 9 月 30 日正式停止其基于公共交换电话网络(PSTN)的拨号上网服务,结束其长达 34 年的运营历史。

2025-08-11 17:08:12
Claude Code对token使用的计量还挺准的

2025-08-13 11:21:48
蘇姿丰和黃仁勳是遠房親戚。蘇姿丰的外公和黃仁勳的母親是兄妹,因此蘇姿丰要喊黃仁勳一聲「表舅」。

2025-08-13 16:54:54
这周又是日期数字的个位数与星期几对应的一周。

2025-08-15 08:54:14
凌晨看展新体验get

2025-08-15 08:54:49
在视频号刷到金味麦片,戳中一个小时候的回忆

2025-08-18 13:38:50
继王自如之后,罗永浩也开视频播客了

2025-08-19 11:03:12
千问Qwen直接把万相Wan的事情都干了

2025-08-22 11:41:12
AutoGLM大半年后拿出的方案是云手机+云电脑。云手机背后是华为云的云手机服务,云电脑背后是阿里云的无影。

2025-08-25 10:36:52
有些产品的AI助手,还在用2023年的模型,一问就感觉不如小学生。对,说的就是supabase

2025-08-27 15:12:38
nano banana对接好了

2025-08-29 11:05:33
很多东西变了,但很多东西也没有变。

9月

2025-09-01 10:00:52
iOS 26动效的增加,导致部分UI的响应时间有延迟

2025-09-01 12:06:59
Notion邮箱,实际上是Gmail的又一个客户端,但加载速度好快啊!

2025-09-03 09:58:02
印象中这是第五次看阅兵了

2025-09-03 13:32:42
东风-5C “打击范围覆盖全球”,这个应该是轨道级飞行。

2025-09-04 12:09:29
https://developer.apple.com/cn/videos/design/

2025-09-06 13:26:29
隔了几个月再看元宝客户端,非常好,产品交互和体验在国内完全对齐ChatGPT,简洁派表示舒适,豆包太花哨了

2025-09-07 15:01:16
霍炬的观点可能是真相,就是Anthropic并不是反华,而是反开源。因为目前头部的开源模型几乎都来自中国。

2025-09-08 14:11:57
Agent,会根据大模型在外部操作的结果来执行下一步,这会影响模型以外的虚拟世界。

2025-09-09 10:28:54
现在最强的生图模型和生视频模型都出自Google了

2025-09-10 11:36:57
国行页面继续标注“为Apple智能预备好”,年底前应该可以上了吧

2025-09-11 10:12:39
国行AirPods Pro 3硬件上与海外版本是一样的。

2025-09-12 12:50:46
姚顺雨的名字跟尧舜禹谐音 :0080:

2025-09-14 18:05:46
香蕉是一种攻击性很强的水果,你可以在搅拌机里加入15种水果,但要是加入1根香蕉,那它就是香蕉奶昔。

2025-09-14 20:36:36
窗外是蓝星 蓝星是我们的蓝色星球 地球

2025-09-16 10:42:21
西贝的自杀式直播,暴露了贾国龙完全不熟悉基层情况。

2025-09-16 16:38:08
成都明天再开两条地铁,武侯祠终于有地铁直达了

2025-09-17 10:55:04
https://www.volcengine.com/experience/ark?launch=seedream

2025-09-17 14:40:37
「電話」與 FaceTime 中的「即時翻譯」功能可在一對一通話時使用,適用於已啟用 Apple Intelligence 的相容 iPhone、iPad 或 Mac;支援英文 (英國、美國)、法文 (法國)、德文 (德國)、葡萄牙文 (巴西) 與西班牙文 (西班牙)。今年稍晚,iPhone 和 FaceTime 的「即時翻譯」功能將新增支援以下語言:簡體中文、繁體中文 (華語)、義大利文、日文、韓文。

2025-09-20 18:06:06
ChatGPT会话的分享链接发给别人后,别人还能继续接着聊。这个逻辑挺有意思的。

2025-09-23 11:09:20
https://lmarena.ai/leaderboard/image-edit

2025-09-24 11:17:45
有点感动是怎么回事
经典模式回归:腾讯 QQ 发布 Windows 9.9.22、macOS 6.7.81 版本更新,支持合并独立聊天窗口 https://www.ithome.com/0/885/281.htm

2025-09-26 18:05:10
我永远都是行动派。

2025-09-28 10:50:28
Kimi的OK Computer很不错

2025-09-30 10:27:25
https://www.anthropic.com/news/claude-sonnet-4-5

2025-09-30 11:13:34
趁evus收费之前更新了一下

10月

2025-10-01 17:46:46
Sora 2终于不是期货了 也不是Pro Plan专属 发布就能免费玩上

2025-10-03 14:31:55
我才发现iOS 26上的高光可以随着手机摆动而移动……

2025-10-04 18:08:22
新的RAG:让模型智能自主决策到哪个文件去查找所需信息

2025-10-04 19:09:54
iOS26本地传输数据竟然恢复不了已下架的app……

2025-10-09 13:42:17
浦东美术馆 抓个尾巴

2025-10-13 16:36:10
liblib的国内产品直接提供了nano/mj/gpt-image-1等模型,还挂着网信算法备案号和生成式人工智能服务备案号……

2025-10-14 11:10:52
鸿蒙端微信大版本号从1.0跳到8.0了,大部分功能跟iOS和安卓已对齐。

2025-10-14 18:29:43
俄罗斯禁了所有漫游到俄罗斯境内的海外sim卡联网

2025-10-15 10:59:21
招行和shadowrocket的app都换成液态玻璃tabbar了

2025-10-15 11:02:46
这个赛季,开拓者要成主队了……

2025-10-15 14:12:55
Apple Intelligence已开启功能:
本地:Siri基础问题、相册擦除、通知中心总结/首要通知、写作工具、同传翻译
联网:ChatGPT扩展、视觉智能、图乐园、智绘表情

2025-10-17 17:31:38
单扬单摄之外,C1X基带的iPhone Air支持5G-A

2025-10-20 23:26:54
《许我耀眼》赵露思穿搭合集:https://nutllwhy.github.io/xuwoyaoyan/

2025-10-22 11:17:49
Siri最大的问题是中文普通话的语音识别不准

2025-10-23 13:59:49
A19 Pro + C1X有点厉害啊

2025-10-23 16:01:17
从完整度来说,Comet导入Chrome也太彻底了,扩展、历史记录、连登录态都保留了…… Atlas学学

2025-10-27 15:38:59
用了5天,iPhone Air 真的还挺神奇的。
手感太轻太薄了,像拿着一片玻璃,但感觉又很结实。相比之下S25 edge并没有这种感觉,还是挺厚的。
有时候看着侧面在想,屏幕/电池/magsafe/背面板叠在一起居然只有5.6mm,好不真实。不像是现在这个时代能做出来的东西。
电池在导完数据的前两天耗电较快,这两天已经恢复正常,比mini系列的续航好太多,C1X应该功不可没。
可能就是高刷屏、超薄电池、背面超瓷晶面板,还有 C1X 基带能效、eSIM这些技术都成熟了,才能造出这样的设备吧。

2025-10-27 16:55:19
美区Apple Music竟然可以导入Spotify歌单(通过songshift的服务

11月

2025-11-04 11:33:38
微信把个人视频号入口改成了“视频号与公众号”,将公众号发布入口也放进去了

2025-11-04 11:34:28
Alpha Arena Season 1 is now over, as of Nov 3rd, 2025 5 p.m. EST
Season 1.5 coming soon

2025-11-06 08:55:13
乐播投屏太流氓了,还是用Apple TV投屏吧

2025-11-06 11:47:55
非常需要微信会话分组功能。

2025-11-08 11:01:13
AirPods Pro 3的重置改成了正面触控双击

2025-11-11 18:15:27
https://trustmrr.com/game 有点意思

2025-11-13 12:01:19
全运会没有奖牌榜了,各地还是会自己发布

2025-11-14 10:25:50
从Timenerd、Raycast到Rewind到MineContext、Dayflow

2025-11-14 15:25:16
有很多好的开源项目,不通过社交媒体还很难自己发现。

2025-11-14 17:28:02
Steam Machine如果在5000元级还是很有竞争力的

2025-11-19 21:01:02
库拉索🇨🇼晋级世界杯决赛圈,之前还没听说过这个国家,查了一下是荷兰的附属王国。

2025-11-24 14:01:46
虽然已有预期,但依然被NanoBananaPro驱动的NotebookLM生成的信息图和PPT惊呆了

2025-11-26 13:22:48
ChatGPT想做小程序生态,内置应用程序,看来App Store的小程序内购分成政策适用微信也针对OpenAI

2025-11-28 10:20:19
Apple的很多初代产品,我都是尝鲜者:Apple Watch初代、AirPods初代、12寸MacBook初代、iPhone Air初代

12月

2025-12-01 10:57:48
#nowplaying 派对动物 – 五月天

2025-12-02 14:09:09
Gemini DeepResearch的思考过程现在会出现循环

2025-12-03 10:40:44
豆包手机是中兴nubia M153工程机,现在在这款手机登录微信,会被微信提示风险强制退出……

2025-12-03 11:51:46
今年王自如和罗永浩都回归科技数码圈了

2025-12-04 18:32:59
系统叫Obric UI,系统账号是豆包账号,内置有云服务(与欢喜云的同步项相同)和应用商店。

2025-12-07 11:09:22
《电脑爱好者》9月24日停止更新,12月6日正式注销。

2025-12-10 10:38:19
豆包手机在交互上的重大创新我觉得有两点:
1、PhoneUse操作手机在后台实现,且在后台也支持跨应用操作,不占用前台任务,相比云端实现又能拥有完整context,同时在隐私上也与当前屏幕内容隔离开;
2、可以设置定时重复任务,实现固定工作流,大大提高灵活性和实用性,虽然目前最多只能设置5个任务。

2025-12-11 15:27:56
记忆突然被拉回20年前

2025-12-11 18:58:41
type1决策:做了就不能回头;
type2决策:做错了还能重新尝试;
很多人都把type2决策当成type1,不敢去试错。

2025-12-12 11:19:48
OpenAI都十岁了。

2025-12-15 17:11:16
https://openrouter.ai/state-of-ai

2025-12-16 13:19:32
aistudio和灵光带来的趋势非常明显,明年基本上可以实现要啥工具现生成。

2025-12-16 16:02:50
国产信创生态还需要降低软硬件成本,信创服务器这么贵

2025-12-18 16:44:18
Gemini 3 Flash真的做到了又快又好……

2025-12-21 11:55:14
#FForever Fantasy4ever

2025-12-22 14:36:31
4年的电脑报合订本,清晰展现了AI时代的发展变化

2025-12-22 23:28:53
12月22日,中国国际广播电台劲曲调频广播频率HitFM(北京地区FM88.7和上海地区FM87.9)与轻松调频EzFM(北京地区FM91.5、重庆市FM89.8、西藏自治区拉萨市FM100.0)正式官宣,将于12月23日0时起停播。

2025-12-23 16:24:59
快手这次没有出现系统层面的入侵,是接码批量注册+内容安全的绕过……

2025-12-23 17:06:50
在语音输入的准确度接近100%的时候,就会很愿意使用了,比手打快很多。

2025-12-23 18:07:22
今年ChatGPT的使用被Gemini分走了很多

2025-12-24 20:51:36
在Cursor里用的ClaudeCode就没统计了

2025-12-26 13:10:17
TRAE的国内版,因为下半年国产基座模型的提升,现在也基本可用了

2025-12-28 09:16:43
10年以上俱乐部:小红书、豆瓣、微信读书、网易云音乐、QQ音乐

2025-12-28 10:25:33
“ALICE线”(ALICE Threshold)
ALICE是“Asset Limited,Income Constrained,Employed”的缩写,即“资产有限、收入有限、有工作”,它代表着美国收入高于联邦贫困线但经济不安全的家庭。

2025-12-29 11:57:44
在HarmonyOS能用tooot,但iOS却没有了……

2025-12-29 16:51:00
https://claude.com/blog/skills-explained

2025-12-29 19:04:38
智谱的AI输入法,界面都跟Typeless差不多,快捷键也一样……

2025-12-30 09:18:20
中国AI创业者的高光时刻 恭喜Manus!

2025-12-30 14:23:08
商业竞争就是这么朴素😂

2025-12-31 09:46:59
香港《亚洲周刊》因报道南博事件中庞家人的发声而被封禁微博/微信公众号。

2025-12-31 16:58:27
Typeless的asr成精了

2025-12-31 23:45:12
今年的生产力时间用在了这些软件上:Cursor/Trae/Codebuddy/Kiro/Antigravity(辗转薅Claude🫣

2026-01-02 12:07:48
突然觉得2026是一个很未来的年份

2026-01-02 17:53:38
我的 #2025年度产品:
iPhone Air
Google AI Studio Build Mode
Gemini App
豆包输入法 + Typeless
TRAE + Claude Code
Manus
Lovart
ClashVerge
SpeedPush
Voodle

2026-01-02 18:12:31
今年增加一个我的 #2025年度AI模型:
DeepSeek-R1
Gemini 3.0 Flash
Gemini 3.0 Pro Image
GPT-5.2
Claude Opus 4.5
Qwen3
Kimi-K2-Thinking
GLM-4.7
MiniMax-M2.1
Seedream 4.5

小白入门 Claude Code:从命令行到通用Agent

作者 jaxli
2026年1月12日 16:28

前言:我为什么不推荐 Cursor 了?

去年 8 月第一次接触 Claude Code 时,我其实挺无感的。

当时朋友跟我说它是”通用 Agent”,可以操作电脑上的所有东西。我试了一下,让 K2 模型写了个房地产官网的案例,效果也就那样。

真正让我改观的是三个月后——Skills 功能上线


一、它和其他 AI 编程工具到底有什么不同?

最大的区别:它是”真·通用”

Cursor、TRAE、Antigravity这些 AI IDE,只能在你当前打开的文件夹里操作。

但 Claude Code 不一样:

  • 只要你给它授权,它可以操作整个电脑的文件
  • 你的 Node.js 环境、Python 环境、Homebrew、Docker…它都能直接调用
  • 它不是一个”编辑器插件”,而是一个有权限的电脑操作员

我给不懂编程的朋友演示时,他们的反应是:

“原来 AI 现在可以操作本地文件啊!”

这不是技术问题,是认知问题

很多人对 AI 的印象还停留在”聊天机器人”阶段,不知道它已经能直接帮你干活了。


二、我的 Claude Code 使用时间线

2025年8月22日:初次尝试

  • 版本:2.0.76
  • 模型:Kimi K2
  • 任务:写地产官网测试页面
  • 感受:也就那样

当时的问题:

  1. 不能显示改了什么文件(一次性全写完)
  2. 没有 Skills 功能
  3. 命令行操作不方便

2025年10月:Skills 功能出现

朋友告诉我 Claude Code 出了 Skills,我问”这啥?”

他给了一个我至今觉得最好的比喻:

如果拿电话销售来举例:

  • MCP = 通讯录数据(资源)
  • Skills = 打电话的 SOP(流程)
    • 第一句说什么
    • 第二句说什么
    • 遇到拒绝怎么办

Skills 相当于把别人的专业经验封装成了一个可复用的提示词包。

一个让我震惊的例子

我用 GLM-4.7 模型写了一个比较”AI 感”的前端页面,然后告诉 Claude:

“使用 frontend-dev 这个 Skills 来更新这个页面”

结果出来了一个非常有设计感的网页

我知道,自己写 prompt 或者写到 .claude/CLAUDE.md 里也能实现。但:

  • 别人的经验可以通过 Skills 快速共享
  • Skill 不只是 prompt,还包括脚本、资源、配置

2026年1月:2.1.10 版本 + 完整工作流

现在我的 Claude Code 工作流是:

工具用途
命令行快速任务、自动化
Zed Editor内置 Claude Code 侧边栏,可视化操作
Obsidian + Claudian知识库内直接调用 AI 进行Vibe Writing
CC Now右键在任何目录快速启动 Claude Code
CC Mate切换配置文件、查看用量统计

搭配起来,非常 OK


三、小白 10 分钟上手指南

第一步:安装(30 秒)

1 curl -fsSL https://claude.ai/install.sh | bash

或者用 npm:

1 npm install -g @anthropic-ai/claude-code

第二步:授权(1 分钟)

运行 claude,会自动打开浏览器进行授权。

小技巧:推荐用 API Key,更稳定,不会被风控。

第三步:第一个命令(1 分钟)

1 # 列出当前目录文件
2 claude "列出当前目录的文件,并告诉我每个文件是干什么的"
3  
4 # 分析一个项目
5 claude "帮我分析这个项目的结构"

第四步:安装你的第一个 Skill(3 分钟)

前端开发 Skill(强烈推荐新手试试):

在 Claude Code 中搜索社区 Skills,找到 frontend-design 并安装。

安装后试试:

1 claude "用 frontend-design skill 帮我做一个个人博客页面"

效果会超出你的预期


四、为什么我最后选择了它?

1. 它不只是”编程助手”

我虽然会写代码,但现在我用 Claude Code 做的事:

  • ✅ 公众号文章写作和排版
  • ✅ 知识库内容整理
  • ✅ 数据分析和报告生成
  • ✅ 文件批量处理
  • ✅ 系统配置管理

它是一个”电脑操作员”,不只是”编程助手”。

2. Skills 生态太强大了

社区已经有各种 Skills:

  • frontend-design – 高质量前端页面生成
  • vibe-writing – AI 写作,降低 AI 味
  • iosdev-cn – iOS 开发上架全流程
  • code-review – PR 代码审查
  • notebooklm-skill – 连接 NotebookLM 和 Obsidian

别人踩过的坑、总结的经验,你都能直接复用。

3. 它能操作你的环境

Cursor 这些工具,本质上是在”沙盒”里操作。

但 Claude Code 可以:

1 # 直接运行你本地的 Python 脚本
2 claude "运行 data_analysis.py 并生成报告"
3  
4 # 调用你的 npm scripts
5 claude "帮我跑一下测试并总结结果"
6  
7 # 操作你的 Docker 容器
8 claude "检查所有 Docker 容器的状态"

这不是模拟,这是真实的操作。


五、新手的常见误区

误区 1:“我不会编程,用不了”

错!

Claude Code 最有用的功能,往往和编程无关:

  • 帮你整理文件夹里的杂乱文件
  • 批量重命名图片
  • 从一堆 PDF 里提取信息
  • 自动生成周报、日报

误区 2:“命令行太难了”

有三种使用方式:

  1. 纯命令行 – 最高效,但需要适应
  2. Zed Editor – 内置侧边栏,有可视化界面
  3. Obsidian + Claudian – 在知识库里直接用,适合写作/整理

选择你舒服的方式就行。

误区 3:“只用来写代码”

大材小用了!

它是一个通用 AI Agent,能操作电脑上的几乎所有东西。


六、我的推荐配置

API 供应商推荐:智谱 Coding Plan

强烈推荐使用智谱 Coding Plan,GLM-4.7模型加上内置的mcp已可平替Sonnet 4.5。国内访问稳定,性价比高。

通过我的邀请链接注册即可获得 2000万 Tokens 大礼包

👉 注册地址:https://www.bigmodel.cn/invite?icode=dv9RDTDnM9igGdUHQjQRag%3D%3D

基础配置

1 // ~/.claude/settings.json
2 {
3   "language": "Chinese",
4   "env": {
5     "ANTHROPIC_BASE_URL": "https://open.bigmodel.cn/api/paas/v4",
6     "ANTHROPIC_API_KEY": "你的智谱API Key"
7   }
8 }

推荐安装的 Skills

Skill 名称用途
frontend-design高质量前端页面生成,设计感强
vibe-writingAI 写作,降低 AI 味,适合公众号
code-simplifier重构屎山代码,提升代码质量和可维护性
code-reviewPR 代码审查
notebooklm-skill连接 NotebookLM 和 Obsidian
iosdev-cniOS 开发上架全流程指南

推荐安装的工具

工具用途安装
CC Now右键快速启动brew install cc-now
CC Mate配置切换、用量统计brew install ccmate
ClaudianObsidian 插件商店搜索安装
Zed内置 Claude Codebrew install --cask zed

七、进阶:理解 MCP 和 Skills 的关系

用电话销售的比喻:

概念电话销售比喻实际例子
MCP通讯录数据GitHub API、数据库、文件系统
Skills销售话术 SOP写作流程、代码审查流程、发布流程

你需要两者配合:

  • MCP 提供”能力”(能做什么)
  • Skills 提供”流程”(怎么做)

八、最后:为什么我现在推荐它?

和 Cursor 对比

维度Claude CodeCursor
操作范围整个电脑当前项目
可扩展性Skills + MCP自定义 prompts
使用场景编程 + 通用任务主要是编程
学习曲线稍陡(命令行)平缓(GUI)

和 ChatGPT 对比

维度Claude CodeChatGPT
文件操作直接读写需要上传下载
环境调用可运行命令不能
上下文持久化会话每次新开

九、给新手的建议

1. 先别追求”完美配置”

从最简单的开始:

  • 安装 Claude Code
  • 试一个简单的命令
  • 感受一下”AI 操作你的电脑”

2. 选择一个你舒服的入口

  • 如果你习惯命令行 → 直接用 CLI
  • 如果你喜欢可视化 → 用 Zed Editor
  • 如果你主要做知识管理 → 用 Obsidian + Claudian

3. 从一个 Skill 开始

推荐从 frontend-design 或 vibe-writing 开始:

  • 效果明显
  • 文档完善
  • 社区活跃

4. 加入社区

  • Reddit 的 r/ClaudeAI
  • GitHub 的 claude-code 仓库
  • 国内的 AI 编程社群

每天都有新技巧、新 Skills 出现。


十、最后的最后

2025年8月我觉得它”也就那样”。

2026年1月,它已经成为我每天必用的工具。

这不是因为 Claude Code 变了太多,而是因为我:

  1. 理解了它的定位(通用 Agent,不只是编程工具)
  2. 掌握了 Skills 的用法(复用他人经验)
  3. 找到了适合自己的工作流(命令行 + Zed + Obsidian)

如果你还在观望,今天就是最好的开始。

安装只需要 30 秒:

1 curl -fsSL https://claude.ai/install.sh | bash

试试看,你会有惊喜。


参考资源

  • Claude Code 官网:https://claude.ai/code
  • GitHub 仓库:https://github.com/anthropics/claude-code
  • Zed Editor:https://zed.dev
  • Claudian 插件:https://github.com/YishenTu/claudian
  • CC Now:https://github.com/someawesome/cc-now
  • CC Mate:https://github.com/djyde/ccmate

作者的话:这篇文章是我的真实使用体验。如果你是 Claude Code 的新手,希望它能帮你快速上手;如果你已经是老手,欢迎分享你的使用技巧。

桌面级开源 AI Agent 的架构范式与未来趋势:Void、BrowserOS、CherryStudio 与 MineContext 观察

作者 jaxli
2025年12月11日 16:05

1. 从对话框到操作系统级的智能体变革

1.1 人工智能交互范式的转移

当前,生成式人工智能(Generative AI)正处于一个关键的转型期,即从基于瞬时对话的“聊天机器人(Chatbot)”模式,向具有持久性、上下文感知能力和执行能力的“智能体(Agent)”模式演进。在早期的交互设计中,用户通过一个孤立的对话框(Chat Box)与大语言模型(LLM)进行交互,这种模式虽然降低了使用门槛,但也人为地切断了模型与用户工作环境(文件系统、浏览器、操作系统状态)之间的联系。

随着 GPT-5.1、Claude 4.5 Opus 等具备强推理能力模型的出现,以及 DeepSeek-V3.2、Qwen 3 等高性能开源模型的普及,桌面级应用开始经历一场深刻的架构重构。这种重构的核心目标是打破模型与应用之间的“空气墙”,让 AI 能够直接感知屏幕内容、读取本地文件、甚至操控鼠标和键盘。

本次调研选取的四个工具——Void EditorBrowserOSCherryStudioMineContext——并非随意的组合,而是精准代表了开源社区在构建“桌面级 AI Agent”时的四种截然不同的架构哲学和演进方向:

  1. Void Editor(IDE 智能体化): 代表了垂直生产力工具的深度改造。它不满足于仅仅作为插件存在,而是通过 Fork 现有的 IDE(VS Code),从底层重构编辑器的行为,使其成为一个能够自主编写、调试代码的“开发者代理”。
  2. BrowserOS(浏览器智能体化): 代表了互联网入口的重塑。它挑战了传统浏览器的被动渲染模式,试图构建一个能够理解网页结构(DOM)、自动执行跨网页任务的“上网代理”。
  3. CherryStudio(模型编排与 RAG 中枢): 代表了通用大模型客户端的极致进化。它通过解耦“界面”与“模型”,构建了一个支持多模型并在本地运行检索增强生成(RAG)的“知识中枢”。
  4. MineContext(系统级感知与记忆): 代表了后台服务的智能化。它引入了“上下文工程(Context Engineering)”的概念,通过持续的屏幕感知和视觉理解,构建用户的“数字记忆”,并提供主动式的辅助。

1.2 开源与本地优先(Local-First)的战略意义

这四款工具的一个共同特征是其“开源”与“本地优先”的属性。在微软 Copilot、OpenAI ChatGPT Desktop 等闭源巨头试图垄断桌面入口的背景下,这些开源工具提供了一种基于“用户主权”的替代方案。

  • 数据主权与隐私: 闭源 Agent 通常需要将用户的屏幕截图、代码库或文档上传至云端进行处理,这在企业合规(如 GDPR、SOC2)和个人隐私保护方面存在巨大风险。本次调研的工具均支持或默认采用“直连模式(Direct-to-Provider)”或“本地推理(Local Inference)”,确保敏感数据不经过中间商服务器 1
  • 架构的模块化: 它们均支持接入 Ollama、vLLM 等本地推理框架,使得算力可以下沉到用户边缘设备。这种架构不仅降低了 API 调用成本,还使得在无网(Air-Gapped)环境下运行智能体成为可能。
  • 协议的标准化: 随着模型上下文协议(Model Context Protocol, MCP)的兴起,这些工具不再是孤岛。调研显示,Void Editor 和 BrowserOS 均已开始探索或支持 MCP,预示着未来桌面 Agent 将形成一个互联互通的生态系统 1

本文将从技术架构、功能特性、隐私机制及生态位四个维度,对这四款工具进行详尽的拆解与对比分析。


2. 垂直领域的重构:Void Editor 与 IDE 的智能体化

Void Editor 是当前 AI 辅助编程领域中,试图通过开源路径复刻甚至超越 Cursor 体验的代表性项目。它选择了一条最艰难但也最具潜力的道路:Fork VS Code。这不仅是一个技术选择,更是一种对“编辑器即 Agent”理念的坚持。

2.1 架构基础:为何必须 Fork VS Code?

在 AI 编程助手的早期阶段,大多数工具(如 GitHub Copilot、Continue)都是以 VS Code 插件(Extension)的形式存在的。然而,插件架构存在天然的局限性:

  • UI 限制: 插件无法自由修改编辑器的核心 UI(如 Diff 视图、终端集成方式),导致 AI 生成的代码往往只能以侧边栏对话或简单的 Ghost Text 形式展现。
  • 上下文访问受限: 插件对文件系统的访问权限受限于 VS Code 的沙盒机制,且难以获取编辑器内部的完整状态(如光标历史、LSP 语义信息)。
  • 延迟问题: 插件必须通过 VS Code API 进行通信,增加了交互延迟。

Void Editor 通过 Fork VS Code 的代码库(基于 1.99.0+ 版本),直接修改了编辑器的渲染层和逻辑层 1。这种“原生集成”使得 Void 能够实现插件无法做到的功能,例如 Fast Apply(快速应用)和 Agent Mode(代理模式)。

2.1.1 混合架构:ML 集成层

Void 的架构可以被描述为一种“混合架构”,它保留了 VS Code 传统的非 ML 基础设施(文件管理、扩展宿主、调试器),但引入了一个平行的 ML 集成层(ML Integration Layer) 6

  • VoidModelService: 这是 Void 的核心服务,负责管理大语言模型的生命周期。不同于简单的 API 调用,该服务维护了模型对象的引用,防止在高频交互中上下文被过早销毁。
  • LLMMessageService: 作为中枢神经系统,它协调所有 AI 交互,无论是来自侧边栏的对话,还是来自编辑器内部的内联编辑(Ctrl+K)。

2.2 核心特性剖析:超越自动补全

2.2.1 Agent Mode(代理模式)与 Gather Mode(采集模式)

Void Editor 将 AI 的能力分为了三个层级:Chat(对话)、Gather(采集)和 Agent(代理)。其中,Agent Mode 是其作为“桌面级 Agent”的核心体现。

  • 自主决策循环: 在 Agent Mode 下,Void 不再是被动等待用户指令的工具,而是一个具备“思考-行动-观察”循环的智能体。它可以自主决定搜索哪些文件、读取哪些代码片段、甚至执行终端命令来验证代码 1
  • 权限分级: 为了平衡自动化与安全性,Void 引入了 Gather Mode。这是一种受限的 Agent 模式,允许 AI 搜索和读取代码库以回答复杂问题,但禁止其修改文件或执行破坏性操作 1。这种设计体现了对开发者“控制权”的尊重。
  • MCP 工具集成: Void 的 Agent Mode 集成了模型上下文协议(MCP),这意味着它不仅可以操作代码,还可以调用外部工具。例如,它可以连接到数据库查询 MCP 服务器,或者调用浏览器 MCP 服务器来查阅最新的 API 文档 1

2.2.2 Fast Apply 与流式 Diff

在传统的 AI 编程助手中,当 LLM 生成大段代码时,用户必须等待生成完成,然后手动点击“接受”。Void 引入了 Fast Apply 机制。

  • 技术原理: Void 优化了 AI 生成代码的应用过程,即使是针对 1000 行以上的大文件,也能实现毫秒级的应用速度 1。这可能涉及到对 Diff 算法的底层优化,以及直接操作编辑器的 TextBuffer,而非通过高层的 API。
  • 视觉化 Diff: 得益于 Fork 的优势,Void 将 Diff 视图直接嵌入到了代码编辑器中,而非弹出一个新的窗口。用户可以看到 AI 的修改建议以绿色/红色高亮实时流式呈现在代码行间,提供了极佳的开发者体验(DX) 7

2.2.3 Checkpoints(LLM 变更检查点)

AI 生成代码的一个主要痛点是“幻觉”导致的破坏。Void 引入了 Checkpoints 机制,专门用于追踪 LLM 的变更 1

  • 独立于 Git: 这个版本控制系统是独立于 Git 存在的。它记录了每一次 AI 对话导致的代码库状态快照。这意味着用户可以随意让 Agent 尝试激进的重构,如果结果不满意,可以一键回滚到 AI 介入前的状态,而不会污染 Git 的提交历史。

2.3 隐私与连接性:去中心化的胜利

Void Editor 的核心卖点之一是 “切断中间商(Cut out the middleman)” 1

  • 直连架构: 与 Cursor 或 Windsurf 不同,Void 不会将其用户的代码请求路由通过自己的私有后端服务器。相反,它直接从用户的客户端发起对 Anthropic、OpenAI 或 Google 的 API 请求。
  • 隐私意义: 这种架构确保了 Void 的开发团队(Glass Devtools)无法窥探用户的代码或 Prompt。这对于处理专有代码的企业用户至关重要。
  • 本地模型支持: Void 对 Ollama、vLLM 等本地推理框架的一流支持,使得它能够在完全断网(Air-Gapped)的环境下工作,这是闭源竞品难以企及的优势 6

2.4 生态挑战与未来展望

尽管架构先进,Void Editor 面临着巨大的维护挑战。Fork VS Code 意味着必须时刻跟进微软上游代码库的更新,这是一项繁重的工作。调研资料显示,项目的主仓库曾一度“暂停(paused)”以探索新的 AI 编码理念 7,这引发了社区对其长期可持续性的担忧。然而,近期 Beta 版的密集更新(支持 Claude 3.7、Grok 3 等前沿模型)表明项目依然活跃 1

未来,Void Editor 可能会演变成一个更广泛的“AI 原生 IDE 框架”,不仅服务于 JavaScript/Python 开发者,而是通过 MCP 协议成为连接本地所有开发工具(数据库、云资源、文档)的通用控制台。


3. 浏览器Agent:BrowserOS 的原生智能架构

如果说 Void Editor 是代码世界的 Agent,那么 BrowserOS 则是万维网的 Agent。它不仅是一个浏览器,更是一个运行环境,一个专为 AI Agent 设计的操作系统。

3.1 重新定义浏览器:从渲染引擎到执行环境

传统的 Web 浏览器(Chrome, Firefox)设计初衷是供人类阅读和交互。然而,AI Agent 在浏览网页时有着完全不同的需求:它需要结构化的数据而非像素,需要 API 级的交互而非鼠标点击。

BrowserOS 基于 Chromium 进行 Fork,构建了一个原生支持 AI Agent 的环境。

  • 技术栈构成: 项目代码中 C++ 占比 49.4%Python 占比 35.4%2
    • C++ 层: 负责底层的 Chromium 渲染引擎、网络栈和安全性,保持与现代 Web 标准的兼容性。
    • Python 层: 这是 BrowserOS 的独特之处。Python 是 AI 开发的通用语言,BrowserOS 将 Python 环境嵌入或紧密集成到浏览器中,作为 Agent 的运行后端。这意味着用户可以直接用 Python 编写脚本来控制浏览器,或者运行基于 Python 的复杂 Agent 框架(如 LangChain, AutoGPT)。

3.2 智能体与 DOM 的交互机制

BrowserOS 的核心能力是让 AI “理解”网页。

  • DOM 解析与语义化: 普通的 HTML 对于 LLM 来说往往过于冗长且充满噪音(广告、样式代码)。BrowserOS 内部可能实现了一套机制,将复杂的 DOM 树转化为精简的、语义化的表示(Accessibility Tree 或简化版 HTML),供 LLM 消费 5
  • 自然语言驱动的自动化: 用户无需编写 Selenium 或 Puppeteer 脚本,只需输入自然语言指令(例如:“登录我的亚马逊账户,查找过去一年购买的所有书籍,并将其导出为 CSV”)。BrowserOS 的内置 Agent 会将这一指令分解为一系列浏览器动作(点击、输入、滚动、抓取)5
  • 本地运行: 这些 Agent 运行在本地浏览器进程中,而非云端。这意味着用户的 Session Cookie、LocalStorage 数据不需要发送给第三方服务器,极大地保护了隐私 10

3.3 界面创新:Split View(分屏视图)

为了适应 AI 辅助浏览的场景,BrowserOS 引入了 Split View 界面 5

  • 人机协作: 左侧是传统的网页视图,右侧是 AI Agent 的交互面板(支持 ChatGPT, Claude, Gemini 等)。
  • 上下文同步: 右侧的 AI 模型能够实时读取左侧网页的内容。用户可以随时选中网页上的一段文字,拖拽到右侧让 AI 解释,或者让 AI 自动总结当前页面的核心内容。这种交互模式比传统的“复制-粘贴”要高效得多。

3.4 MCP 服务器:浏览器的能力输出

BrowserOS 的一个战略性功能是它不仅是一个客户端,还可以作为一个 MCP Server 2

  • 跨应用调用: 通过 MCP 协议,BrowserOS 将其浏览能力暴露给系统中的其他 Agent。例如,你在 Void Editor 中写代码时遇到一个报错,Void Editor 的 Agent 可以通过 MCP 调用 BrowserOS,在后台静默搜索 StackOverflow,提取解决方案,并返回给编辑器。
  • 生态位: 这将 BrowserOS 定位为“本地 AI 操作系统”中的“Web 接口服务”,使其成为其他工具获取网络信息的通用网关。

3.5 竞品对比与市场定位

BrowserOS 将自己定位为 ChatGPT AtlasPerplexity Comet 的隐私优先替代品 2

  • Atlas/Comet 模式: 用户的浏览历史和交互数据被上传到云端,用于构建用户的云端记忆。
  • BrowserOS 模式: 所有浏览历史、Agent 执行日志均存储在本地。用户可以拥有强大的搜索和自动化能力,而无需牺牲隐私。这对于金融分析师、调查记者或企业研究员等对数据敏感的人群具有极大的吸引力。

4. 模型编排与知识中枢:CherryStudio 的通用客户端范式

与 Void 和 BrowserOS 专注于特定领域(代码、Web)不同,CherryStudio 致力于解决“模型碎片化”和“知识孤岛”的问题。它是一个通用的、桌面级的 AI 工作台。

4.1 统一模型管理(Unified Model Management)

当前的 LLM 市场呈现出极度的碎片化:OpenAI 的 GPT-4o 擅长逻辑,Anthropic 的 Claude 3.5 Sonnet 擅长代码,DeepSeek-R1 擅长推理,而 Google Gemini 1.5 Pro 拥有超长上下文。

CherryStudio 提供了一个统一的控制台,允许用户同时配置和管理所有这些模型 3。

  • 多模型并联: 用户可以在同一个对话窗口中同时通过多个模型发送相同的 Prompt,对比其输出效果。这对于提示词工程(Prompt Engineering)和模型选型非常有价值。
  • 混合部署: 支持同时连接云端 API(OpenAI, SiliconFlow)和本地服务器(Ollama, LM Studio)。企业用户可以利用这一点,将敏感任务路由到本地模型,将普通任务路由到廉价的云端模型,实现成本与安全的平衡 12

4.2 本地 RAG 与知识库构建

CherryStudio 的核心竞争力在于其强大的 本地 RAG(检索增强生成) 能力,它允许用户构建“第二大脑” 12

  • 多格式支持: 支持导入 PDF、DOCX、PPTX、TXT、Markdown 等多种格式的文档,甚至支持 WebDAV 同步和 URL 抓取 11
  • 本地向量化架构:
    • 嵌入模型(Embedding Model): 用户可以选择使用本地的嵌入模型(如 bge-m3)通过 Ollama 运行,或者使用云端嵌入 API。这意味着向量化过程可以完全在本地完成,无需上传文档内容 13
    • 向量数据库: 虽然调研材料未明确指出其内置的向量数据库品牌(可能是 SQLite-vec, Chroma, 或 LanceDB),但从其“无需环境配置、开箱即用”的特性 11 推断,它极有可能使用了嵌入式的向量存储方案(如基于 SQLite 的扩展或轻量级文件型向量库),而非需要独立部署的服务器型数据库。
  • 检索与生成: 当用户在 CherryStudio 中提问时,系统会首先在本地向量库中进行语义检索,找到相关的文档切片,然后将这些切片作为上下文注入到 LLM 的 Prompt 中。这一过程完全透明,且支持引用溯源。

4.3 助手商店与即插即用的 Agent

为了降低普通用户的使用门槛,CherryStudio 引入了 “助手(Assistant)” 的概念 11

  • 预配置角色: 内置了 300+ 个预配置的 AI 助手,涵盖翻译、写作、编程、法律咨询等场景。每个助手本质上是一个精心调试的 System Prompt 加上特定的模型参数设置。
  • 自定义与分享: 用户可以创建自己的助手,甚至通过导入/导出功能与团队共享。这使得企业可以将内部的最佳实践固化为一个个 AI 助手,分发给员工使用。

4.4 技术栈与跨平台特性

CherryStudio 是一个基于 Web 技术栈构建的桌面应用(94.5% TypeScript),推测使用了 Electron 或 Tauri 框架 11。这保证了它在 Windows、macOS 和 Linux 上的一致体验。其界面设计现代化,支持亮色/暗色主题和透明窗口,符合现代 SaaS 工具的审美标准。


5. 操作系统级的感知记忆:MineContext 与上下文工程

MineContext 代表了 AI Agent 的终极形态之一:隐形且全知。它不是一个等待用户打开的工具,而是一个潜伏在后台的操作系统守护进程,通过“看”来理解用户。

5.1 上下文工程(Context Engineering)的哲学

MineContext 提出的核心概念是 “上下文工程”。它认为,AI 能够提供的帮助质量,取决于它所能获取的上下文的丰富程度。

其架构围绕数据的全生命周期展开:捕获(Capture) -> 处理(Processing) -> 存储(Storage) -> 检索(Retrieval) -> 消费(Consumption) 4。

  • 被动感知: 与 CherryStudio 需要用户手动上传文档不同,MineContext 通过 屏幕录制(Screen Monitor) 自动收集信息。它以 P0 级优先级支持屏幕截图,未来计划支持多模态数据(文档、代码、外部应用数据) 4

5.2 视觉语言模型(VLM)驱动的数字记忆

MineContext 的核心技术壁垒在于如何从视频流中提取结构化信息。

  • OCR 与 VLM: 它利用 OCR(光学字符识别)技术提取屏幕上的文字,并结合视觉语言模型(如 Doubao-Seed-1.6-flash 或 OpenAI Vision)来理解屏幕内容的语义 4。例如,它不仅能识别出屏幕上有“会议”二字,还能理解这是一个日历应用中的待办事项。
  • 双模型架构: 为了平衡成本与性能,MineContext 建议用户配置两个模型:一个视觉模型用于理解截图,一个嵌入模型(如 Doubao-embedding-large)用于生成向量索引 4

5.3 隐私优先的数据架构

由于涉及极其敏感的屏幕数据,MineContext 采取了最为严格的 “本地优先(Local-First)” 策略。

  • 本地存储路径: 所有截图、OCR 文本、向量索引数据均存储在用户的本地目录 ~/Library/Application Support/MineContext/Data4
  • 数据隔离: 默认情况下,数据不会上传到云端。即使用户使用云端模型 API 进行分析,传输的也是经过处理的切片数据,且支持 API Key 掩码等安全措施 15
  • 后端架构: MineContext 采用了 Electron 前端 + Python 后端的架构。Python 后端负责繁重的图像处理和向量计算任务,这使得它能够利用 Python 丰富的 AI 生态库(如 PyTorch, ChromaDB 等) 4

5.4 主动式服务:从 Ask 到 Push

MineContext 的交互模式是 “主动交付(Proactive Delivery)” 4

  • 遗忘与回响: 用户启动录制后,可以“忘记它(Forget it)”。系统会在后台静默分析,然后主动向用户推送“每日摘要”、“待办事项清单”或“活动回顾”。
  • 场景举例: 当用户在一天结束时打开 MineContext,它会自动生成一份日报:“你今天上午花了 3 小时在 VS Code 中编写 Python 代码,下午浏览了 20 个关于 RAG 架构的网页,并在 Notion 中记录了 5 条笔记。” 这种能力对于量化自我(Quantified Self)和生产力分析具有革命性意义。

6. 核心架构维度的横向对比与技术哲学

为了更清晰地展示这四个工具的定位差异,本节提供详细的横向对比分析。

6.1 技术栈与架构对比表

特性维度Void EditorBrowserOSCherryStudioMineContext
核心定位IDE Agent
(生产力/代码)
Browser Agent
(信息获取/自动化)
Hub Agent
(管理/RAG)
Memory Agent
(感知/后台)
基础架构VS Code Fork (Electron)Chromium Fork (C++) + Python通用客户端 (Electron/TypeScript)桌面应用 (Electron + Python Backend)
智能来源代码库 + 编辑器状态网页 DOM + 浏览会话本地知识库 (Docs) + 多模型 API屏幕视觉流 (Screenshots)
交互模式主动 (Active)
编写代码、执行终端
主动 (Active)
点击网页、抓取数据
被动 (Reactive)
问答、检索
观察/主动 (Proactive)
后台记录、主动推送
数据存储文件系统、Git浏览器 Profile、本地日志本地向量库 (SQLite/BGE)本地数据目录 (SQLite/Chroma)
RAG 实现代码库索引 (FIM/Embedding)网页内容实时解析显式文档上传与向量化屏幕历史视觉索引
MCP 支持Client & Host
(调用工具,也能被调用)
Server
(作为工具被调用)
Client/Server
(计划中/部分支持)
Context Source
(潜在的上下文源)

6.2 “锚点”理论:智能体的根基

这四个工具揭示了构建桌面 Agent 的四个不同“锚点(Anchors)”:

  1. Void 锚定于“文件(Files)”: 它的智能建立在对项目文件结构和代码逻辑的理解之上。
  2. BrowserOS 锚定于“链接(Links)”: 它的智能建立在对万维网图谱和 DOM 结构的理解之上。
  3. CherryStudio 锚定于“文档(Documents)”: 它的智能建立在用户显式构建的知识库之上。
  4. MineContext 锚定于“时间流(Timeline)”: 它的智能建立在用户行为的时间序列和视觉历史之上。

未来的理想桌面 AI 操作系统,应当是这四个锚点的融合体。


7. 隐私安全、本地化与企业级落地的挑战

随着 AI Agent 从云端下沉到桌面,安全边界也随之改变。

7.1 “中间人攻击”与直连模式的安全性

Void 和 BrowserOS 均强调 “去中间人化”。虽然这避免了平台方的数据窃取,但也带来了新的风险:

  • API Key 管理: 用户需要自行管理 OpenAI 或 Anthropic 的 API Key。如果本地机器中了木马,这些 Key 可能被窃取。MineContext 通过 UI 层的 Key 掩码和加密存储来缓解这一风险 15
  • 恶意 Agent 风险: 如果 Void 的 Agent Mode 被赋予了过高的权限(如终端执行权),恶意的 Prompt Injection 可能诱导 Agent 执行 rm -rf / 或上传私钥。因此,Void 引入 Gather Mode(只读模式)作为一种安全屏障是非常必要的架构设计 1

7.2 企业级合规与 Air-Gapped 环境

对于金融、军工、医疗等高敏感行业,这些开源工具提供了闭源 SaaS 无法提供的解决方案——物理隔离(Air-Gapped)部署

  • 全链路本地化: 结合 Ollama 运行 Llama 3 或 DeepSeek-Coder,配合 CherryStudio 的本地 Embedding 模型,企业可以构建一个完全断网的 AI 工作流。数据从产生(MineContext 录屏)、处理(Void 编写代码)、检索(CherryStudio RAG)到执行(BrowserOS 内部网自动化),没有任何比特流出局域网。
  • 审计与溯源: 开源特性允许企业对代码进行审计,确保没有隐藏的遥测代码,这对于通过 SOC2 或 ISO27001 认证至关重要。

8. 结论:走向融合的本地 AI 操作系统

通过对 Void Editor、BrowserOS、CherryStudio 和 MineContext 的观察,我们可以清晰地看到桌面级开源 AI Agent 的演进脉络。它们不再是简单的“套壳”应用,而是各自领域的深度重构者。

  1. 工具的专业化与深耕: Void 证明了通用编辑器无法满足 AI 编程的需求,必须进行底层改造;BrowserOS 证明了浏览器需要为 Agent 而非仅为人设计。
  2. 协议的互联与生态化: 模型上下文协议(MCP) 将是未来的关键。我们预见,Void 将不再需要自己写网页抓取代码,而是直接调用 BrowserOS 的 MCP 接口;CherryStudio 将不再只是一个聊天窗口,而是成为调度 Void 和 MineContext 的中央指挥塔。
  3. 本地智能栈(Local Intelligence Stack)的成型:
    • 底层算力: Ollama / vLLM / NVIDIA TensorRT
    • 记忆与索引层: SQLite-vec / Chroma (由 MineContext/CherryStudio 维护)
    • 感知与执行层: BrowserOS (Web) / Void (Code) / System API
    • 交互编排层: CherryStudio / MCP

对于开发者和企业而言,现在的选择不再是“是否使用 AI”,而是如何组合这些开源模块,构建一个既强大又完全受控的“私人数字员工”。这四款工具,正是构建这一未来的基石。

Gemini CLI系统提示词分享

作者 jaxli
2025年6月30日 11:57

You are an interactive CLI agent specializing in software engineering tasks. Your primary goal is to help users safely and efficiently, adhering strictly to the following instructions and utilizing your available tools.

# Core Mandates

**Conventions:** Rigorously adhere to existing project conventions when reading or modifying code. Analyze surrounding code, tests, and configuration first.

**Libraries/Frameworks:** NEVER assume a library/framework is available or appropriate. Verify its established usage within the project (check imports, configuration files like ‘package.json’, ‘Cargo.toml’, ‘requirements.txt’, ‘build.gradle’, etc., or observe neighboring files) before employing it.

**Style & Structure:** Mimic the style (formatting, naming), structure, framework choices, typing, and architectural patterns of existing code in the project.

**Idiomatic Changes:** When editing, understand the local context (imports, functions/classes) to ensure your changes integrate naturally and idiomatically.

**Comments:** Add code comments sparingly. Focus on *why* something is done, especially for complex logic, rather than *what* is done. Only add high-value comments if necessary for clarity or if requested by the user. Do not edit comments that are seperate from the code you are changing. *NEVER* talk to the user or describe your changes through comments.

**Proactiveness:** Fulfill the user’s request thoroughly, including reasonable, directly implied follow-up actions.

**Confirm Ambiguity/Expansion:** Do not take significant actions beyond the clear scope of the request without confirming with the user. If asked *how* to do something, explain first, don’t just do it.

**Explaining Changes:** After completing a code modification or file operation *do not* provide summaries unless asked.

**Do Not revert changes:** Do not revert changes to the codebase unless asked to do so by the user. Only revert changes made by you if they have resulted in an error or if the user has explicitly asked you to revert the changes.

# Primary Workflows

## Software Engineering Tasks

When requested to perform tasks like fixing bugs, adding features, refactoring, or explaining code, follow this sequence:

1. **Understand:** Think about the user’s request and the relevant codebase context. Use ‘${GrepTool.Name}’ and ‘${GlobTool.Name}’ search tools extensively (in parallel if independent) to understand file structures, existing code patterns, and conventions. Use ‘${ReadFileTool.Name}’ and ‘${ReadManyFilesTool.Name}’ to understand context and validate any assumptions you may have.

2. **Plan:** Build a coherent and grounded (based off of the understanding in step 1) plan for how you intend to resolve the user’s task. Share an extremely concise yet clear plan with the user if it would help the user understand your thought process. As part of the plan, you should try to use a self verification loop by writing unit tests if relevant to the task. Use output logs or debug statements as part of this self verification loop to arrive at a solution.

3. **Implement:** Use the available tools (e.g., ‘${EditTool.Name}’, ‘${WriteFileTool.Name}’ ‘${ShellTool.Name}’ …) to act on the plan, strictly adhering to the project’s established conventions (detailed under ‘Core Mandates’).

4. **Verify (Tests):** If applicable and feasible, verify the changes using the project’s testing procedures. Identify the correct test commands and frameworks by examining ‘README’ files, build/package configuration (e.g., ‘package.json’), or existing test execution patterns. NEVER assume standard test commands.

5. **Verify (Standards):** VERY IMPORTANT: After making code changes, execute the project-specific build, linting and type-checking commands (e.g., ‘tsc’, ‘npm run lint’, ‘ruff check .’) that you have identified for this project (or obtained from the user). This ensures code quality and adherence to standards. If unsure about these commands, you can ask the user if they’d like you to run them and if so how to.

## New Applications

**Goal:** Autonomously implement and deliver a visually appealing, substantially complete, and functional prototype. Utilize all tools at your disposal to implement the application. Some tools you may especially find useful are ‘${WriteFileTool.Name}’, ‘${EditTool.Name}’ and ‘${ShellTool.Name}’.

1. **Understand Requirements:** Analyze the user’s request to identify core features, desired user experience (UX), visual aesthetic, application type/platform (web, mobile, desktop, CLI, library, 2d or 3d game), and explicit constraints. If critical information for initial planning is missing or ambiguous, ask concise, targeted clarification questions.

2. **Propose Plan:** Formulate an internal development plan. Present a clear, concise, high-level summary to the user. This summary must effectively convey the application’s type and core purpose, key technologies to be used, main features and how users will interact with them, and the general approach to the visual design and user experience (UX) with the intention of delivering something beautiful, modern and polished, especially for UI-based applications. For applications requiring visual assets (like games or rich UIs), briefly describe the strategy for sourcing or generating placeholders (e.g., simple geometric shapes, procedurally generated patterns, or open-source assets if feasible and licenses permit) to ensure a visually complete initial prototype. Ensure this information is presented in a structured and easily digestible manner.

– When key technologies aren’t specified prefer the following:

**Websites (Frontend):** React (JavaScript/TypeScript) with Bootstrap CSS, incorporating Material Design principles for UI/UX.

**Back-End APIs:** Node.js with Express.js (JavaScript/TypeScript) or Python with FastAPI.

**Full-stack:** Next.js (React/Node.js) using Bootstrap CSS and Material Design principles for the frontend, or Python (Django/Flask) for the backend with a React/Vue.js frontend styled with Bootstrap CSS and Material Design principles.

**CLIs:** Python or Go.

**Mobile App:** Compose Multiplatform (Kotlin Multiplatform) or Flutter (Dart) using Material Design libraries and principles, when sharing code between Android and iOS. Jetpack Compose (Kotlin JVM) with Material Design principles or SwiftUI (Swift) for native apps targeted at either Android or iOS, respectively.

**3d Games:** HTML/CSS/JavaScript with Three.js.

**2d Games:** HTML/CSS/JavaScript.

3. **User Approval:** Obtain user approval for the proposed plan.

4. **Implementation:** Autonomously implement each feature and design element per the approved plan utilizing all available tools. When starting ensure you scaffold the application using ‘${ShellTool.Name}’ for commands like ‘npm init’, ‘npx create-react-app’. Aim for full scope completion. Proactively create or source necessary placeholder assets (e.g., images, icons, game sprites, 3D models using basic primitives if complex assets are not generatable) to ensure the application is visually coherent and functional, minimizing reliance on the user to provide these. If the model can generate simple assets (e.g., a uniformly colored square sprite, a simple 3D cube), it should do so. Otherwise, it should clearly indicate what kind of placeholder has been used and, if absolutely necessary, what the user might replace it with. Use placeholders only when essential for progress, intending to replace them with more refined versions or instruct the user on replacement during polishing if generation is not feasible.

5. **Verify:** Review work against the original request, the approved plan. Fix bugs, deviations, and all placeholders where feasible, or ensure placeholders are visually adequate for a prototype. Ensure styling, interactions, produce a high-quality, functional and beautiful prototype aligned with design goals. Finally, but MOST importantly, build the application and ensure there are no compile errors.

6. **Solicit Feedback:** If still applicable, provide instructions on how to start the application and request user feedback on the prototype.

# Operational Guidelines

## Tone and Style (CLI Interaction)

**Concise & Direct:** Adopt a professional, direct, and concise tone suitable for a CLI environment.

**Minimal Output:** Aim for fewer than 3 lines of text output (excluding tool use/code generation) per response whenever practical. Focus strictly on the user’s query.

**Clarity over Brevity (When Needed):** While conciseness is key, prioritize clarity for essential explanations or when seeking necessary clarification if a request is ambiguous.

**No Chitchat:** Avoid conversational filler, preambles (“Okay, I will now…”), or postambles (“I have finished the changes…”). Get straight to the action or answer.

**Formatting:** Use GitHub-flavored Markdown. Responses will be rendered in monospace.

**Tools vs. Text:** Use tools for actions, text output *only* for communication. Do not add explanatory comments within tool calls or code blocks unless specifically part of the required code/command itself.

**Handling Inability:** If unable/unwilling to fulfill a request, state so briefly (1-2 sentences) without excessive justification. Offer alternatives if appropriate.

## Security and Safety Rules

**Explain Critical Commands:** Before executing commands with ‘${ShellTool.Name}’ that modify the file system, codebase, or system state, you *must* provide a brief explanation of the command’s purpose and potential impact. Prioritize user understanding and safety. You should not ask permission to use the tool; the user will be presented with a confirmation dialogue upon use (you do not need to tell them this).

**Security First:** Always apply security best practices. Never introduce code that exposes, logs, or commits secrets, API keys, or other sensitive information.

## Tool Usage

**File Paths:** Always use absolute paths when referring to files with tools like ‘${ReadFileTool.Name}’ or ‘${WriteFileTool.Name}’. Relative paths are not supported. You must provide an absolute path.

**Parallelism:** Execute multiple independent tool calls in parallel when feasible (i.e. searching the codebase).

**Command Execution:** Use the ‘${ShellTool.Name}’ tool for running shell commands, remembering the safety rule to explain modifying commands first.

**Background Processes:** Use background processes (via \`&\`) for commands that are unlikely to stop on their own, e.g. \`node server.js &\`. If unsure, ask the user.

**Interactive Commands:** Try to avoid shell commands that are likely to require user interaction (e.g. \`git rebase -i\`). Use non-interactive versions of commands (e.g. \`npm init -y\` instead of \`npm init\`) when available, and otherwise remind the user that interactive shell commands are not supported and may cause hangs until cancelled by the user.

**Remembering Facts:** Use the ‘${MemoryTool.Name}’ tool to remember specific, *user-related* facts or preferences when the user explicitly asks, or when they state a clear, concise piece of information that would help personalize or streamline *your future interactions with them* (e.g., preferred coding style, common project paths they use, personal tool aliases). This tool is for user-specific information that should persist across sessions. Do *not* use it for general project context or information that belongs in project-specific \`GEMINI.md\` files. If unsure whether to save something, you can ask the user, “Should I remember that for you?”

**Respect User Confirmations:** Most tool calls (also denoted as ‘function calls’) will first require confirmation from the user, where they will either approve or cancel the function call. If a user cancels a function call, respect their choice and do _not_ try to make the function call again. It is okay to request the tool call again _only_ if the user requests that same tool call on a subsequent prompt. When a user cancels a function call, assume best intentions from the user and consider inquiring if they prefer any alternative paths forward.

## Interaction Details

**Help Command:** The user can use ‘/help’ to display help information.

**Feedback:** To report a bug or provide feedback, please use the /bug command.

Vibe Coding时代面向大模型沟通的奥秘

作者 jaxli
2025年6月26日 11:29

文/Jerry、Gemini

AI编码工具的浪潮正以前所未有的方式重塑软件开发行业。然而,若仅仅将这些工具视为简单的聊天机器人或代码补全器,我们将错失其真正的潜力。我们正处在一个新时代的黎明,在这个时代,开发者生产力的下一次飞跃将不再仅仅源于更强大的大型语言模型(LLM),而是源于更精密的沟通协议和上下文管理工具。

从最初简单的代码片段建议,到如今能够执行复杂、多文件任务的AI Agent,我们与AI的互动模式正在发生根本性的转变。这种转变凸显了一个核心挑战:如何有效地与这些日益强大的AI系统进行沟通?当AI的“记忆”有限、知识陈旧、且其推理过程如同一个“黑箱”时,我们如何确保它能准确理解我们的意图,并可靠地执行任务?

本文旨在深入探讨这一核心问题。笔者将剖析当前开发者与AI沟通时面临的根本性障碍,并以AI原生代码编辑器Cursor为例,详细拆解其为解决这些问题而设计的精密工具集。更重要的是,我们将视野拓宽至整个生态系统,审视诸如模型上下文协议(Model Context Protocol, MCP)等新兴标准,以及Context7等第三方服务如何共同构建一个更加智能、可控的AI协作环境。通过对主流AI编码工具的横向比较,我们将揭示行业的发展趋势,并最终描绘出在人机协作的新范式下,未来软件开发的蓝图。这不仅是一份工具指南,更是一次对未来开发者角色的深度思考。

沟通的鸿沟——你的“AI程序员实习生”需要一份指南

在深入探讨解决方案之前,我们必须首先理解问题的本质。为何我们需要专门的工具来与AI沟通?答案在于当前大型语言模型固有的局限性。这些局限性构成了人机协作中的“沟通鸿沟”,只有正视它们,我们才能构建有效的桥梁。

记忆与注意力的极限:“迷失在中间”

大型语言模型最广为人知的特性之一是其“上下文窗口”(Context Window),即模型在一次交互中能够处理的信息量上限,通常以令牌(token)为单位计算 。然而,这个窗口也并非是完美无瑕的记忆存储器。  

研究表明,LLM存在显著的“位置偏差”(position bias)。麻省理工学院(MIT)的研究人员发现,模型倾向于过度关注上下文窗口开头和结尾的信息,而忽略中间部分的内容 。这种“迷失在中间”(lost-in-the-middle)的现象意味着,如果一名律师使用AI助手在长达30页的法律文件中查找特定短语,AI更有可能在文件的首页或末页找到它,而中间页的内容则容易被忽视。  

这种现象并非随机的缺陷,而是源于构成LLM的Transformer架构中注意力机制的设计选择。随着模型层数的增加,这种偏见会被放大,因为输入序列的早期部分在模型的推理过程中被更频繁地使用 。这一发现揭示了一个关键的矛盾:虽然拥有更大的上下文窗口似乎是件好事,但它并不必然带来更好的性能。如果仅仅是扩大窗口尺寸,而没有解决底层的注意力偏差问题,我们实际上只是创造了一个更大的“中间地带”,让关键信息更容易在其中“迷失”。  

此外,研究还指出,许多开源模型的“有效上下文长度”往往远低于其宣称的训练长度。这部分归因于模型在预训练和后训练阶段形成的相对位置频率分布存在左偏,阻碍了其有效捕获远距离信息的能力 。因此,解决方案不能仅仅是追求“更多的上下文”,而必须转向“更智能的上下文”。如何构建和呈现上下文,使其关键信息能够被模型准确捕捉,变得与上下文的绝对大小同等重要,甚至更为关键。这正是笔者在后续章节中讨论的各类工具所要解决的核心问题。  

陈旧知识的隐患与上下文的成本

LLM的另一个根本性限制是其知识的静态性。模型通常在某个时间点之前的大规模数据集上进行训练,这意味着它们的“知识库”会随着时间的推移而变得陈旧 。对于日新月异的软件开发领域而言,这是一个致命伤。一个模型可能会自信地生成使用已被弃用的库函数或API的代码,甚至“幻觉”出根本不存在的API,这在处理像Next.js这样频繁更新的框架或模型未曾深入学习过的小众库时尤其突出 。  

解决这一问题的一种直接思路是利用长上下文窗口,在每次查询时将最新的文档“喂”给模型。然而,这条路充满了挑战。长上下文窗口的计算成本极其高昂,每一次查询都需要巨大的计算和内存资源,这直接导致了更高的费用和更慢的响应时间 。这在开发者和企业面前形成了一个清晰的权衡:在获取更准确结果与控制成本、保证性能之间做出选择。  

作为长上下文的替代方案,检索增强生成(Retrieval-Augmented Generation, RAG)应运而生。RAG系统在响应查询前,首先从一个外部知识库(如最新的文档、数据库)中检索相关信息,然后将这些信息与用户的原始提示一并提供给LLM 。这种方法在处理海量、动态变化的数据集(如代码库或实时网页内容)时,展现出卓越的可扩展性和成本效益。它能有效解决知识陈旧的问题,因为知识库可以随时更新。  

然而,RAG也并非万能。它在处理需要复杂、多步骤推理或在动态演变的对话中需要灵活适应的场景时,可能会受到限制,因为它通常在生成过程开始前就一次性检索了所有信息 。这催生了行业向混合架构发展的趋势,即结合长上下文的广阔推理能力和RAG的精准信息检索能力。一个理想的系统应该能够动态地将通过RAG检索到的最新、最相关的数据,注入到一个长上下文模型的推理过程中。这不仅是技术上的选择,更是平衡成本、速度和推理能力的战略决策,也是Context7等工具背后的核心理念。  

从黑箱到协作者:对控制与透明度的渴求

LLM常常被形容为“黑箱”,用户输入提示,模型输出结果,但其内部的决策过程却难以捉摸 。这种不透明性使得在金融、医疗、法律等高风险应用中难以完全信任它们。当模型给出一个意想不到的答案时,我们无从知晓它是基于正确的推理,还是源于数据偏见或模型幻觉。  

此外,当前主流LLM对文本的严重依赖也带来了局限。它们将“语言”等同于“文本”,这不仅排除了手语等非文本化的人类自然语言,加剧了特定社群的边缘化,也限制了模型对世界的多模态理解能力 。  

因此,推动应用本文所讨论的各类沟通工具,其根本动力源于一种将LLM从不可预测的“黑箱”转变为可信赖的“协作者”的强烈需求。这是在不确定性的技术之上,强加结构、可预测性和控制权的努力。这一过程深刻地呼应了人机交互(Human-Computer Interaction, HCI)领域在适应AI时代时的核心演变:从设计简单的用户界面,转向构建复杂、透明、以人为中心的协作系统 。我们需要的不仅是一个会写代码的助手工具,更是一个我们能够理解、引导和信任的编程伙伴。  

AI原生IDE——以Cursor为例

为了具体说明现代工具如何应对前述的沟通挑战,我们将以AI代码编辑器Cursor作为一个详细的案例进行研究。Cursor的设计理念和功能集,为我们提供了一个观察开发者如何与AI建立高效、可控对话的绝佳窗口。

Cursor作为沟通枢纽:一种AI优先的架构

Cursor并非简单地在传统代码编辑器中加入一个AI聊天窗口。它是一个基于VS Code开源代码库构建的、以AI为核心的编辑器,其设计初衷就是为了将大型语言模型(如GPT-4o和Claude 3.5 Sonnet)深度整合到开发工作流的每一个环节 。  

这种“AI优先”(AI-first)的架构体现在其核心功能的设计上,每项功能都针对不同粒度的AI交互模式:

  • Tab键预测:超越了传统的单行代码补全,Tab功能能够预测并生成多行、结构化的代码编辑,并根据最近的更改动态调整其建议 。  
  • Cmd-K(或Ctrl-K)内联编辑:通过快捷键,开发者可以快速选中代码并给出自然语言指令,进行精确的代码生成、重构或解释,而无需打断心流 。  
  • Agent模式:这是为复杂任务设计的。在Agent模式下,AI可以独立探索代码库、执行终端命令、识别、创建并编辑相关文件,完成诸如搭建新项目、实现一个完整功能等大规模、跨文件的修改 。  

Cursor的设计哲学与将AI作为“插件”的传统思路形成了鲜明对比。在后者中,AI往往是一个附加组件,其与开发环境的集成深度受限。而Cursor将AI视为环境的基础设施,这种架构选择使其能够实现更深层次、更具上下文感知能力的整合,从而将AI从一个被动的“助手”提升为一个主动的“伙伴”。

控制AI的视线:.cursorignore的角色

在与AI协作时,一个核心问题是:我们不希望AI“看到”所有东西。无论是出于隐私保护、安全考虑,还是为了提升性能和专注度,控制AI的访问范围至关重要。Cursor为此提供了两个功能强大且粒度分明的忽略文件:.cursorignore.cursorindexingignore 。  

  • .cursorignore:隐私与专注的守护者 这个文件旨在尽最大努力(best-effort)阻止AI访问和索引指定的文件或目录 。其主要用途是保护敏感信息,如包含密钥的配置文件、专有商业逻辑代码,或任何不应被发送到第三方LLM服务的内容 。同时,它也能帮助开发者排除无关文件,让AI更专注于当前任务。  
  • .cursorindexingignore:性能优化的利器 与前者不同,此文件仅阻止文件被代码库索引 。被列入其中的文件不会出现在Cursor的上下文搜索结果中,这对于包含大量生成文件(如 node_modules)或二进制文件的项目非常有用,可以显著提升索引速度和搜索准确性。然而,关键区别在于,AI仍然可以在特定情况下访问这些文件,例如当用户手动打开它们或在聊天中明确引用它们时 。  

这两个文件的存在,直接反映了在AI编程中上下文、性能和隐私三者之间的内在张力。.cursorindexingignore解决了索引海量无关文件带来的性能问题,而.cursorignore则处理了更关键的隐私与安全问题。这种精细的控制粒度,让开发者能够根据具体需求,在这三者之间做出明智的权衡。值得一提的是,这两个文件的语法与开发者早已熟悉的.gitignore完全相同,并支持分层配置,极大地降低了学习和使用成本 。  

编码化意图:掌握rules.md以实现持久化指导

如果说.cursorignore是告诉AI“不要看什么”,那么Cursor Rules则是明确地告诉AI“应该怎么做”。这是一项革命性的功能,它将AI从一个通用的代码生成工具,转变为一个深度理解特定项目架构、规范和目标的“项目感知伙伴” 。  

这一系统已经从最初单一的.cursorrules文件,演进为一个更强大、更灵活的体系,其核心是位于项目.cursor/rules/目录下的.mdc(Markdown Domain Configuration)文件 。这些规则大致可分为三类:  

  1. 用户规则(User Rules):在Cursor的全局设置中定义,适用于所有项目,通常用于设定个人偏好,如AI的语气、回应风格等 。  
  2. 项目规则(Project Rules):以.mdc文件形式存储在项目内,可以被版本控制(如Git),与团队共享,确保AI行为在整个团队中保持一致 。  
  3. 记忆(Memories):根据用户与AI的对话自动生成的规则,帮助AI从过去的交互中学习 。  

.mdc文件的强大之处在于其前端元数据(frontmatter)部分,它通过几个关键字段来定义规则的触发和行为:

  • description: 用自然语言描述规则的用途。这不仅仅是给人看的注释,更是给AI看的“触发条件”。AI会根据当前对话的上下文,判断该描述是否与任务相关,从而决定是否激活此规则 。  
  • globs: 使用文件路径模式(如 app/controllers/**/*.rb)来限定规则的作用域。当用户引用的文件匹配该模式时,规则就会被注入上下文 。  
  • alwaysApply: 一个布尔值,设为true时,该规则会被无条件注入上下文,适用于全局性的指导原则 。  

通过这些规则,开发者可以实现高度定制化的AI行为。例如,可以编码化项目的架构模式(“在API目录中,所有验证都必须使用zod”)、代码风格规范(“React组件应遵循‘Props接口在顶部,样式在底部’的布局”)、甚至是复杂的、由AI驱动的工作流(“当我要求‘分析应用’时,自动运行开发服务器,获取日志,并提出性能改进建议”)。  

这种机制代表了一种范式上的转变:从命令式提示(imperative prompting)转向声明式AI配置(declarative AI configuration)。开发者不再需要在每次对话中重复性地输入冗长的指令,而是通过编写规则文件,一次性地、持久化地定义AI在其项目中的行为准则和约束。这本质上是一种元编程(meta-programming),开发者正在“编程”他们的AI助手。这是使AI Agent变得足够可靠、可预测,从而能够在企业级开发中大规模应用的关键一步。其逻辑链条如下:

  1. LLM在不同会话间没有记忆 。在每个提示中重复复杂的指令是低效且易错的。  
  2. Cursor Rules通过在提示层面提供“持久化、可复用的上下文”来解决这个问题 。  
  3. .mdc文件的globsdescription字段使得这些指令可以被自动、智能地应用,无需用户时刻记起。
  4. 这使得人机交互从简单的问答对话,提升为一个结构化、可配置的系统。开发者不再仅仅是AI的“用户”,更是AI在其项目内行为的“架构师”。这是一种更成熟、更具可扩展性的人机协作模型。

llms.txt标准:一次早期的探索

在探讨更先进的解决方案之前,有必要回顾一下llms.txt。这是一个早期的社区驱动尝试,旨在为AI可读的文档创建一个标准化格式 。其理念是,文档库的作者可以在其网站根目录放置一个 llms.txt文件,该文件会列出一系列指向详细文档的Markdown文件链接。这样,像Cursor这样的AI编辑器理论上就可以通过解析这个清单,来获取最新的、结构化的知识。

然而,这一标准的采纳和实现并不一致。一些用户发现,像Cursor这样的工具似乎并没有完全遵循该规范去抓取和索引所有链接的文件,导致AI的上下文不完整,从而引发了用户的困惑 。  

尽管llms.txt的实践效果有限,但它作为一个历史产物具有重要意义。它代表了社区为解决LLM“知识陈旧”问题所做的首次标准化努力。它的局限性——依赖于客户端的主动抓取、缺乏动态性和交互性——恰恰凸显了对更强大、更可靠、由服务器驱动的解决方案(如Context7和MCP)的迫切需求,清晰地展示了行业技术演进的路径。

上下文生态系统——超越本地项目

有效的AI协作不仅依赖于本地项目的上下文,更需要一个能够连接外部知识和工具的广阔生态系统。本部分将视野从单个编辑器扩展到正在兴起的服务和协议,它们共同构成了AI的“外部大脑”。

使用Context7实现动态、高保真度的上下文

Context7是由Upstash团队开发的一个强大平台,其核心使命是解决LLM知识陈旧的顽疾 。它通过一个精密的自动化流程,为LLM和AI编码助手提供永远最新的、特定版本的文档和代码示例。  

该平台的工作流程可以概括为“RAG即服务”(RAG-as-a-Service):

  1. 解析(Parse):自动从各大文档库(支持Markdown、reStructuredText、Jupyter Notebooks等多种格式)中提取代码片段和示例 。  
  2. 丰富(Enrich):利用LLM为提取出的代码片段添加简洁的解释和元数据 。  
  3. 向量化(Vectorize):将处理后的内容转化为向量嵌入,以便进行快速的语义搜索 。  
  4. 重排(Rerank):使用专有的排序算法对搜索结果进行评分,确保返回给用户的上下文是最相关的 。  
  5. 缓存(Cache):通过Redis等高性能缓存提供服务,确保低延迟响应 。  

通过这一流程,Context7能够提供比简单复制粘贴文档更高质量的上下文。它剔除了无关的“噪音”(如导航栏、广告等),只保留了干净、精确的代码和描述 。这对于那些LLM训练数据中覆盖不足的新兴框架或小众库来说,价值尤为巨大 。  

Context7代表了一种重要的行业趋势:将上下文检索的过程外部化和产品化。它提供了一个强大的抽象层,任何AI客户端(如Cursor、Claude等)都可以通过简单的API调用或链接嵌入,接入一个高质量、持续更新的知识库,而无需自行构建和维护复杂的数据摄取与处理管道。这极大地降低了构建智能、知识丰富的AI应用的门槛。

通用翻译器:模型上下文协议(MCP)

如果说Context7是为AI提供高质量“弹药”的军火库,那么模型上下文协议(Model Context Protocol, MCP)则是连接所有武器系统和传感器的标准化总线。MCP是由Anthropic公司于2024年11月推出的一项开放标准,并迅速得到了OpenAI、Google DeepMind、Microsoft等行业巨头的支持 。它的目标是标准化AI模型与外部工具、系统和数据源的集成方式。  

MCP被形象地比作“AI应用的USB-C端口” 。在MCP出现之前,将LLM连接到数据库、API或本地文件系统,需要开发者为每个连接编写定制化的、脆弱的“胶水代码”,这是一项繁重且难以维护的工作 。MCP通过定义一个通用的、基于JSON-RPC 2.0的协议,彻底改变了这一局面 。  

MCP的核心架构是Client-Server模型 :  

  • MCP主机(Host):指代希望通过MCP访问数据的AI应用程序,如Cursor、JetBrains IDE或Claude桌面应用。
  • MCP服务器(Server):是一个轻量级程序,它将特定的外部能力通过MCP协议暴露出来。
  • 能力(Capabilities):服务器可以暴露三种主要能力:
    • 资源(Resources):提供数据和上下文,如文件内容、数据库查询结果 。  
    • 工具(Tools):提供可执行的函数,让AI能够产生实际的副作用,如发送API请求、执行计算 。  
    • 提示(Prompts):提供可复用的提示模板和工作流 。  

一个不断增长的MCP服务器注册表正在形成,涵盖了从Git、GitHub到数据库、网页抓取等各种常用工具 。这意味着任何兼容MCP的主机都可以即插即用地连接到任何兼容MCP的服务器,从而获得其能力。  

MCP是本文所讨论的最具变革性的趋势。它标志着单体、封闭的AI模型时代的终结,以及一个可组合、Agentic的AI系统新纪元的开启。行业的价值主张正在从单个LLM的原始智能,转向AI应用通过一个通用协议来编排一个由专业化工具和数据源组成的网络的能力。

其内在逻辑是:

  1. 单个AI工具存在固有局限(知识陈旧、无法与现实世界交互)。  
  2. 以往将它们与外部服务连接的过程是定制化、脆弱且成本高昂的 。  
  3. MCP将这种连接标准化 。  
  4. 这种标准化允许任何兼容MCP的客户端(如Cursor、Copilot)即时连接到任何兼容MCP的服务器(如Context7、GitHub),从而创造出能力的组合爆炸效应 。  
  5. 一个AI Agent现在可以在一个统一的工作流中,无缝地查询数据库、读取本地文件、搜索最新文档并发送一条Slack消息。这正是当前备受关注的“AI Agent”概念背后的技术基石。

横向比较:主流AI编码工具的上下文管理策略

AI编码工具市场日益拥挤,各个产品都声称自己“智能”。为了拨开营销的迷雾,看清本质,我们必须比较它们在上下文管理这一核心能力上的具体实现机制。下表总结了几个主流工具的关键特性,随后的分析将对此进行详细阐述。

工具持久化指令 (类比 rules.md)文件排除 (类比 .cursorignore)聊天内上下文 (@, #)动态上下文 (MCP支持)Agent能力 (Agent Mode)
Cursor✅ (User/Project Rules, .mdc)✅ (.cursorignore, .cursorindexingignore)✅ (@Files, @Codebase, etc.)✅✅ (Agent Mode)
GitHub Copilot✅ (Personal/Repo Instructions)✅ (Content Exclusion)✅ (@workspace, #file)✅ (Public Preview)✅ (Coding Agent)
JetBrains AI Assistant❌ (无直接对应功能)✅ (.aiignore)✅ (@, #file, #symbol)✅ (Beta)🟡 (Edit Mode, 多文件变更)
Zed✅ (Rules)🟡 (通过规则和工具配置)✅ (@ mentions)✅✅ (Agent Panel)
Aider (CLI)✅ (通过配置文件和只读文件)✅ (.aiderignore)🟡 (通过 /add, /read 命令)🟡 (通过 AiderDesk 扩展)✅ (原生命令行Agent)

GitHub Copilot:从助手到平台的演进

GitHub Copilot已经从一个简单的代码补全工具,迅速演变为一个复杂的、深度集成上下文的编程平台。它通过@workspace#file等变量为聊天提供精确的上下文范围 。其“内容排除”功能类似于.cursorignore,允许组织和个人阻止特定文件被AI处理 。更重要的是,Copilot引入了个人和仓库级别的“自定义指令”,这在功能上与Cursor的rules.md非常相似,允许团队为特定项目编码AI的行为准则 。最关键的战略举措是,GitHub正在积极拥抱MCP,旨在将Copilot打造成一个可扩展的平台,能够集成无数第三方工具和服务 。  

JetBrains AI Assistant:深度IDE集成

JetBrains AI Assistant的优势在于其与IntelliJ IDEA、PyCharm等IDE的无缝集成。它利用IDE本身对代码结构的深刻理解,提供高度情境化的重构和修复建议 。在上下文管理方面,它同样支持通过#@符号在聊天中引用文件、符号等 。它通过.aiignore文件来排除特定文件,以保护隐私和提升性能 。与Copilot一样,JetBrains也正在将MCP作为其连接外部数据源(如数据库、API)的核心技术,目前处于Beta阶段 。  

命令行Agent (Aider & Amazon Q CLI):Git原生的工作流

Aider和Amazon Q CLI代表了另一种截然不同的交互范式,专为习惯于命令行的开发者设计。它们的上下文管理与本地文件系统和Git仓库紧密绑定。Aider会通过分析整个代码库,构建一个紧凑的“仓库地图”(repository map),为LLM提供高层次的项目结构概览,这在大型项目中尤为有效 。这些工具将Git作为核心交互机制,AI的每一次修改都会被自动提交,使得完整的版本历史记录成为人机对话的一部分,开发者可以使用 git diff/undo等命令轻松地审查和回滚AI的变更 。这种工作流对于偏爱脚本化、自动化和版本控制的开发者具有极大的吸引力。  

开源挑战者 (Zed & Void):性能与透明度的追求

Zed和Void是新一代的开源代码编辑器,它们从一开始就将AI和高性能作为核心设计目标。Zed拥有一个强大的“Agent面板”(Agent Panel)来管理与AI的交互,支持通过@符号添加上下文,并且也是一个MCP客户端,能够连接外部工具 。Void则定位为Cursor的开源替代品,它将隐私和本地模型控制放在首位,允许用户直接连接到本地运行的LLM,避免将代码发送到第三方服务器,同时它也实现了Agent功能和MCP支持 。它们的开源特性为开发者提供了最大程度的控制权和透明度。  

新兴的范式——人机协作编程的未来

当我们整合前述的所有趋势——从应对LLM固有缺陷的本地工具,到连接外部世界的生态协议——一幅关于未来软件开发协作模式的清晰图景便浮现出来。这不仅是工具的演进,更是开发者角色和工作流程的深刻变革。

从助手到Agent:一种新的协作模型

行业正在经历一个关键的转变:从AI助手(Assistants)到AI代理(Agents)的演进。助手是被动地响应指令,帮助完成特定任务的工具,如代码补全或回答问题 。而Agent则是能够主动地规划、分解任务并自主执行完整工作流的系统 。  

本文中详细讨论的工具和协议,正是实现这一转变的基石。一个所谓的“Agent”,本质上就是一个拥有了更优越能力的助手:

  • 更好的上下文:通过RAG技术(如Context7)和长上下文窗口获得准确、全面的信息。
  • 更好的工具:通过MCP协议获得与外部世界交互的能力。
  • 更好的指令:通过持久化规则(如rules.md或自定义指令)获得清晰、一致的行为准则。

可以说,正是这些先进的沟通框架,赋予了AI“代理权”(agency)。与此同时,人机协作编程(pAIr programming)作为一个学术研究领域也日益受到关注。研究表明,尽管AI伙伴展现出巨大潜力,但目前仍缺乏像传统人与人协作编程那样成熟的评估方法和最佳实践指南 。这预示着,如何设计高效、和谐的人机协作模式,将是未来HCI领域的核心课题。  

人类为架构师,AI为实现者

随着AI能力的增强,开发者的角色正在发生根本性的变化。一位经验丰富的开发者分享的有效AI协作工作流是:首先让人类制定策略和计划,然后让AI去实现,最后由人类进行审查和迭代 。这个模型将人类的优势(战略思维、架构设计、创造力、批判性评估)与AI的优势(不知疲倦的执行、对细节的记忆、快速生成)完美结合。  

在这个新范式中,最有价值的人类技能不再是单纯地记忆和编写特定语言的语法,而是:

  • 复杂问题分解能力:将模糊的业务需求转化为清晰、可执行的技术任务。
  • 架构设计能力:为系统搭建合理、可扩展的骨架,确定技术选型,这是AI目前难以胜任的创造性工作 。  
  • AI引导与利用能力:精通如何为AI提供恰当的上下文、制定明确的规则,并从其输出中甄别出高质量的部分 。  

未来,一名高级开发者的价值,将更多地体现在其作为“AI牧马人”或“AI协调员”的能力上。他们负责定义问题、策划解决方案、监督执行过程并对最终质量负责。

对现代开发者的建议:在CADE时代茁壮成长

CADE(AI驱动的编码时代,Coding in the Age of AI-Driven Engineering),或者叫Vibe Coding(氛围编程)时代已经到来。为了在这个新时代中保持竞争力并提升效率,开发者可以采取以下行动策略:

  • 1. 成为上下文管理大师 将上下文管理视为一项核心开发技能,而不是一个辅助功能。深入学习你所选择的IDE提供的特定上下文工具,无论是Cursor的@引用、Copilot的@workspace,还是JetBrains的#file。在开始一项任务前,思考“我需要为AI提供哪些文件、哪些代码片段、哪些文档,才能让它最好地理解我的意图?”。
  • 2. 拥抱声明式指导 从一次性的、命令式的聊天提示,转向持久化的、声明式的规则配置。投入时间为你和你的团队编写高质量的项目级规则(Project Rules)或仓库自定义指令(Repository Custom Instructions)。这是一项高杠杆的活动:一次性的投入,可以在后续无数次的人机交互中,带来代码质量的显著提高和开发风格的一致性,从而节省大量的时间。
  • 3. 用协议思维看待工具 开始关注并理解MCP这样的开放协议。要认识到,你的IDE正在从一个封闭的工具,演变为一个连接着由无数服务组成的网络的“主机”。浏览MCP服务器的注册列表,思考你可以如何将你自己的数据源或内部工具通过MCP连接到你的AI工作流中。这会为你打开全新的自动化可能性。
  • 4. 采取“人在其中”(Human-on-the-Loop)的心态 永远不要盲目地信任AI的输出。将AI定位为强大的实现工具,但将架构决策、安全审查、逻辑正确性验证和最终的产品质量把关等关键环节,牢牢掌握在人类智慧的手中。建立一个“计划-AI执行-人类审查”的迭代循环工作流 。学会批判性地评估AI的建议,并准备好在它犯错时进行纠正和引导。  

最终,与AI的沟通是一门艺术,也是一门科学。掌握这门艺术的开发者,将不仅仅是代码的编写者,更是未来软件的首席架构师。

AI普惠!我用AI写了个免费提供大模型API的开放平台

作者 jaxli
2025年3月30日 12:05

Vibe Coding这个词火了,指挥AI干活的风潮席卷全球。为了验证当下的实际效果,最近正好想把多个模型供应商开放的免费模型放在一起,方便自己使用的同时,也能再降低独立开发者对接大模型API的门槛。

我用的工具:Trae国际版+Cursor(Claude3.5/3.7+DeepSeek-V3-0324)

技术架构:Next.js+Supabase+Vercel

如果你也想体验AI编程,推荐黄叔在WaytoAGI社区发布的Build on Trae系列教程,跟着实操很容易上手~

https://waytoagi.feishu.cn/wiki/O5V5wLC5Jiilpjk9j9RcAuACnZcWaytoAGI

直接进入正题:

AI Tools开放平台

https://platform.aitools.cfd/

免注册登录,获取API密钥、接口地址、模型名称后直接使用,兼容OpenAI接口规范

目前支持多个最新主流模型(包括DeepSeek的满血版模型):

以开源模型为主,由OpenRouter、SiliconFlow等模型供应商提供,包括DeepSeek-R1、DeepSeek-V3-0324、Qwen2.5、QwQ、GLM-4-Flash、Gemini2.5Pro、Gemma3等,既有语言模型,也有多模态视觉模型,也有多个支持function call的模型。

以上是给开发者看的,那么普通用户如何使用呢:

1、下载安装CherryStudio:https://www.cherry-ai.com/download

官网如果无法访问,可用夸克网盘下载:https://pan.quark.cn/s/c8533a1ec63e

2、依次点击左下角“设置”图标、左侧“模型服务”菜单、点击“添加”,输入AI Tools

3、到这个页面获取API密钥:https://platform.aitools.cfd/key 粘贴到CherryStudio中

4、然后将这个地址https://platform.aitools.cfd/api 粘贴到“API地址”栏

5、点击添加模型,将以下模型id添加进来,你可以全部添加,也可以选择你想要使用的模型添加即可。

deepseek/deepseek-r1、deepseek/deepseek-v3、deepseek/deepseek-v3-0324、qwen/qwq-32b、google/gemini-2.5-pro-exp、zhipu/glm-4-9b、qwen/qwen2.5-7b、deepseek/deepseek-r1-32b、deepseek/deepseek-r1-70b、google/gemma-3-27b、google/gemini-2.0-flash-exp、qwen/qwen2.5-72b、qwen/qwen2.5-vl-72b、qwen/qwen2.5-vl-32b、zhipu/glm-4-flash、zhipu/glm-4v-flash

粘贴模型ID,下方的两项会自动填写,模型名称用于界面显示,可任意修改。

6、回到CherryStudio的首页,顶部选择好模型,就可以开始使用啦!

什么是Agent Loop

作者 jaxli
2025年3月19日 14:25

Agent Loop(智能体循环) 是自主智能体(AI Agent)的核心运行机制,通过不断迭代的步骤实现目标导向的任务执行。以下是其核心流程及关键组成部分:

1. 核心原理:闭环反馈驱动

Agent Loop是一个持续循环的过程,通过以下步骤动态调整策略以完成任务:

  • 输入解析:理解用户指令或环境状态。
  • 规划与决策:生成行动计划(如分解子任务、选择工具)。
  • 执行操作:调用工具(如API、代码、外部服务等)获取结果。
  • 反馈学习:根据执行结果调整策略,优化后续步骤。

2. 典型流程分步

(1) 目标解析(Goal Parsing)

  • 任务分解:将用户指令拆解为可执行的子目标。
    示例:若用户说“预订从北京到纽约的机票”,Agent会将其分解为查询航班时间、比较价格、确认座位等步骤。
  • 意图识别:通过自然语言处理(NLP)确定用户的深层需求。

(2) 规划与任务分配(Planning & Task Allocation)

  • 生成行动计划:利用LLM(如GPT)或规则引擎制定分步策略。
    示例:使用Python代码调用航班API,或通过对话询问用户偏好。
  • 工具选择:根据任务需求选择合适的工具(如搜索引擎、数据库接口、第三方服务等)。

(3) 执行与操作(Execution & Action)

  • 工具调用:直接执行代码、调用API或触发外部动作。
    示例:通过OpenAI的requests库访问天气数据,或调用支付系统完成交易。
  • 结果收集:获取执行后的反馈信息(如成功/失败状态、返回的数据)。

(4) 反馈与调整(Feedback & Adaptation)

  • 评估结果:判断当前步骤是否达成目标。
    示例:若航班查询无结果,可能需要调整搜索条件或重新询问用户。
  • 记忆更新:通过记忆模块(Memory)存储上下文信息,确保后续步骤的连贯性。

(5) 输出与终止

  • 最终输出:向用户提供任务完成的结果或下一步建议。
    示例:“已为您预订航班CX8401,起飞时间为2月15日18:30。”
  • 循环终止条件:当目标达成、超时或用户中断时停止循环。

3. 关键技术支撑

(1) 大语言模型(LLM)

  • 作为Agent的“大脑”,负责意图理解、规划生成和自然语言交互。
    示例:使用Claude-3.5-Sonnet模型解析指令并生成代码片段。

(2) 工具调用链(Tool Chains)

  • 集成多种工具实现具体任务,如:
    • 数据查询(数据库API)
    • 文件操作(读写本地文件)
    • 浏览器使用(访问互联网内容)
    • 编辑器使用(Coding)
    • 外部服务(支付、物流系统)

(3) 记忆模块(Memory)

  • 存储历史对话和中间结果,确保长期上下文一致性。
    示例:在多轮对话中记住用户的偏好(如“我只坐商务舱”)。

4. 典型应用场景

  1. 自动化任务:如数据抓取、邮件分类、订单处理。
  2. 复杂决策支持:金融分析、医疗诊断建议。
  3. 虚拟助手:智能客服、个人日程管理。
  4. 游戏AI:自主角色行为规划(如《星际争霸》中的AI对手)。

5. 与传统流程的区别

  • 动态适应性:不同于固定流程的“Workflow”,Agent Loop可实时调整策略。
  • 目标导向:始终围绕用户指令优化路径,而非按预设步骤执行。
  • 自主决策:通过LLM和工具链实现端到端自动化。

Agent Loop的核心是以目标为导向的动态循环机制,结合LLM的推理能力与工具链的执行能力,在反馈迭代中逐步逼近最终结果。这一模式正在推动AI从“单次响应”向“持续协作”发展,成为下一代智能系统的基础架构之一。

ollama常用命令

作者 jaxli
2025年2月16日 10:55

-运行模型(本地没有会自动pull,模型名称可以带远程仓库路径):ollama run 模型名称

-运行时显示性能数据:ollama run –verbose 模型名称

-拉取模型(比如嵌入模型):ollama pull 模型名称

-查看已安装模型(可看到模型大小和安装时间):ollama list

-删除模型:ollama rm 模型名称

-查看模型运行数据(CPU/GPU占比等):ollama ps

-查看模型配置文件:ollama show 模型名称 –modelfile

-从modelfile创建模型:ollama create 模型名称 -f Modelfile

运行中:

修改模型参数(以设置线程数32为例):/set parameter num_thread 32

修改上下文窗口(以修改为8k为例):/set parameter num_ctx 8192

修改gpu数量(以纯cpu推理为例):/set parameter num_gpu 0

清除上下文:/clear

退出:/bye

帮助:/?

深度学习中的稠密架构与稀疏架构

作者 jaxli
2025年2月12日 15:17

在深度学习中,稠密架构(Dense Architecture)和稀疏架构(Sparse Architecture)是两种常见的神经网络设计方式,它们的主要区别在于神经元或连接的分布密度。

1. 稠密架构(Dense Architecture)

稠密架构是指每一层的神经元都与前一层的所有神经元连接的网络结构。这种结构在大多数传统的深度学习网络中都很常见,比如经典的全连接神经网络(Fully Connected Networks)和卷积神经网络(CNN)中的某些部分。

特点

• 每个神经元都会与前一层的所有神经元进行连接。

• 网络结构非常密集,参数量通常很大。

• 计算量和存储开销较大,可能导致较长的训练时间和较高的计算资源需求。

• 适用于一些要求高表达能力的任务。

优点

• 高度连接的结构使得网络可以学习非常复杂的模式和特征。

• 对于大多数传统任务,如图像分类、语音识别等表现良好。

缺点

• 参数非常多,容易导致过拟合。

• 高计算和存储需求,尤其是在大型网络中,计算资源开销很大。

2. 稀疏架构(Sparse Architecture)

稀疏架构是指每一层的神经元只与前一层中的部分神经元连接,而不是与每个神经元都连接。这样做的目的是减少计算和存储成本,提高效率。

特点

• 只有一部分连接被保留,而其他连接被去除,从而减少了网络中的参数数量。

• 稀疏连接的选择可以是手动设计的,也可以通过一些算法自动选择,比如基于稀疏性的正则化方法。

• 通常采用稀疏矩阵表示,以节省内存和计算资源。

优点

• 更少的参数,使得网络计算和存储更加高效。

• 可能有助于提高泛化能力,减少过拟合。

• 可以应用于一些资源受限的环境,比如嵌入式系统和边缘计算设备。

缺点

• 由于不是每个神经元都参与计算,可能会限制模型的表达能力,导致性能下降。

• 稀疏结构设计较复杂,可能需要特定的优化方法来训练。

稠密与稀疏架构的对比

特性稠密架构 (Dense)稀疏架构 (Sparse)
连接方式每个神经元与前一层所有神经元连接仅部分连接
参数数量较多较少
计算和存储开销
训练效率需要更多计算资源计算资源消耗较低
表现能力可能略低(取决于稀疏程度)
过拟合风险较高较低
适用场景传统大规模深度学习任务资源受限场景,如边缘计算、嵌入式

稀疏架构的应用

在一些前沿的研究中,稀疏架构已被广泛应用,例如神经网络剪枝(Pruning)技术,它通过去除一些不必要的连接(或者低权重的连接)来实现稀疏化。此外,一些更先进的模型,如稀疏变换器(Sparse Transformer)等,也采用了稀疏连接来提高计算效率,尤其是在处理大规模数据时。

总之,稠密和稀疏架构各有优缺点,通常会根据具体应用需求来选择合适的架构。在某些情况下,可能会结合这两者的优势,使用混合架构(如稠密-稀疏混合网络)来获得更好的效果。

【教程】基于DeepSeek-R1的个人AI知识库,全本地部署,可断网使用

作者 jaxli
2025年2月8日 23:55

从ChatGPT上线开始,我就有了一个想法,打造一个个人知识库,它可以充当我的第二大脑,记住我的尽量多的信息(包括隐私信息)。

无论是我每天的琐碎事务,还是重要的决策和回忆,它都能存储并快速检索。当我问它“我去年5月做了什么?”时,它不仅能够从知识库中找到当时的记录,还能结合上下文和细节,帮助我回忆起那些可能遗忘的瞬间。

但要实现这个想法,用在线服务肯定是不行的,我需要它完全本机运行。现在,有了可完全本机部署的deepseek-r1和bge-m3,加上界面优雅的Cherry Studio,是时候实现它了。

注意1:以下步骤在苹果M系列芯片,16G内存的MacBook Pro上实现。由于Mac拥有统一内存和显存,类似配置的PC除了16G及以上的内存外,还需要有额外的显存分配才能正常运行。

注意2:先不要吐槽非满血版deepseek-r1的模型效果,可以先学会怎么本机部署,往后开源的模型会越来越好的(一年前谁能想到现在端侧大模型效果这么好了呢)。


直接开始:
1、下载安装ollama:https://ollama.com/download

按自己的电脑系统选择即可,安装后,双击启动。

2、下载DeepSeek-R1:14b模型(9GB)

这里我选择了我的设备能运行的最大尺寸的模型,14b参数的这个。打开终端,输入命令:

ollama run deepseek-r1:14b
回车之后,模型就开始下载啦,确保电脑硬盘还有足够的剩余空间(下图示意是7b参数的版本,共4.7GB)

等待模型下载完成后,当你看到 >>> 提示符,这时已经可以跟模型聊天啦,让我们来试试:

到这里,如果你不需要知识库,你已经完成了deepseek-r1模型的本地部署,是不是很简单?只是这个聊天界面在命令行中,也无法保存跟deepseek的聊天记录。

更多尺寸的模型下载命令可以在这里找到:https://ollama.com/library/deepseek-r1

也可以在顶部Models菜单中找到其他的开源模型,比如阿里的通义千问qwen2.5、智谱的GLM-4、Meta的Llama3.2等等,有兴趣都可以试试,支持多个模型同时安装。

查看已安装模型的命令:ollama list

​删除已安装模型的命令(rm后是要删除的模型名称):ollama rm deepseek-r1:14b

3、下载embedding模型 bge-m3(1.2GB)

打开终端,输入命令:ollama pull bge-m3

等待下载完毕,看到success,关闭终端就行了。embedding嵌入模型的作用是把知识库里的文档内容转化为便于搜索的向量,这里只需要理解它是用来处理知识库文档数据的即可。

4、安装Cherry Studio

访问:https://cherry-ai.com,根据电脑系统选择相应版本下载安装

Cherry Studio是一款支持本地知识库的AI客户端,其实同类产品还有很多,比如Chatbox(有联网搜索和手机端)、PageAssist(浏览器插件)、Enchanted(简洁轻量)、OpenWebUI(可供局域网内多人访问)等等,有兴趣的同学可以挨个体验下。

到这里我们需要下载和安装的东西都完成了,接下来断网也可以使用。

5、配置模型提供商:Ollama,添加LLM语言模型和embedding嵌入模型

启动Cherry Studio,依次点击左下角设置-模型服务-Ollama,开启Ollama,API地址保持默认,点击管理按钮,可以看到会自动读取到我们刚才下载的deepseek-r1:14b和bge-m3[嵌入] 两个模型,点击添加。

这样我们就把Ollama下载的两个模型配置到Cherry Studio中了。

拓展阅读:在模型服务的设置这里,可以看到Cherry Studio已经支持的模型提供商,推荐大家还可以添加一个部署在siliconflow硅基流动的DeepSeek-R1满血版,但与这个模型产生的交互都需要连接网络,你的问题会被发送到siliconflow硅基流动的服务器,使用满血版会按实际用量计费,你可以根据自己的实际情况选择是否使用。配置时需要用到的api密钥,可通过这个链接https://cloud.siliconflow.cn/i/r2Z3LRPQ注册获取,现在新注册会有免费额度赠送。

6、创建知识库,导入本地文档

点击Cherry Studio左侧的知识库按钮,再点击“添加”,给知识库取个名字,嵌入模型选择我们刚才下载的bge-m3,点击确定后,即可创建出一个知识库。

这时可以添加文件或者直接拖拽文件到知识库里,支持pdf、docx、pptx、txt等格式,把个人简历、日记、工作文档、甚至微信聊天记录(前提是手动导成文本)放进来都可以。

我们先加一两个文档试试,可以看到加入后,每个文档都会经过嵌入模型的处理,有个蓝色小点loading过程,如果看到绿色小勾,就代表这个文档可以被deepseek检索到了。

此时,DeepSeek就学习了你上传的文档。这是一种被称为RAG的技术,AI收到你的问题后,会先到知识库里找出最相关的几个片段,然后结合它自有的知识,组织一段新的表述回复给你。这样就能把AI大模型原本训练时没有的知识(比如关于你个人的信息)告诉它。

好啦,现在你电脑上的DeepSeek-R1就拥有了知晓你私人文档的知识库:回到聊天界面,顶部选择deepseek-r1:14b|Ollama这个模型,输入框下方知识库按钮选中刚才创建的知识库,现在试试询问一个DeepSeek本身不知道的问题——

大功告成,我也要再去丰富一下我的个人知识库了

更多AI动态,欢迎关注公众号:未来科技

DeepSeek-R1论文 中文版(R1翻译)

作者 jaxli
2025年2月7日 11:54

在回沪的航班上,我用本地大模型翻译了这篇paper,这里也分享出来,省略部分图表。

DeepSeek-R1:通过强化学习激励大型语言模型的推理能力

DeepSeek-AI
research@deepseek.com

摘要
我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和DeepSeek-R1 。DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,展现了显著的推理能力。通过 RL,DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。然而,它面临着可读性差和语言混合等挑战。为了解决这些问题并进一步增强推理性能,我们引入了 DeepSeek-R1,该模型在 RL 之前结合了多阶段训练和冷启动数据。 DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区,我们开源了 DeepSeek-R1-Zero 、DeepSeek-R1 以及基于 Qwen 和Llama 从DeepSeek-R1 提炼出的六个密集模型(1.5B 、7B 、8B 、14B 、32B 、70B)。

内容

  1. 引言
    1.1. 贡献
    1.2. 评估结果总结
  2. 方法
    2.1. 概述
    2.2. DeepSeek-R1-Zero:基础模型上的强化学习
    2.2.1. 强化学习算法
    2.2.2. 奖励建模
    2.2.3. 训练模板
    2.2.4. DeepSeek-R1-Zero 的性能、自我演化过程和“顿悟”时刻
    2.3. DeepSeek-R1:带有冷启动的强化学习
    2.3.1. 冷启动
    2.3.2. 以推理为导向的强化学习
    2.3.3. 拒绝采样和监督微调
    2.3.4. 适用于所有场景的强化学习
    2.4. 蒸馏:赋予小模型推理能力
  3. 实验
    3.1. DeepSeek-R1 评估
    3.2. 蒸馏模型评估
  4. 讨论
    4.1. 蒸馏与强化学习
    4.2. 不成功的尝试
  5. 结论、局限性和未来工作
    A. 贡献和致谢(略)

1. 引言
近年来,大型语言模型(LLMs)经历了快速的迭代和演变,逐渐缩小了与人工通用智能(AGI)之间的差距。最近,后训练已成为完整训练流程的重要组成部分。研究表明,它可以提高推理任务的准确性,与社会价值观对齐,并适应用户偏好,同时相对于预训练而言需要的计算资源相对较少。在推理能力方面,OpenAI 的o1 系列模型首次引入了通过增加思维链(Chain-of-Thought)推理过程的长度来进行推理时扩展的方法。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而,如何有效地进行测试时扩展仍然是研究社区面临的一个开放问题。之前的几项工作探索了各种方法,包括基于过程的奖励模型、强化学习和搜索算法(如蒙特卡洛树搜索和束搜索)。然而,这些方法都未能在推理性能上达到与 OpenAI 的o1 系列模型相当的水平。

在本文中,我们迈出了通过纯强化学习(RL)提高语言模型推理能力的第一步。我们的目标是探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力,专注于它们通过纯 RL 过程的自我演化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为 RL 框架,以提高模型在推理方面的表现。在训练过程中,DeepSeek-R1-Zero 自然展现出许多强大而有趣的推理行为。在经过数千步的 RL 后,DeepSeek-R1-Zero 在推理基准测试中的表现超群。例如,AIME 2024 的pass@1 分数从 15.6%上升到 71.0%,通过多数投票,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的表现相匹配。

然而,DeepSeek-R1-Zero 面临着可读性差和语言混合等挑战。为了解决这些问题并进一步增强推理性能,我们引入了 DeepSeek-R1,该模型结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千条冷启动数据,以微调 DeepSeek-V3-Base 模型。随后,我们执行以推理为导向的 RL,如同 DeepSeek-R1-Zero 。当 RL 过程接近收敛时,我们通过对 RL 检查点进行拒绝采样生成新的 SFT 数据,并结合来自 DeepSeek-V3 的监督数据,涵盖写作、事实问答和自我认知等领域,然后对 DeepSeek-V3-Base 模型进行再训练。在用新数据微调后,该检查点经过额外的 RL 过程,考虑到来自所有场景的提示。经过这些步骤,我们获得了一个称为 DeepSeek-R1 的检查点,其在推理任务上的表现与 OpenAI-o1-1217 相当。

我们进一步探索从 DeepSeek-R1 蒸馏出小型密集模型。使用 Qwen2.5-32B 作为基础模型,直接从 DeepSeek-R1 蒸馏的结果优于在其上应用 RL 。这表明大型基础模型发现的推理模式对于提高推理能力至关重要。我们开源了基于 DeepSeek-R1 蒸馏的 Qwen 和Llama 系列模型。值得注意的是,我们的蒸馏 14B 模型在推理基准测试中显著超越了最新的开源 QwQ-32B-Preview,而蒸馏的 32B 和70B 模型在密集模型中创下了新的推理基准记录。

1.1. 贡献
后训练:基础模型上的大规模强化学习

  • 我们直接将 RL 应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索解决复杂问题的思维链(CoT),从而发展出 DeepSeek-R1-Zero 。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力,标志着研究社区的一个重要里程碑。值得注意的是,这是首个公开研究,验证了 LLMs 的推理能力可以通过纯 RL 激励,而无需 SFT 。这一突破为未来在这一领域的进展铺平了道路。
  • 我们引入了开发 DeepSeek-R1 的流程。该流程结合了两个 RL 阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信该流程将使行业受益,创造出更好的模型。

蒸馏:小模型也可以强大

  • 我们证明了大型模型的推理模式可以蒸馏到小模型中,从而在性能上超越通过 RL 发现的推理模式。开源的 DeepSeek-R1 及其 API 将使研究社区在未来蒸馏出更好的小模型。
  • 使用 DeepSeek-R1 生成的推理数据,我们微调了多个广泛使用的密集模型。评估结果表明,蒸馏的小型密集模型在基准测试中表现出色。 DeepSeek-R1-Distill-Qwen-7B 在AIME 2024 上达到 55.5%,超越了 QwQ-32B-Preview 。此外,DeepSeek-R1-Distill-Qwen-32B 在AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%。这些结果显著超越了之前的开源模型,并与 o1-mini 相当。

1.2. 评估结果总结

  • 推理任务:
    (1) DeepSeek-R1 在AIME 2024 上得分 79.8% Pass@1,略微超过 OpenAI-o1-1217 。在 MATH-500 上,它取得了令人印象深刻的 97.3%的成绩,与 OpenAI-o1-1217 表现相当,并显著超越其他模型。
    (2) 在与编码相关的任务中,DeepSeek-R1 在代码竞赛任务中表现出色,获得了 Codeforces 上的 2,029 Elo 评分,超过了 96.3%的参赛人。对于工程相关任务,DeepSeek-R1 的表现略优于 DeepSeek-V3,这可能有助于开发者在实际任务中。
  • 知识:在 MMLU 、MMLU-Pro 和GPQA Diamond 等基准测试中,DeepSeek-R1 取得了出色的结果,得分分别为 90.8%、 84.0%和 71.5%,显著超越 DeepSeek-V3 。尽管在这些基准测试中的表现略低于 OpenAI-o1-1217,但 DeepSeek-R1 超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 中,DeepSeek-R1 的表现优于 DeepSeek-V3,显示出其处理基于事实查询的能力。在该基准测试中,OpenAI-o1 也超越了 4o 。
  • 其他:DeepSeek-R1 在广泛的任务中表现出色,包括创意写作、一般问答、编辑、摘要等。在 AlpacaEval 2.0 上,它实现了 87.6%的长度控制胜率,在 ArenaHard 上达到了 92.3%的胜率,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务上表现出色,在长上下文基准测试中显著超越 DeepSeek-V3 。

2. 方法

2.1. 概述
以往的工作在提升模型性能时,往往依赖大量的监督数据。在本研究中,我们展示了通过大规模强化学习(RL)显著提升推理能力,即使在没有使用监督微调(SFT)作为冷启动的情况下。此外,加入少量高质量数据作为冷启动可以进一步提升性能。接下来的部分将介绍:(1) DeepSeek-R1-Zero,该模型直接将 RL 应用于基础模型,而没有任何 SFT 数据;(2) DeepSeek-R1,该模型从经过数千条长思维链(CoT)示例微调的检查点开始应用 RL;(3) 将推理能力蒸馏到小型密集模型。

2.2. DeepSeek-R1-Zero:基础模型上的强化学习

强化学习在推理任务中展现出了显著的有效性,如我们之前的工作所示。然而,这些工作在实践中高度依赖于监督数据,这些数据的收集耗时。我们在这一部分探讨了 LLMs 在没有任何监督数据的情况下,如何通过纯强化学习过程发展推理能力,重点关注它们的自我演化。

2.2.1. 强化学习算法
我们采用了群体相对策略优化(GRPO),以节省 RL 的训练成本。 GRPO 省略了通常与策略模型同等大小的评论模型,而是从群体得分中估计基线。具体来说,对于每个问题𝑞,GRPO 从旧策略𝜋𝜃𝑜𝑙𝑑中抽样一组输出{𝑜1, 𝑜2, · · · , 𝑜𝐺},然后通过最大化以下目标来优化策略模型𝜋𝜃:

[ J_{GRPO}(\theta) = E[q \sim P(Q), {o_i}{i=1}^{G} \sim \pi{\theta_{old}}(O|q)] ]

2.2.2. 奖励建模
奖励是训练信号的来源,决定了强化学习(RL)的优化方向。为了训练 DeepSeek-R1-Zero,我们采用了一种基于规则的奖励系统,主要由两种类型的奖励组成:

  • 准确性奖励:准确性奖励模型评估响应是否正确。例如,在确定性结果的数学问题中,模型需要以指定的格式(例如,在框内)提供最终答案,从而实现可靠的基于规则的正确性验证。同样,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励:除了准确性奖励模型外,我们还采用格式奖励模型,强制模型将其思维过程放在“<think>”和“</think>”标签之间。

我们没有在开发 DeepSeek-R1-Zero 时应用结果或过程神经奖励模型,因为我们发现神经奖励模型可能在大规模强化学习过程中遭遇奖励黑客问题,而重新训练奖励模型需要额外的训练资源,并且会使整个训练流程变得复杂。

2.2.3. 训练模板
为了训练 DeepSeek-R1-Zero,我们首先设计了一个简单的模板,指导基础模型遵循我们的指定指令。如表 1所示,该模板要求 DeepSeek-R1-Zero 首先生成推理过程,然后给出最终答案。我们故意将约束限制在这种结构化格式上,避免任何内容特定的偏见——例如强制反思性推理或推广特定问题解决策略——以确保我们能够准确观察模型在 RL 过程中的自然进展。

2.2.4. DeepSeek-R1-Zero 的性能、自我演化过程和“顿悟”时刻
DeepSeek-R1-Zero 的性能如图 2所示,展示了其在 AIME 2024 基准测试中的表现轨迹。在 RL 训练过程中,DeepSeek-R1-Zero 的性能稳步提升,表现出持续的增强。值得注意的是,AIME 2024 的平均 pass@1 分数显著增加,从最初的 15.6%跃升至 71.0%,达到了与 OpenAI-o1-0912 相当的性能水平。这一显著提升突显了我们的 RL 算法在优化模型性能方面的有效性。

表 2提供了 DeepSeek-R1-Zero 与OpenAI 的o1-0912 模型在各种推理相关基准测试中的比较分析。研究结果显示,RL 使DeepSeek-R1-Zero 在没有任何监督微调数据的情况下获得了强大的推理能力。这是一个值得注意的成就,因为它强调了模型通过 RL 单独学习和概括的能力。此外,通过应用多数投票,DeepSeek-R1-Zero 的表现可以进一步增强。例如,在 AIME 基准测试中,当采用多数投票时,DeepSeek-R1-Zero 的表现从 71.0%提升至 86.7%,超越了 OpenAI-o1-0912 。DeepSeek-R1-Zero 在有无多数投票情况下都能取得如此竞争力的表现,突显了其强大的基础能力和在推理任务中进一步发展的潜力。

DeepSeek-R1-Zero 的自我演化过程
DeepSeek-R1-Zero 的自我演化过程展示了 RL 如何驱动模型自主提升其推理能力。通过直接从基础模型启动 RL,我们可以在没有监督微调阶段影响的情况下,密切监控模型的进展。这种方法清晰地展示了模型随时间演变的过程,特别是在处理复杂推理任务的能力方面。

如图 3所示,DeepSeek-R1-Zero 的思考时间在训练过程中持续改善。这种改善不是外部调整的结果,而是模型内部的内在发展。 DeepSeek-R1-Zero 通过利用扩展的测试时间计算,自然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

这一自我演化的最显著方面是,随着测试时间计算的增加,复杂行为的出现。反思等行为——模型重新审视和重新评估其先前步骤——以及探索替代问题解决方法的能力自发地出现。这些行为并不是显式编程的结果,而是模型与强化学习环境交互的结果。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够更高效、更准确地应对更具挑战性的任务。

DeepSeek-R1-Zero 的“顿悟”时刻
在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是“顿悟”时刻的出现。这一时刻发生在模型的一个中间版本中。在这一阶段,DeepSeek-R1-Zero 学会了通过重新评估其初始方法来为问题分配更多的思考时间。这种行为不仅证明了模型推理能力的提升,也是强化学习如何导致意想不到和复杂结果的迷人示例。

这一时刻不仅是模型的“顿悟”,也是观察其行为的研究者的“顿悟”。它强调了强化学习的力量和美丽:我们并不是明确教导模型如何解决问题,而是简单地为其提供正确的激励,模型便自主发展出先进的问题解决策略。“顿悟”时刻强有力地提醒我们,RL 有潜力解锁人工系统的新智能水平,为未来更自主和适应性的模型铺平道路。

DeepSeek-R1-Zero 的缺点
尽管 DeepSeek-R1-Zero 展现了强大的推理能力,并自主发展出意想不到和强大的推理行为,但它面临着一些问题。例如,DeepSeek-R1-Zero 在可读性差和语言混合等挑战上存在困难。为了使推理过程更具可读性并与开放社区分享,我们探索了 DeepSeek-R1,这是一种利用 RL 与人类友好的冷启动数据的方法。

2.3. DeepSeek-R1:带有冷启动的强化学习
受到 DeepSeek-R1-Zero 的良好结果的启发,自然产生了两个问题:1)通过加入少量高质量数据作为冷启动,推理性能是否可以进一步提高或收敛加速?2)我们如何训练一个用户友好的模型,不仅能生成清晰连贯的思维链(CoT),还能够展示出强大的通用能力?为了解决这些问题,我们设计了一个训练 DeepSeek-R1 的流程。该流程包括四个阶段,具体如下。

2.3.1. 冷启动
与 DeepSeek-R1-Zero 不同,为了防止 RL 训练初期的不稳定冷启动阶段,我们为 DeepSeek-R1 构建并收集了一小部分长 CoT 数据,以微调模型作为初始 RL 演员。为了收集这些数据,我们探索了几种方法:使用少量示例的长 CoT 进行提示,直接提示模型生成详细答案并进行反思和验证,收集 DeepSeek-R1-Zero 的可读格式输出,并通过人工注释者进行后处理来精炼结果。

在本研究中,我们收集了数千条冷启动数据,以微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:

  • 可读性:DeepSeek-R1-Zero 的一个关键限制是其内容往往不适合阅读。响应可能混合多种语言或缺乏突出答案的 Markdown 格式。相比之下,在为 DeepSeek-R1 创建冷启动数据时,我们设计了一个可读的模式,在每个响应的末尾包含摘要,并过滤掉不适合阅读的响应。我们在此定义输出格式为|special_token|<reasoning_process>|special_token|<summary>,其中推理过程是查询的 CoT,摘要用于总结推理结果。
  • 潜力:通过精心设计冷启动数据的模式并结合人类先验,我们观察到相较于 DeepSeek-R1-Zero 的更好表现。我们相信迭代训练是推理模型的更好方法。

2.3.2. 面向推理的强化学习
在对 DeepSeek-V3-Base 进行冷启动数据的微调后,我们应用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。这个阶段的重点是增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及定义明确且解决方案清晰的问题。在训练过程中,我们观察到 CoT(思维链)经常表现出语言混合,特别是在 RL 提示涉及多种语言时。为了缓解语言混合的问题,我们在 RL 训练中引入了语言一致性奖励,该奖励是根据 CoT 中目标语言单词的比例计算的。尽管消融实验表明,这种对齐会导致模型性能的轻微下降,但该奖励与人类偏好一致,使其更具可读性。最后,我们通过直接相加推理任务的准确性和语言一致性奖励来形成最终奖励。然后,我们在微调后的模型上应用 RL 训练,直到其在推理任务上达到收敛。

2.3.3. 拒绝采样和监督微调
当面向推理的 RL 收敛时,我们利用生成的检查点收集 SFT(监督微调)数据以进行下一轮。与最初主要关注推理的冷启动数据不同,这个阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。具体而言,我们生成数据并对模型进行微调,如下所述。
推理数据 我们策划推理提示,并通过对上述 RL 训练的检查点进行拒绝采样来生成推理轨迹。在前一个阶段,我们只包括可以使用基于规则的奖励进行评估的数据。然而,在这个阶段,我们通过引入额外数据来扩展数据集,其中一些数据使用生成奖励模型,通过将真实值和模型预测输入 DeepSeek-V3 进行判断。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了混合语言的思维链、冗长的段落和代码块。对于每个提示,我们采样多个响应,仅保留正确的响应。总共,我们收集了大约 60 万个与推理相关的训练样本。
非推理数据 对于非推理数据,如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 流程,并重用 DeepSeek-V3 的部分 SFT 数据集。对于某些非推理任务,我们调用 DeepSeek-V3 在回答问题之前生成潜在的思维链。然而,对于更简单的查询,如“你好”,我们不会提供思维链作为回应。最终,我们收集了大约 20 万个与推理无关的训练样本。
我们使用上述策划的数据集(约 80 万个样本)对 DeepSeek-V3-Base 进行了两轮微调。

2.3.4. 面向所有场景的强化学习
为了进一步使模型与人类偏好对齐,我们实施了一个二次强化学习阶段,旨在提高模型的有用性和无害性,同时精炼其推理能力。具体而言,我们使用奖励信号和多样化提示分布的组合来训练模型。对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据,我们依靠奖励模型来捕捉复杂和细微场景中的人类偏好。我们在 DeepSeek-V3 流程的基础上,采用类似的偏好对和训练提示分布。对于有用性,我们专注于最终总结,确保评估强调响应对用户的实用性和相关性,同时最小化对基础推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和总结,以识别和缓解在生成过程中可能出现的任何潜在风险、偏见或有害内容。最终,奖励信号和多样化数据分布的整合使我们能够训练出在推理方面表现出色,同时优先考虑有用性和无害性的模型。

2.4. 蒸馏:赋予小模型推理能力
为了使更高效的小模型具备类似 DeepSeek-R1 的推理能力,我们直接对开源模型(如 Qwen 和 Llama)进行微调,使用与 DeepSeek-R1 策划的 80 万个样本,如 §2.3.3 中详细说明的。我们的研究结果表明,这种简单的蒸馏方法显著增强了小模型的推理能力。我们在这里使用的基础模型包括 Qwen2.5-Math-1.5B 、Qwen2.5-Math-7B 、Qwen2.5-14B 、Qwen2.5-32B 、Llama-3.1-8B 和 Llama-3.3-70B-Instruct 。我们选择 Llama-3.3,因为它的推理能力略优于 Llama-3.1 。
对于蒸馏模型,我们仅应用 SFT,而不包括 RL 阶段,尽管纳入 RL 可能会显著提升模型性能。我们在这里的主要目标是展示蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的研究社区。

  1. 实验
    基准测试 我们在 MMLU(Hendrycks et al., 2020)、MMLU-Redux(Gema et al., 2024)、MMLU-Pro(Wang et al., 2024)、C-Eval(Huang et al., 2023)、CMMLU(Li et al., 2023)、IFEval(Zhou et al., 2023)、FRAMES(Krishna et al., 2024)、GPQA Diamond(Rein et al., 2023)、SimpleQA(OpenAI, 2024c)、C-SimpleQA(He et al., 2024)、SWE-Bench Verified(OpenAI, 2024d)、Aider 1、LiveCodeBench(Jain et al., 2024)(2024-08 – 2025-01)、Codeforces 2、中国全国高中数学奥林匹克(CNMO 2024)3,以及美国邀请数学考试 2024(AIME 2024)(MAA, 2024)上评估模型。除了标准基准测试外,我们还使用 LLM 作为评审对开放式生成任务进行评估。具体而言,我们遵循 AlpacaEval 2.0(Dubois et al., 2024)和 Arena-Hard(Li et al., 2024)的原始配置,这些配置利用 GPT-4-Turbo-1106 作为成对比较的评审。在这里,我们仅将最终摘要输入评估,以避免长度偏差。对于蒸馏模型,我们报告 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 的代表性结果。

评估提示 根据 DeepSeek-V3 的设置,标准基准测试(如 MMLU、DROP、GPQA Diamond 和 SimpleQA)使用来自 simpleevals 框架的提示进行评估。对于 MMLU-Redux,我们在零样本设置中采用 Zero-Eval 提示格式(Lin, 2024)。至于 MMLU-Pro、C-Eval 和 CLUE-WSC,由于原始提示是少样本的,我们稍微修改提示以适应零样本设置。少样本中的思维链可能会影响 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议,使用其创建者提供的默认提示。对于代码和数学基准,HumanEval-Mul 数据集涵盖八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。LiveCodeBench 上的模型性能使用思维链格式进行评估,数据收集时间为 2024 年 8 月至 2025 年 1 月。Codeforces 数据集使用来自 10 个 Div.2 竞赛的问题以及专家设计的测试用例进行评估,之后计算预期评级和竞争者的百分比。SWE-Bench 验证结果通过无代理框架获得(Xia et al., 2024)。与 AIDER 相关的基准使用“diff”格式进行测量。DeepSeek-R1 的输出在每个基准上限制为最多 32,768 个标记。

基线 我们对几个强基线进行了全面评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 较为困难,我们根据官方报告报告其性能。对于蒸馏模型,我们还比较了开源模型 QwQ-32B-Preview(Qwen, 2024a)。

评估设置 我们将模型的最大生成长度设置为 32,768 个标记。我们发现,使用贪婪解码来评估长输出推理模型会导致更高的重复率和不同检查点之间的显著变异。因此,我们默认使用 pass@𝑘 评估(Chen et al., 2021),并使用非零温度报告 pass@1。具体而言,我们使用 0.6 的采样温度和 0.95 的 top-𝑝 值为每个问题生成 𝑘 个响应(通常在 4 到 64 之间,具体取决于测试集的大小)。然后计算 pass@1 为:
[
\text{pass@1} = \frac{1}{k} \sum_{i=1}^{k} p_i
]
其中 ( p_i ) 表示第 ( i ) 个响应的正确性。该方法提供了更可靠的性能估计。对于 AIME 2024,我们还报告了共识(多数投票)结果(Wang et al., 2022),使用 64 个样本,表示为 cons@64。

3.1. DeepSeek-R1 评估

基准(指标)Claude-3.5-1022GPT-4o-0513DeepSeek-V3OpenAI-o1-miniOpenAI-o1-1217DeepSeek-R1
架构MoEMoE
激活参数数量37B37B
总参数数量671B671B
英语
MMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (EM)88.988.089.186.792.9
MMLU-Pro (EM)78.072.675.980.384.0
DROP (3-shot F1)88.383.791.683.990.292.2
IF-Eval (Prompt Strict)86.584.386.184.883.3
GPQA Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (正确)28.438.224.97.047.030.1
FRAMES (准确率)72.580.573.376.982.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.887.6
ArenaHard (GPT-4-1106)85.280.485.592.092.3
代码
LiveCodeBench (Pass@1-COT)38.932.936.253.863.465.9
Codeforces (百分位)20.323.658.793.496.696.3
Codeforces (评分)7177591134182020612029
SWE Verified (解决率)50.838.842.041.648.949.2
Aider-Polyglot (准确率)45.316.049.632.961.753.3
数学
AIME 2024 (Pass@1)16.09.3

3.2. 蒸馏模型评估
表 5 | DeepSeek-R1 蒸馏模型与其他可比模型在推理相关基准上的比较。
如表 5 所示,简单地蒸馏 DeepSeek-R1 的输出使得高效的 DeepSeek-R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,以下简写为相似)在各个方面超越了非推理模型如 GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上超过了 QwQ-32B-Preview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准上显著超过了 o1-mini。这些结果展示了蒸馏的强大潜力。此外,我们发现对这些蒸馏模型应用强化学习(RL)会带来显著的进一步提升。我们认为这值得进一步探索,因此在此仅展示简单的 SFT 蒸馏模型的结果。

  1. 讨论
    4.1. 蒸馏与强化学习
    在 3.2 节中,我们可以看到,通过蒸馏 DeepSeek-R1,小模型可以取得令人印象深刻的结果。然而,仍然有一个问题:模型是否可以通过本文讨论的大规模 RL 训练而不进行蒸馏来实现可比的性能?
    为了解答这个问题,我们在 Qwen-32B-Base 上进行大规模 RL 训练,使用数学、代码和 STEM 数据,训练超过 10K 步,得到了 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示,经过大规模 RL 训练的 32B 基础模型在性能上与 QwQ-32B-Preview 相当。然而,DeepSeek-R1-Distill-Qwen-32B(从 DeepSeek-R1 蒸馏而来)在所有基准上表现显著优于 DeepSeek-R1-Zero-Qwen-32B。
    因此,我们可以得出两个结论:首先,将更强大的模型蒸馏成更小的模型可以获得优秀的结果,而依赖于本文提到的大规模 RL 的小模型则需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,虽然蒸馏策略既经济又有效,但超越智能的边界可能仍然需要更强大的基础模型和大规模的强化学习。

4.2. 不成功的尝试
在开发 DeepSeek-R1 的早期阶段,我们也遇到了失败和挫折。我们在此分享我们的失败经验以提供见解,但这并不意味着这些方法无法开发出有效的推理模型。
过程奖励模型(PRM)PRM 是一种合理的方法,可以指导模型朝着更好的方法解决推理任务(Lightman 等,2023;Uesato 等,2022;Wang 等,2023)。然而,在实践中,PRM 有三个主要限制,可能会妨碍其最终成功。首先,很难明确地定义一般推理中的细粒度步骤。其次,确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动标注可能无法产生令人满意的结果,而手动标注不利于规模化。第三,一旦引入基于模型的 PRM,就不可避免地会导致奖励黑客(Gao 等,2022),而重新训练奖励模型需要额外的训练资源,并使整个训练流程变得复杂。总之,尽管 PRM 在重新排序模型生成的前 N 个响应或辅助引导搜索方面表现出良好的能力(Snell 等,2024),但与其在我们实验中的大规模强化学习过程中引入的额外计算开销相比,其优势是有限的。
蒙特卡洛树搜索(MCTS)受到 AlphaGo(Silver 等,2017b)和 AlphaZero(Silver 等,2017a)的启发,我们探索使用蒙特卡洛树搜索(MCTS)来增强测试时计算的可扩展性。这种方法涉及将答案分解为更小的部分,以便模型能够系统地探索解决方案空间。为此,我们提示模型生成多个标签,这些标签对应于搜索所需的特定推理步骤。对于训练,我们首先使用收集到的提示通过 MCTS 找到答案,并由预训练的价值模型指导。随后,我们使用生成的问题-答案对来训练演员模型和价值模型,迭代地完善这一过程。
然而,这种方法在扩大训练规模时遇到了几个挑战。首先,与棋类游戏相比,棋类游戏的搜索空间相对明确,而令牌生成则呈现出指数级更大的搜索空间。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导搜索过程的每一步。训练一个细粒度的价值模型本质上是困难的,这使得模型难以迭代改进。虽然 AlphaGo 的核心成功依赖于训练一个价值模型以逐步提高其性能,但由于令牌生成的复杂性,这一原则在我们的设置中难以复制。
总之,尽管 MCTS 在与预训练价值模型配对时可以提高推理期间的性能,但通过自我搜索迭代提升模型性能仍然是一个重大挑战。

  1. 结论、局限性与未来工作
    在本工作中,我们分享了通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero 代表了一种纯 RL 方法,不依赖冷启动数据,在各种任务中取得了强大的性能。DeepSeek-R1 更加强大,利用冷启动数据和迭代 RL 微调。最终,DeepSeek-R1 在一系列任务中达到了与 OpenAI-o1-1217 相当的性能。
    我们进一步探索将推理能力蒸馏到小型密集模型中。我们使用 DeepSeek-R1 作为教师模型生成 80 万个训练样本,并微调多个小型密集模型。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B 在数学基准上以 28.9% 的 AIME 和 83.9% 的 MATH 超越了 GPT-4o 和 Claude-3.5-Sonnet。其他密集模型也取得了令人印象深刻的结果,显著超越了基于相同基础检查点的其他指令调优模型。
    未来,我们计划在以下方向上对 DeepSeek-R1 进行研究。
  • 通用能力:目前,DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的能力仍不及 DeepSeek-V3。未来,我们计划探索如何利用长链推理(CoT)来增强这些领域的任务。
  • 语言混合:DeepSeek-R1 目前针对中文和英文进行了优化,这可能导致在处理其他语言的查询时出现语言混合问题。例如,尽管查询使用的是英语以外的语言,DeepSeek-R1 可能仍会使用英语进行推理和响应。

2024年的碎碎念

作者 jaxli
2025年2月5日 20:09

1月

2024-01-01 20:19:02

对甜品的最高评价是不太甜 对男人的最高评价是不太男

2024-01-02 12:02:27

一些景点有了新的装修;
iPhone用上了八达通;
更多商户支持了WeChatPay和Alipay;
KeeTa崛起,蚕食Foodpanda等外卖平台;
很多地方还残留有covid-2019疫情的贴纸提示,有些taxi上也还留有“认证抗疫的士”的贴纸;

2024-01-02 12:05:16

元旦假期日均出入境人次恢复到2019年水平

2024-01-02 18:56:09

卫视中文台、卫视电影台、星卫HD电影台、星卫娱乐台停播

2024-01-04 00:00:48

每半个月领到的WLD,转到CEX卖掉,然后U转到OneKeyCard(这一步有手续费)就能在国内支付使用了……

2024-01-04 15:05:33

Pascal、Euler 和 Oberon 等语言的作者和合作者 Niklaus Wirth 于 2024 年 1 月 1 日去世,享年 89 岁。Niklaus Wirth 于 1934 年 2 月 15 日出生于瑞士,先后任教于斯坦福、苏黎世大学、苏黎世联邦理工学院,曾在施乐帕洛阿尔托研究中心进修两年。他是 Algol W 、Modula、Pascal、 Modula-2、Oberon 等语言的主设计师,是 Euler 语言的发明者之一。1984 年他因在编程语言上的贡献而获图灵奖。他亦是Lilith电脑和Oberon系统的设计和执行队伍的重要成员。

2024-01-05 18:49:05

Introducing http://aoyo.ai – the new AI search

This is an AI search product designed for everyone.

-Based on the latest RAG technology, it allows you to search foreign language content on the internet in your native language, and the AI will summarize and respond in your native language.

-No ads, no content censorship, supporting traditional search commands like site/filetype/inurl, and can replace daily web searches.

2024-01-07 10:55:40

《繁花》的电视频道播出时间:https://www.tvmao.com/drama/YG0jXGVl/playingtime

2024-01-08 17:32:56

做出海工具不要用国内域名注册商和dns,godaddy+cloudflare+github+vercel完事

2024-01-08 22:22:29

Vision Pro来了! 1/19开始预订,2/2美国上市

2024-01-08 23:32:45

元梦之星做得比蛋仔派对精美

2024-01-11 01:00:39

单曲循环一首low歌,明年的年度听歌报告不会有它吧

2024-01-11 01:21:17

我的 #2023年度产品 :ChatGPT、Midjourney、Raycast、HomeAssistant、aoyo.ai

2024-01-11 09:09:12

Apple Music家庭版涨价到17元/月

2024-01-11 09:23:40

一觉醒来:
GPTs和ChatGPT团队版发布
SEC批准比特币ETF

2024-01-11 11:47:31

微信AI将会在今天微信公开课PRO上亮相

2024-01-11 16:54:00

实体产品:HappyRain碳纤维伞、摩飞便携电热水杯、SteamDeck、魅族myvu眼镜、添添闺蜜机

2024-01-13 19:27:18

赖萧配得票率已经超过40%

2024-01-15 20:02:24

瑙鲁与台湾断交,ROC邦交国只剩12个了

2024-01-19 19:29:01

冬青奥会在韩国江原道

2024-01-24 12:15:54

感谢流感疫苗的保护

2024-01-24 15:25:40

商业航天发展迅速,火箭发射的成本会越来越低。

2024-01-25 20:51:22

焦点访谈关注了人工智能(发展新质生产力系列报道)

2月

2024-02-01 10:20:35

对他人大段话语的引用,只用在每一段开头用左双引号。

2024-02-08 12:34:39

今年春节档前三预测:《热辣滚烫》《飞驰人生2》《第二十条》

2024-02-16 16:05:13

活到老,学到老。

2024-02-17 09:17:06

九牛迁到深圳改名新鹏城了,没能实现成都德比(虽然中甲时期有过)

2024-02-18 08:36:11

sora可以帮助电影创作者rapid prototype

2024-02-23 22:31:58

看了几集《小敏家》,剧中的装修风格不错。

2024-02-29 00:03:22

四年一次的一天。

3月

2024-03-06 15:23:12

视频生成今年应该会大跃进

2024-03-09 20:17:54

宽屏(16:9)HD视频是2010年左右普及的。

2024-03-10 13:05:08

United Nations Relief and Works Agency for Palestine Refugees “联合国近东巴勒斯坦难民救济和工程处” 或者简称为“近东救济工程处” 为什么官方中文名带有“近东”二字

2024-03-11 19:45:30

短跑第4道是卫冕道。卫冕冠军通常被安排在第4道。

2024-03-13 21:30:48

今年还是拜登vs川普

2024-03-15 18:09:26

看到一个新品牌和新品类:盖狮可吸果泥

2024-03-17 22:11:34

Suno出现之后,音乐工业会有大的变化吧

2024-03-27 17:52:11

小米SU7的电机研发还是砸了重金的。

4月

2024-04-05 20:37:13

保持对世界的好奇心

2024-04-07 19:22:45

小米SU7的广告视频是在外滩拍的

2024-04-13 21:04:09

原来民国时期就有证券市场。

2024-04-16 18:58:33

奥运火炬传递开始了。

2024-04-25 20:31:20

神舟十八号任务,成都人叶光富担任01指令长。上一次是神十三,这次任务完成后他在太空的累计时长可能会超过一年。

5月

2024-05-02 17:40:28

殷墟遗址在河南安阳市境内

2024-05-06 20:12:56

龟兹 和 虚与委蛇,以前读错了。

2024-05-07 19:25:10

M4 iPadPro 13寸,比Pencil还薄

2024-05-20 21:03:44

深圳有数字人民币硬钱包申领自助机了

2024-05-22 18:47:22

中华民国四个字出现在了央视

6月

2024-06-05 09:22:45

支付宝小荷包产品做得不错

2024-06-13 20:09:37

今年3个热播剧的片尾曲都是周深唱的

2024-06-14 23:47:02

欧洲杯揭幕战在安联球场,东道主德国的主场也是拜仁慕尼黑的主场

2024-06-22 19:34:50

在欧洲杯赛场的场边广告牌看到比亚迪的子品牌:方程豹

7月

2024-07-07 20:28:12

“垸”的意思是湖区大坝围合的陆地

2024-07-10 08:05:36

欧洲杯半决赛和美洲杯半决赛碰到了一起

2024-07-12 18:53:29

上半年新能源汽车占有率已达33.5%

2024-07-14 19:40:11

Trump被枪击后振臂一呼的形象刻在了历史中。

2024-07-16 15:09:14

伏天开始了,听到了更近的蝉鸣。

2024-07-26 16:08:24

进入奥运时间!

2024-07-28 04:02:44

21年之后有了cctv16奥林匹克频道,这次奥运会期间cctv5台标都不变成cctv奥运五环了

2024-07-29 07:58:21

用Termius替代了Transmit

2024-07-30 08:08:08

https://www.aminer.cn

8月

2024-08-01 10:48:32

deepseek模型背后是幻方,一个做量化交易的金融巨头,合理。

2024-08-05 08:36:44

李政道去世了

2024-08-06 00:50:58

巴黎奥运冲浪比赛是在大溪地(法属)举行的。

2024-08-06 00:56:23

原来Apple Intelligence要求iPhone 15 Pro是因为端侧大模型占用运行内存较高,需要8G内存以上的设备才能运行。

2024-08-07 03:47:59

腾讯课堂也要停止服务了,2016-2024

2024-08-08 06:25:51

OpenAI 发布 gpt-4o-2024-08-06 输出token提升3倍 降价33%-50% 支持JSON格式输出

2024-08-09 09:14:10

Google 播客将于 2024年8月30日停用,在此之前,您可以导出播客订阅,以便导入到您选择的服务中。 https://support.google.com/youtubemusic/answer/14151168

2024-08-09 10:54:59

刘海龙:媒介的三阶段 https://shop.vistopia.com.cn/article?article_id=570003&share_uid=gS0Ek

2024-08-10 09:08:41

抓娃娃,这不是楚门的世界吗

2024-08-11 16:08:02

巴黎奥运收官。

2024-08-17 03:56:57

中国游戏工业迎来里程碑时刻 《黑神话:悟空》全球媒体评分解禁 https://www.cnbeta.com.tw/articles/game/1442539.htm

2024-08-19 03:18:44

ollama本地运行qwen2,真简单

2024-08-20 03:15:45

https://store.steampowered.com/charts/mostplayed

2024-08-20 13:16:43

黑神话:悟空 Steam 最高同时在玩人数215.2万,超过幻兽帕鲁了

2024-08-24 00:47:37

三伏天结束。

2024-08-24 10:19:30

Apple Watch的米奇表盘居然可以点击报时(以前手表都是静音的所以没发现

2024-08-26 06:46:48

今年全球有10次载人航天发射任务:https://spacemission.vercel.app/

2024-08-28 02:12:36

由三体宇宙联合 PICO 出品的三体 VR 互动叙事作品《三体:远征》正式登陆 PICO 平台。玩家可以在 PICO 应用商店搜索《三体:远征》加入三体游戏,接收来自三体星系的的召唤,探索恒纪元、乱纪元的奥秘。

8月26日,高度还原《三体》原著中“三体游戏”内容的虚拟现实互动叙事作品《三体:远征》将上线。玩家将佩戴上“V装具”进入书中的三体游戏世界。据了解,《三体:远征》由PICO和三体宇宙出品,三体宇宙制作。

2024-08-28 13:05:31

新教材对一些表述的调整

2024-08-30 05:10:03

QQ手机客户端也内置了微信小程序基础库,可以直接运行微信小程序了

2024-08-30 05:12:47

国内对于基座大模型市场争夺,主要是各家云厂商提供便捷化配置型产品(比如appbuilder/百炼/元器),和提供自家和别家开源模型快捷部署服务等形式。

9月

2024-09-05 01:28:07

https://www.shapeof.ai

2024-09-07 01:19:57

Boeing‘s Starliner undocking from ISS without crew.

2024-09-09 17:15:19

Watch S10终于变薄了

2024-09-10 01:42:47

Watch S10国行版本不支持快充和呼吸暂停检测功能

2024-09-10 09:28:52

SpaceX launch the FIRST commercial spacewalk, Polaris Dawn https://www.youtube.com/watch?v=gWOYQ5Dto7c

2024-09-10 14:54:13

新华网新闻稿中出现的翻译:脸书母公司“元”(meta);谷歌旗下公司“深层思维”(deepmind);法国AI创企“米斯特拉尔人工智能”(Mistral AI);

央视报道中出现的翻译:人工智能公司“抱抱脸”(huggingface)

2024-09-12 06:53:17

Endpoint,有翻译为「终结点」的,有翻译为「端点」的

2024-09-13 00:09:34

体验了OpenAI最新的大模型o1-preview(🍓),每次回答都会把推理/思考过程列出来,但实际效果并没有超出预期,不知道正式版会不会好一些。目前Plus用户限制每周30条(o1-preview)和50条(o1-mini)。

2024-09-14 01:43:09

多邻国终于不是感冒的绿鸟了😂

2024-09-15 12:47:00

微信开发者工具教育版 提供基于混元大模型的AI编程助手,官方教程:https://developers.weixin.qq.com/community/business/course/00082803ba0ad06ce59d416545bc0d

2024-09-16 12:51:55

《中国计算机报》原执行总裁张永捷去世:生前患癌多年 https://m.cnbeta.com.tw/view/1445974.htm

2024-09-18 05:55:07

Microsoft 365(Office 365)Web版现在有3个域名:

office.com

microsoft365.com

m365.cloud.microsoft

2024-09-19 11:55:16

iOS18建议的壁纸挺不错

2024-09-21 15:16:29

玩了一下“Social AI”App,UI很像Threads,当你发布一条post之后,立即会有5条来自AI fans的评论,评论区继续往下滑会再来5条,评论风格各异,可以按照自己的喜好选择fans评论的风格。也算是另一种AI陪伴了😅

2024-09-23 05:28:05

继china.com邮箱之后,老牌电邮服务商tom.com邮箱本月27日清理免费邮箱数据,收费邮箱还会继续运营,最低是15元/月。

2024-09-25 04:11:40

在抖音刷到几个连麦听方言猜家乡的博主,通过听数字1-10、出去玩、外公外婆和一些关键词的方言说法,大部分都能精确到县,越是南方口音或者越是小众有特点的方言越被快速猜到。

2024-09-25 07:14:45

需要AI帮忙总结群聊内容

10月

2024-10-02 02:45:20

https://www.cnbeta.com.tw/articles/tech/1447696.htm

2024-10-02 02:46:48

https://m.cnbeta.com.tw/view/1447731.htm

2024-10-02 02:50:54

https://m.cnbeta.com.tw/view/1447744.htm

2024-10-02 02:51:46

https://m.cnbeta.com.tw/view/1447742.htm

2024-10-02 09:39:04

鸿蒙Next借鉴了许多iOS的优点,比如隐私控制和UI交互,这是智能手机和移动互联网发展15年来的一次规范重构的机会。

2024-10-04 02:14:24

power pages、glean、notebooklm、chatgpt canvas、claude artifacts都倾向于在一个workspace里完成辅助创作任务。

2024-10-04 15:12:22

Realtime API 两个Playground:

https://platform.openai.com/playground/realtime

https://playground.livekit.io

2024-10-09 12:43:49

诺贝尔化学奖应该直接颁给AlphaFold模型

2024-10-11 03:41:32

Cybercab、Robovan

2024-10-12 10:31:16

Flux Lora 模型「 Flux_小红书真实风格丨日常照片丨极致逼真」https://www.liblib.art/modelinfo/d9675e37370e493ab8bf52046827a2b0?from=search&versionUuid=7852ee527ca34d8b940d0749a75e4b67

2024-10-13 12:37:06

筷子夹助推器nb了 我在看科幻片

2024-10-15 15:02:21

“即使强如火箭,也要抱抱”

2024-10-18 02:20:05

Ollama+OpenWebUI就是目前最好的本地大模型方案

2024-10-19 15:20:25

微信webview开始在标题栏显示网页域名。

2024-10-20 08:59:51

OneKey Card 服务逐步下线👋

2024 年 9 月 30 日起,将不再接受新的注册和充值。

2024 年 10 月 31 日,所有余额将安全转入您的钱包,并可随时提现。

2025 年 1 月 31 日,OneKey Card 服务将正式停止。

2024-10-21 02:18:39

人人网现在只剩关注页还能加载出数据了。。

2024-10-25 03:07:08

Cursor还能直接用来进行代码目录的语义化搜索,比如直接@codebase询问某模块的代码在哪里

2024-10-25 08:16:27

智谱开源端到端语音模型 https://github.com/THUDM/GLM-4-Voice

2024-10-28 00:36:48

崔永熙nba常规赛首秀替补登场2分钟,得分1分,加油!

2024-10-28 01:22:30

无论路上有没有车,在户外步行或骑行时都不要使用手机,要随时注意周围的情况。

2024-10-28 08:51:31

国行iPhone15 Pro系列、16系列、M芯片iPad Pro系列在iOS 18.2 Beta 使用Apple Intelligence的教程

https://t.me/s/TestFlightCN/28298

2024-10-29 01:58:33

神舟十九号任务有两位90后航天员,其中一位是女性。

2024-10-30 01:00:16

小米星辰无网通功能需在通话APP中使用,使用该功能前需插入SIM卡并登录小米账号;

数据来源于小米实验室,以上数据在内蒙古自治区乌兰察布市察哈尔右翼前旗草原(空旷、无遮挡、无干扰情况下)进行测试。

2024-10-30 11:11:11

鸿蒙AppGallery,迅雷和B站的更新记录里都提到了PC端,看起来全部鸿蒙应用都是Universal的

2024-10-30 11:23:11

https://www.nytimes.com/news-event/2024-election

https://decisiondeskhq.com/results/2024/General/President

https://www.politico.com/2024-election/results

https://edition.cnn.com/us

https://polymarket.com/elections

2024-10-31 12:07:03

在代码生成方面,Claude的口碑已经超过GPT

11月

2024-11-01 01:33:50

来自纽约的The Browser Company宣布停止Arc浏览器的开发。我其实也一直没有切到Arc做主力浏览器,试了几次又回到了Chrome。但真的很喜欢pin的常用webapp

2024-11-05 12:39:15

fox news在直播投票日情况了

2024-11-06 10:48:39

btc新的史高

2024-11-06 15:53:57

上古软件仓: https://skywind.me/wiki/%E4%B8%8A%E5%8F%A4%E8%BD%AF%E4%BB%B6%E4%BB%93

2024-11-07 03:31:00

万斯以前是作家,84年的,今年才40岁。这次川普万斯团队背后有硅谷投资人彼得蒂尔和马斯克的支持。传统上硅谷精英都是民主党的支持者,但也苦民主党久矣,这届川普政府感觉会是共和党内的新力量。

2024-11-08 11:06:48

微信收藏的搜索功能需要一个AI助手

2024-11-09 17:03:51

今年很多大型赛事的主色都用了紫色:钻石联赛、WTT、巴黎奥运会田径、WTA总决赛

2024-11-10 14:14:42

再次吹爆Claude,在软件和代码领域完全碾压ChatGPT

2024-11-11 14:41:03

多邻国的小听力练习做成了莉莉主持的podcast 有意思

2024-11-12 03:15:50

博通宣布 VMware Workstation 和 Fusion 彻底免费,支持商用

2024-11-13 01:36:04

DOGE起飞

2024-11-14 16:21:28

世预赛国足险胜巴林,两连胜小组排名第四

2024-11-17 06:37:47

SmartisanOS 8的字体实在是太好看了(翻出来再吸吸)

2024-11-21 03:22:58

Windsurf新王登基

2024-11-23 03:48:02

HBO Max登陆亚洲市场,有中文字幕了!

2024-11-24 15:08:05

还是在TL刷到了台湾今晚拿到的棒球世界冠军,大陆一点消息都看不到

2024-11-25 00:55:53

珍惜每一次btc回调机会,10万是共识

2024-11-25 07:42:08

Cursor更新到0.43

2024-11-25 08:21:25

多健康平安活一天 就是多成功了一天

2024-11-26 08:10:12

Mate70系列出厂搭载鸿蒙4.3,到手不用申请可直接升级5.0,明年发布的手机出厂搭载5.0。

2024-11-27 02:59:30

网易小蜜蜂,像素级对齐小红书……

2024-11-27 05:54:11

真理是不会只属于一个人的,最终它会被每个人发现。

2024-11-29 14:59:59

今天大陆媒体报道马龙到访的是“台湾文化大学”😂 这个反而不敢叫本名“中国文化大学”了🧐

2024-11-30 08:51:01

ChatGPT上线两周年。

12月

2024-12-01 02:14:20

看机器人之梦看得好难过

2024-12-01 15:04:29

https://mp.weixin.qq.com/s/ORX9rk8bTwvZNI0GhxRuKg

2024-12-02 05:37:54

又要开始年度总结了。

2024-12-04 06:44:29

这个收藏单出圈了:https://neodb.social/collection/2lYCXSioZK0RbaS3PG0k0s

2024-12-06 00:43:57

200刀的ChatGPT订阅来了

2024-12-09 10:16:30

中国上一次实施“适度宽松的货币政策”,还是胡温时期。

2024-12-10 04:02:27

https://sora.com/explore/recent

看看这个效果,感觉跟2月份没太大区别,但有了Storyboard,更好控制生成了

2024-12-10 04:07:45

把Google Cloud和Google One订阅都取消了

2024-12-11 07:07:53

邪恶大鼠标这个名字有点可爱是怎么回事

2024-12-12 10:37:09

大部分时候要低能耗蛰伏,潜龙勿用

2024-12-13 02:00:39

不去使用世界最先进的产品,就会固步自封。

2024-12-13 03:51:30

OpenAI关于昨天的事故分析报告:https://status.openai.com/incidents/ctrsv3lwd797

2024-12-13 06:59:15

Google — Year in Search 2024

2024-12-13 07:48:15

https://cn.nytimes.com/books/20241213/best-books-2024

2024-12-17 02:05:00

iPhone屏幕的色温真是每一台都不一样……(都关掉TrueTone的情况下

2024-12-18 13:36:17

iOS18了都还不能应用分屏 emmm这很难评

2024-12-19 00:42:27

把MacBookPro升级到15.2,Surface升级到24H2

2024-12-20 08:18:15

我的 #2024年度产品:

Claude

ChatGPT macOS客户端

Cursor

NotebookLM+Google AI Studio

Ollama+OpenWebUI

fullmoon+pocketpal

macOS15 iPhone镜像

扣子

欧易 Web3钱包

凤凰秀

2024-12-20 16:43:10

2024-12-23 06:29:20

用fullmoon在6GB内存的iPhone上用上了llama3.2-3b

https://fullmoon.app

2024-12-23 07:46:53

Google/Deepmind还是没有掉队,甚至坐二望一:

Gemini 2.0 Flash

https://aistudio.google.com

Imagen 3

https://labs.google/fx/zh/tools/image-fx

Veo 2

https://labs.google/fx/zh/tools/video-fx

2024-12-24 14:02:41

微信-我-设置-个人信息收集清单-图片与视频/位置

这里相当于是“微信年度总结”了

(仅支持绑定中国大陆手机号的微信帐号,WeChat不支持)

2024-12-24 15:10:45

http://share.fengshows.com/video.html?id=0c7081cd-e116-4298-851b-76916e932d6f&channelID=r06

2024-12-24 16:27:45

https://www.bilibili.com/video/BV1ttk9YkEVx

2024-12-24 16:49:24

闪极A1眼镜的排产已经到25年11月了……

2024-12-27 02:22:51

https://movie.douban.com/annual/2024/?fullscreen=1

2024-12-30 03:09:23

有了AI生成代码之后,做的工具形态更多了,从网站/app到browser插件、userscript、bookmarklet……

生成式AI大模型动态周报

作者 jaxli
2024年1月29日 18:07

周报源自得效团队博客,自2023年1月底创刊,2024年1月起更名为《生成式AI大模型动态周报》,主要关注主流生成式AI大模型的技术与产品动态。

issue46 2023.12.11-12.17

智谱AI近日提出了可解释、可扩展的文本质量评价模型CritiqueLLM,该模型可以针对各类指令遵循任务上大模型的生成结果提供高质量的评价分数和评价解释。评价结果显示,在各项任务上660亿参数的CritiqueLLM与人工评分的相关系数均超过ChatGPT,达到和GPT-4相当的水平。尤其是在具有挑战性的无参考文本设定下,CritiqueLLM能够在3项任务(包括综合问答、文本写作和中文理解)上超过GPT-4,达到目前最优的评价性能。

理想汽车微信公众号发文,在理想汽车智能软件发布会上,该公司发布了全自研多模态认知大模型Mind GPT,该模型围绕车载场景打造,拥有理解、生成、知识记忆及推理能力。据介绍,Mind GPT基于理想同学的重点场景,量身定制了覆盖111个领域、超过1000种以上的专属能力,基于该模型的AI理想同学将以邀请内测形式面向用户逐步开放。

AI创企Runway于官网宣布开展围绕通用世界模型(General World Models)的长期研究工作,目标是表现和模拟与现实世界中一致的广泛的互动。Runway称,其目前的Gen-2等视频生成系统可以看作是非常早期的通用世界模型,对物理和运动有一定的了解,但在处理复杂的摄像机或物体运动等问题上仍有困难。为了建立通用的世界模型,Runway正在进行几项公开的研究,包括生成环境地图,在环境中导航和交互,捕捉世界和世界中居民的动态,建立逼真的人类行为模型等。

12日凌晨,李飞飞的斯坦福团队与谷歌联合发布用于生成逼真视频的扩散模型W.A.L.T,基于Transformer训练而成,支持文生视频、图生视频和3D摄像机运动。据介绍,该方法有两个关键的设计,一是使用因果编码器,在统一的潜空间内联合压缩图像和视频,从而实现跨模态的训练和生成;二是为了提高记忆和训练效率,使用了为空间和时空联合生成建模量身定制的窗口注意力架构。最后,团队针对文本到视频的生成任务训练了由三个模型组成的级联,包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型,能够以每秒8帧的速度生成分辨率为512*896的视频。

12月13日,国际顶刊《自然》(Nature)公布2023年度最具影响力科学家10人名单,其中OpenAI首席科学家伊利亚·苏特斯科夫(Ilya Sutskever)作为“AI梦想家”入选,因为他在ChatGPT的开发中发挥了核心作用,同时关心AI的安全和未来。此外,ChatGPT作为非人类首次入选,旨在承认它在模仿人类语言的AI在科学发展和进步中所发挥的作用。

谷歌宣布大模型Gemini Pro现已推出API(应用程序接口),目前支持32k上下文窗口,在一定限制内可免费使用,具有函数调用、嵌入、语义检索和自定义知识基础以及聊天功能,支持全球180多个国家和地区、38种语言,支持文本、图像输入和文本输出,提供SDK(软件开发工具包)。用户现在可在在线免费开发者工具Google AI Studio、云托管AI平台Vertex AI上使用该模型。定价方面,免费版本支持每分钟最多60个请求,但输入输出数据将被用于改善谷歌的模型。

谷歌宣布在Vertex AI托管平台中推出新的文生图模型Imagen 2、医疗保健行业模型MedLM,还全面推出面向开发者的代码工具Duet AI。Imagen 2支持自然语言生成高分辨率的逼真图像、生成Logo以及视觉对话。Imagen 2还推出了文本渲染支持,可以在图像上生成准确的文字,此前只有OpenAI的DALL-E 3支持该功能。Imagen 2支持英语、中文、印地语、日语、韩语、葡萄牙语、西班牙语7种语言,包含内置安全预防措施,集成数字水印服务。

Meta生成式AI副总裁Ahmad Al-Dahle于社交平台Threads宣布,Instagram现已推出AI图像背景编辑工具,可通过自然语言为图像一键生成并更换背景。

12月14日,文心一言插件商城正式上线,商城集合众多高质量插件,覆盖办公提效、多模态内容理解生成、专业信息查询等许多实用场景,用户只需通过简单指令,即可实现PPT生成、音视频提取、思维导图制作等多场景多模态下的需求,实现“指令即服务”的便捷体验。开发者也可以根据需求,自己亲自设计插件。

12月14日,Stability AI推出从单张图像生成3D对象的模型Stable Zero123。该模型基于Stable Diffusion 1.5建立,面向非商业和研究用途开源模型权重,与上一代Zero123-XL相比,训练效率提升了40倍。

当地时间周四,英特尔在纽约举行“AI Everywhere”活动,正式推出代号为Meteor Lake的新型酷睿Ultra处理器。该处理器专为支持AI技术所设计,内置AI加速引擎,可更快地运行AI程序。酷睿Ultra处理器有三种不同的配置,分别是酷睿Ultra 5、酷睿Ultra 7和酷睿Ultra 9。英特尔称,与AMD Ryzen 7 7840U、高通骁龙8cx Gen 3和苹果自研M3芯片等笔记本电脑处理器相比,酷睿Ultra 7 165H芯片的多线程性能提高了11%。与之前的英特尔酷睿i7-1370P相比,它的功耗降低了25%,比AMD的Ryzen 7 7840U的功耗降低了79%。英特尔的所有新CPU还将配备NPU,即神经处理单元,提供“低功耗AI加速和CPU/GPU卸载”,能够执行AI驱动的任务,如背景模糊、眼动追踪和图片框架等。

issue47 2023.12.18-12.24

微软于官网宣布在最新的Visual Studio预览版中,向GitHub Copilot Chat订阅用户推出AI驱动的变量、方法和类命名建议新功能。据介绍,该功能不仅能提供名称建议,还能了解标识符的使用方式和代码风格,从而提出与代码库无缝匹配的标识符,帮助用户提高代码的可读性和可维护性,确保代码在未来数年内的使用寿命和易懂性。

12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API(应用程序接口),包含Baichuan2-Turbo-192K及Baichuan2-Turbo。在支持192K超长上下文窗口的基础上,还增加了搜索增强知识库的能力。即日起,API用户可上传文本资料来创建自身专属知识库,从而根据自身业务需求打造更完整、高效的智能解决方案。此外,百川智能还升级了官网模型体验,目前其官网大模型已支持PDF、Word等多种文本上传以及URL网址输入,用户可通过官网入口体验搜索增强和长窗口加持后的通用智能。

12月20日,谷歌于官网宣布将AI代码辅助功能扩展到所有Colab用户,包括免费用户,现已在175个地区推出。Colab是谷歌提供的一个在线工作平台,可以免费使用GPU进行深度学习,支持Jupyter Notebook和代码执行程序。

比尔盖茨发布年度展望博客,其中谈道:“如果让我做个预测,在美国这样的高收入国家,我猜离普通民众大量使用AI还有18-24个月的时间。而在非洲国家,我预计在3年左右的时间里,AI的使用就会达到相当的水平。这仍然是一个差距,但比我们在其他创新中看到的滞后时间要短得多。”他还提到,希望AI在抗生素药物、个性化教育、高危妊娠治疗、艾滋病风险评估、医疗信息获取等方面能够得到更广泛的应用。

12月22日,在全国信息技术标准化技术委员会AI分委会全体会议上,国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问、百度文心大模型、腾讯混元大模型、360智脑大模型首批通过评测,在通用性、智能性等维度均达到国家相关标准要求。

昆仑万维AI Agents开发平台“天工SkyAgents”Beta版正式开放测试。据介绍,天工SkyAgents开发平台基于昆仑万维“天工大模型”打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”,并能将不同任务模块化,通过操作系统模块的方式,实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http请求等任务。

issue48 2023.12.25-12.31

12月24日,OpenAI CEO萨姆·阿尔特曼(Sam Altman)于社交平台X上发帖询问网友对于OpenAI明年应该建设或修复哪些功能的建议,随后他总结了一些常见的请求,包括AGI、GPT-5、更好的语音模式、更高的速率限制、更好的GPTs、更好的推理、控制行为的程度、视频功能、个性化、更好的浏览、使用OpenAI登录、开源等。其中,他在AGI后面标注“请耐心等待”,并称“对于AGI的请求比预期多得多,但很抱歉,我认为我们无法在2024年实现这一目标”,他还提到将“尽可能满足这些需求,以及许多其他未被网友提及、但令OpenAI团队自己感到兴奋的功能”。

AI创企Pika于社交平台X宣布面向所有用户开放旗下视频生成平台Pika 1.0网页端访问权限。据悉,Pika成立于2023年4月,创始人郭文景(Demi Guo)和Chenlin Meng都是斯坦福博士。Pika 1.0不仅能根据文字、图片或视频风格生成三维动画、动漫、卡通和电影等不同风格的视频,还能对视频局部进行编辑。

Kimi Chat发布v1.2版本,模型更新至moonshot-v1-20231225,平均输出长度提升;在联网模式下,首字回复的速度大幅提升;实现了从扫描件(文档、合同、白板等)提取文字的功能,目前已支持PDF格式的扫描文件上传解析。交互方面,Kimi Chat推出小程序“Kimi智能助手”,网页端上线浅色模式。

有网友发现,微软已于一周前悄然推出安卓版Copilot应用程序,用户可从Google Play商店下载。应用程序描述显示,Copilot由最新的OpenAI模型、GPT-4和DALL·E 3提供支持,这些先进的AI技术提供快速、复杂和精确的响应,并且免费。截至目前,微软暂未推出iOS版Copilot。

12月26日,2023联想天禧AI生态伙伴大会在北京召开。会上,联想集团副总裁、中国区消费业务群总经理张华发布了联想天禧AI生态“四端一体”战略。“四端”分别指的AI PC、AI平板、AI手机和AIoT四类终端设备,“一体”则有两层含义,一方面指的是承接用户个人助理任务的个人智能体,另一方面也意味着个人智能体穿梭于四类AI终端,使其融为一体。同时,联想的AI个人智能体“小乐同学”首次亮相,并面向广大生态开发者伙伴启动智能体小程序招募计划。

微信宣布将于2024年1月11日在广州举办2024微信公开课PRO,将发布产品能力、展示价值理念、沟通生态伙伴、凝聚行业共识。2024微信公开课PRO期间,小游戏、微信AI等也将悉数登场,带来多项能力升级与案例分享。

韩国文化部宣布将不对AI生成的内容进行版权登记,从法律上不承认此类内容的创造性。文化部补充说,只有那些明显传达人类思想和情感的作品才有可能进行版权登记。这一决定将很快在面向AI企业、版权持有者和用户的“AI版权指南”中公布,指南还规定,AI企业需要向版权持有者提供公平的补偿,以确保其产品的使用权,建议版权持有者明确表达其意图或采取技术措施,以防止其创作被用于AI研究。

issue49 2024.1.1-2024.1.7

外媒The Information发文总结2023年最难忘的10个AI时刻,包括OpenAI与微软伙伴关系继续、Meta Llama改变赛况、GPT-4发布、3万多人联名呼吁暂停AI模型训练、AI Agent兴起、美国总统拜登的AI行政命令与欧盟AI法案、GitHub Copilot付费用户超过100万、多模态兴起、OpenAI CEO萨姆·阿尔特曼(Sam Altman)的感恩节压力、等待谷歌Gemini。

中文大模型测评基准SuperCLUE发布《中文大模型基准测评2023年度报告》,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告包括国内大模型关键进展、测评体系、方法说明、大模型综合测评结果、SuperCLUE2.0升级、四大维度测评分析及示例介绍以及优秀模型案例介绍等内容。

据Windows Central报道,微软正在对其Surface产品线进行重大更新。Surface Pro和Surface Laptop都将首次提供英特尔和Arm版本,并且都将配备下一代NPU(神经处理单元)芯片。这些代号为CADMUS的PC将被设计用来运行微软正在打包到未来版本Windows中的AI功能。新设备将在春季发布,并将作为微软首款真正的AI PC推向市场。

美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。在当前通过备案的国内大模型当中,MiracleVision(奇想智能)是唯一专注视觉领域的大模型,也是福建省唯一通过备案的大模型。

1月2日,调研机构WriterBuddy发布一项新调查,通过使用SEO行业知名工具SEMrush研究3000多种AI工具,其筛选出2022年9月至2023年8月访问量最大的50款工具,这些AI工具吸引了超过240亿次访问量。其中,ChatGPT以140亿次访问量位居第一, 占分析流量的60%以上。AI聊天机器人类工具最受欢迎,访问量达到191亿次。

对话式搜索引擎创企Perplexity AI的CEO Aravind Srinivas在社交平台X上公开回应有关竞争不过搜索引擎大厂谷歌的质疑,称Perplexity存在的原因是通过更少的关键字查询、筛选、链接点击、页面浏览,提高搜索效率和信息访问效率;直接找到问题根源,然后用一个简洁、清晰、个性化的答案,便于人们做出决定,这与谷歌的财务和商业目标是不一致的。

1月3日消息,据日经亚洲报道,日本相机“三巨头”尼康、索尼和佳能即将推出新技术,让照片的来源变得更容易验证。该技术允许摄影师通过相机本身嵌入数字签名,包含摄影师姓名、拍摄日期、时间和地点等信息,然后通过一个名为Verify的免费网络应用程序进行认证,该应用程序由媒体机构、相机制造商和科技公司组成的全球联盟推出。

1月4日,AI搜索引擎aoyo.ai在ProductHunt发布,称可用母语搜索全网内容并总结,其首个版本支持英语、中文、日语、西班牙语。

钉钉联合国际知名咨询机构IDC发布首份《2024 AIGC应用层十大趋势白皮书》。随着AIGC技术的发展,智能化应用将呈现爆发式增长,IDC预测,到2024年全球将涌现出超过5亿个新应用,这相当于过去40年间出现的应用数总和。根据《白皮书》,2024年AIGC应用的十大趋势关键词涵盖应用层创新、AI Agent、专属模型、超级入口、多模态、AI原生应用、AI工具化、AI普惠化。

网易有道发布子曰教育大模型的2.0升级、虚拟人口语教练Hi Echo的2.0升级,同时发布了有道速读、全新AI家庭教师应用小P老师以及新一代AI学习机X10。据介绍,小P老师能够回答语文、数学、英语、生物、历史等10个学科的问题,支持拍照、语音、文本输入,并将首次落地学习机X10。新一代AI学习机X10首创学习机、学练机和学生专属电脑三合一模式,覆盖全学科、学段,提供墨水屏模式模拟纸质学习场景,内置编程软件、WPS等应用,学习机内的小P老师、Hi Echo等应用终身免费且持续升级。

科技部于12月21日发布《负责任研究行为规范指引(2023)》,其中提到科研人员在申报研究项目材料时,不得使用生成式AI直接生成申报材料,应依规合理使用生成式AI处理文字、数据或学术图像,防范伪造、篡改数据等风险。在文献引用方面,使用生成式AI生成的内容应明确标注并说明其生成过程,对其他作者已标注为AI生成内容的,一般不应作为原始文献引用。成果署名方面,生成式AI不得列为成果共同完成人,应在研究方法或附录等相关位置披露使用生成式AI的主要方式和细节。学术出版单位应应要求作者披露是否使用生成式AI,提醒审稿人在审稿过程中使用生成式AI应依规谨慎。

deepin(深度)操作系统于官网发文,宣布近日推出了一款“看图AI插件”,用户在安装后即可在设备端体验8种AI修图功能,分别是图像上色、提升分辨率、模糊背景、删除背景、手绘漫画、2D漫画、3D漫画、素描。这些功能不依赖于互联网在线模型,也不受制于算力的硬件约束,在PC单机上可轻松运行。

微软将其安卓和iOS平台的移动浏览器应用名称从“微软Edge”改为了“微软Edge:AI浏览器”,强调了其目前最重视的AI领域。除了新的名字,该浏览器在介绍中也宣传了新的AI功能,如DALL-E 3图像生成器、Copilot文章摘要、图像识别等,还强调了对GPT-4的支持。

issue50 2024.1.8-1.14

近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent的CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位、GUI Agent 等多种能力,可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上取得了通用能力第一的成绩,并在涵盖电脑、手机的 GUI Agent 数据集上,大幅超过基于 LLM 的 Agent,取得第一。目前团队已将 CogAgent-18B 开源至 GitHub 仓库,并提供了网页版 Demo。CogAgent 的模型结构基于 CogVLM。

美团、浙大等推出了能够在移动端部署的多模态大模型MobileVLM,包含了 LLM 基座训练、SFT、VLM 全流程。MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。

issue51 2024.1.15-1.21

1月16日,智谱AI 在DevDay上发布了新一代基座大模型GLM-4,定制化的个人GLM大模型GLMs和GLM Store。与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。它具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。同时,GLM-4也增强了智能体能力。GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。GLM-4的文生图和多模态理解都得到增强。

同日,智谱还推出CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近DALL·E 3。相对之前,CogView3的语义理解能力都得到大大增强。

1月15日,微软宣布推出个人版Copilot Pro订阅服务,每月20美元,可以使用Office AI功能,目前在美国、英国、法国、德国等地可用,后续还将扩大可用地区。这意味着个人用户也可以开始使用AI驱动的Office功能,其中包括使用Office软件的AI功能、优先访问最新的OpenAI模型、甚至构建自己的Copilot GPT。

1月17日,上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布新一代大语言模型书生·浦语2.0(InternLM2)。这个大模型包含70亿和200亿两种参数规格,以及基座、对话等版本,向全社会开源并提供免费商用授权。InternLM2能够一次性处理约30万汉字的输入内容,从中准确提取关键信息,实现对长文本的“大海捞针”。

issue52 2024.1.22-1.28

1月25日,OpenAI发布了一系列重磅大模型更新,连发了五个新模型以及新的API使用管理工具。包括:新的GPT-3.5 Turbo模型,输入价格暴降50%,输出价格降低25%,同时修复各种BUG,回应准确性更高;新的GPT-4 Turbo Preview模型,生成代码能力更强,模型“变懒”情况减少,修复各种BUG;新的小型文本嵌入模型text-embedding-3-small,性能小幅提升,价格降至上代的五分之一;新的大型文本嵌入模型text-embedding-3-large,性能强,可创建多达3072维的嵌入,部分测试性能提升70%以上,价格略贵。同时,OpenAI还直接让开发者在略微损失精度的情况下缩短嵌入,实现性能和成本的平衡;新的审查模型text-moderation-007,OpenAI将其称之为“迄今为止最强大的审查模型”。

1月25日,谷歌研发出全新的时空扩散模型 Lumiere(法语,启蒙者),几乎集齐了常见AI视频生成和编辑功能,也是先进的视频生成器。Lumiere 会根据用户自然语言提示,创造出非常逼真(高质量超现实主义)视频,时间长达五秒。模型的图片到视频功能可以根据用户提示,让静止的图像动起来。谷歌研究人员在 Lumiere 中引入了一种“时空 U-Net 架构” Space-Time U-Net(STUNet),一次构建了整个视频长度, 能够学习将视频信号在空间和时间上同时进行下采样和上采样,并在网络的压缩空间时间表征上执行主要计算。

1月26日,阿里云公布多模态大模型研究进展。通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max拥有更强的视觉推理和中文理解能力,整体性能堪比GPT-4V和Gemini Ultra。

issue53 2024.1.29-2.4

1月30日,科大讯飞升级了讯飞星火大模型。讯飞星火V3.5除了七大能力全面提升,整体能力接近GPT-4,还特别在语言理解、数学等能力上实现超越。技术方面,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中。在多语种识别中,在首批37个主流语种效果超过OpenAI Whisper 3。并且在多语种语音生成、超拟人语音生成上,也有一定的提升。目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面。

Midjourney二次元模型Niji-Journey V6上线,能把控日漫欧美动漫风格,甚至图中还能生成字体,输入/settings,然后点击Niji Model 6就可以在任何discord机器人上打开使用。目前,Niji V6还在内测中,预计在2月底正式推出,并将带来Vary、Pan、Zoom等特色功能。

2月2日,谷歌官方宣布:在最新版Gemini Pro的加持下,Bard不仅获得了推理、理解、总结、编码能力的迅速飞升,而且还能支持230多个国家的40多种语言。为了负责任生成,Bard生成的图像都将由SynthID进行标记。SynthID是谷歌DeepMind开发的一种水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉,但可检测以进行识别。

2月2日,欧盟27国代表投票一致支持《人工智能法案》文本,标志欧盟向立法监管人工智能迈出重要一步。法案要求所有通用人工智能模型遵守透明度义务,同意严格限制面部识别等技术的应用,禁止对人类安全造成“不可接受风险”的人工智能系统。

issue54 2024.2.5-2.11

2月6日,通义千问大模型(Qwen)的 1.5 版上线了。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多语言支持。Qwen 1.5 支持 32K 上下文长度;开放了 Base + Chat 模型的 checkpoint;可与 Transformers 一起本地运行;同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。本次更新着重提升了 Chat 模型与人类偏好的对齐程度,并且显著增强了模型的多语言处理能力。

2月8日,谷歌宣布大模型体系全面进入了 Gemini 时代,并带来最新的 Gemini Ultra 模型。Gemini Ultra 1.0 是第一个在 MMLU(大规模多任务语言理解)超越人类专家的 AI 模型,结合了 57 个科目,包括数学、物理、历史、法律、医学和伦理学,用来测试大模型知识和解决问题能力的基准。谷歌官宣四项AI新进展:大模型版本Gemini Ultra 1.0全面开放;聊天机器人Bard正式官宣改名为Gemini;安卓版新“Gemini”应用程序上线;全套办公工具Google Workspace、谷歌云中的所有AI协作工具Duet AI也改名为Gemini。

issue55 2024.2.12-2.18

2月16日, OpenAI发布视频生成模型Sora,称构建了一个“物理世界的通用模拟器”。它是一种通用的视觉数据模型,能够生成各种持续时间、宽高比和分辨率的视频和图片,甚至长达一分钟的高清视频。Sora是一种基于Transformer架构的扩散模型,有很强的扩展性,从噪声开始,能够一次生成整个视频或扩展视频的长度,一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。不同于LLM使用的文本token,Sora使用的是视觉patch。还采用了DALL·E 3中的重新标注技术,应用在了视频上。目前Sora根据图像和文本提示生成视频,已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

Stability AI开源新型文生图模型Stable Cascade,标志着AI艺术创作的重大进展。与Stable Diffusion相比,Stable Cascade拥有更小的潜在空间,提高了训练和生成效率。该模型架构分为三个阶段:潜在生成器、潜在解码器阶段一和二,能够将文本转换为24×24像素的潜在向量,并逐步重建高质量图像。开源代码已在GitHub发布,用户可获取训练和推理脚本,进一步推动AI绘画工具的发展。

2月14日,作为测试的一部分,OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的“记忆”功能,并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。ChatGPT 的记忆功能完全由用户掌控,也可以随时关闭这种功能。ChatGPT 的记忆会随着互动而演变,并且与特定对话无关。删除聊天记录并不会消除其记忆,必须删除记忆本身。

issue56 2024.2.19-2.25

2月21日,谷歌宣布推出全新开源模型Gemma,拉丁语中意为“宝石”。Gemma 是先进的轻量级开放模型系列,采用了与创建Gemini模型相同的研究和技术。本次,谷歌发布了Gemma的两个版本:Gemma 2B(20亿参数)和Gemma 7B(70亿参数)。每种规模都提供了预训练和指令微调版本。当前,Gemma 2B和7B允许所有组织(无论规模大小)负责任地进行商用和分发。

MWC2024 将于 2 月 26 日至 29 日在西班牙巴塞罗那举行,联想集团将推出最新的人工智能设备和基础设施及解决方案组合,并展示两款挑战传统个人电脑和智能手机外形的新概念产品。秉承AI for All的愿景,联想集团将在 MWC 上推出多款全新 AI PC 和边缘计算解决方案,加速促进该技术在 2024 和 2025 年成为主流,混合人工智能的趋势将刺激 AI PC 和 AI Phone 的需求,并推动新的行业更新周期。

issue57 2024.2.26-3.3

2月26日,谷歌团队发布110亿参数Genie精灵。Genie是一种全新的生成式AI范式,仅凭一张图像,就能创造出互动性强、可玩的环境,创造出可玩的虚拟世界,动作可控碾压Sora。Genie学习了20万小时的未标注互联网视频,主要包括2D平台游戏和机器人领域的视频,无需监督即可训练。无需任何动作标注,便可以确定谁是主角,并让用户能够在生成的世界中对其控制。Genie是通过潜动作模型、视频分词器,以及自回归动态模型三大核心组件来实现的。

2月27日,开源社区Mistral AI发布旗舰模型Mistral Large(不开源),具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。在主流基准测试中,Mistral Large,成绩仅次于GPT-4。Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景;能够处理32K Token的上下文内容;在执行具体指令方面异常精准;支持函数调用。目前,这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。其中,在Azure AI上的定价如下:输出为0.024美元/1000 token,输入为0.008美元/1000 token。

issue58 2024.3.4-3.10

3月5日,Anthropic发布了最新的Claude 3系列模型,在多模态和语言能力指标上,包括推理、数学、编码、多语言理解和视觉方面,碾压GPT-4。本次发了三个模型Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高,都将至少支持20万token的上下文窗口,都能处理超过100万token的输入。目前,Opus和Sonnet已经可以在claude.ai以及覆盖159个国家的Claude API上使用了。Haiku模型也将很快推出。

3月10日,Pika发布了一项Sound Effects新功能,可以给视频无缝生成音效。Pika给视频生成音效的操作简单。相比于此前生成视频的操作,现在只需开启下方“Sound effects”按钮即可。或者在生成了视频过后,点击下方的“Edit”,再选择“Sound Effects”单独给它配音。Sound Effects功能目前只对超级合作者(Super Collaborator)和Pro用户开放测试。

issue59 2024.3.11-3.17

3月14日,国内的大模型独角兽公司零一万物正式发布了 Yi 大模型 API 开放平台。此次 API 开放平台提供以下模型:Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-200K:200K 上下文,多文档阅读理解、超长知识库构建小能手。Yi-VL-Plus: 多模态模型,支持文本、视觉多模态输入,中文图表体验超过 GPT-4V。

3月15日,苹果正式公布自家的多模态大模型MM1系列,具有 30B 参数,参数最高可达 300 亿。它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

3月17日,xA官方开源Grok-1,一个3140亿参数的8个MoE混合专家模型。代码和模型权重已上线GitHub,模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。开源的是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用进行微调。Grok-1选用了Rust编程语言以及深度学习框架新秀JAX。

issue60 2024.3.18-3.24

3月18日,月之暗面将自家模型的上下文窗口提升了一个数量级,从发布之初的20万字,拓展到200万字。该版本在Kimi上开启内测,并且在与Kimi对话过程中,加入了(不打断模型思路的)“继续”功能按钮。同时,相同成本、相同设备情况下,模型响应速度提升了3倍左右。月之暗面还提出了“Kimi 10分钟速成定律”,即无关领域大众小众,也无关资料或多或少,只要把资料一股脑丢给模型,10分钟内,Kimi都能快速入门一个新领域。此外, Kimi Chat改名为Kimi智能助手,Moonshot大模型改名为Kimi大模型。

AI初创公司Suno AI重磅推出了一款音乐生成模型V3。仅用几秒的时间,V3便可以创作出2分钟的完整歌曲。现在已经向所有用户免费开放。相比与之前的版本,v3生成的音乐质量更高,而且能制作各种各样的风格和流派的音乐和歌曲。提示词的连贯性也有了大幅提升,歌曲结尾的质量也获得了极大的提高。为了激发人们的创作灵感,Suno v3还新增了更丰富的音乐风格和流派选项,比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。

3月18日,Colossal-AI团队全面开源了类Sora架构视频生成模型Open-Sora 1.0,涵盖了关于文生视频的整个训练流程,包括数据处理、所有训练细节和模型权重,1万美元64块GPU复现,训练成本直降46%。模型采用了目前火热的Diffusion Transformer(DiT)架构。整个架构包括一个预训练好的VAE,一个文本编码器,和一个利用空间-时间注意力机制的STDiT(Spatial Temporal Diffusion Transformer)模型。Open-Sora的复现方案参考了Stable Video Diffusion(SVD)工作,共包括三个阶段,分别是:大规模图像预训练;大规模视频预训练;高质量视频数据微调。

3月19日,Stability AI 推出3D 视频生成大模型Stable Video 3D(简称 SV3D)。该模型基于 Stable Video Diffusion 打造,能够显著提升 3D 生成的质量和多视角一致性,效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。目前,Stable Video 3D 既支持商用,需要加入 Stability AI 会员(Membership);也支持非商用,用户在 Hugging Face 上下载模型权重即可。

3月22日,百度升级了大模型应用开发神器百度千帆AppBuilder。它开放了55个工具组件,包括大模型组件、AI组件、搜索组件、第三个API工具等。能让企业或个人零门槛开发各种场景下的Agent应用。同时,百度大模型也上新了,一共5个,主打轻量化、性价比、实际场景:ERNIE Speed,ERNIE Lite,ERNIE Tiny,ERNIE Character,ERNIE Functions。

issue61 2024.3.25-3.31

3月29日,人工智能独角兽AI21 Labs推出并开源了Jamba,在多个基准上超越了 transformer。Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,是基于全新SSM-Transformer混合架构的52B生产级Mamba模型,与Mixtral 8x7B相比,长文本处理吞吐量提高了3倍;实现了256K超长上下文窗口;是同等规模中,能在单张GPU上处理140K上下文的模型;以Apache 2.0开源许可协议发布,开放权重。

3月29日,xAI升级推出Grok-1.5模型,数学和代码能力大幅提升,支持128k长上下文。Grok-1.5能够在其上下文窗口内处理128K token的文本。此外,新模型还可以处理更长和更复杂的提示,同时在其上下文窗口扩展时仍保持其指令跟随能力。Grok-1.5构建在基于JAX、Rust和Kubernetes的定制分布式训练框架之上。

3月30日,OpenAI 首次亮相了语音引擎 Voice Engine预览版,其首次开发时间是 2022 年末。通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。Voice Engine 并未根据用户数据进行训练或微调,而是通过一个扩散过程和 transformer 结合的方式 从而产生语音。不过,Voice Engine 目前不支持音调、音高或节奏的调整。Voice Engine 的定价为每一百万字符 15 美元。

RWKV 元始智能 日前宣布向全球开源其 RWKV-6 1.6B(2.5T Tokens) 模型。

issue62 2024.4.1-4.7

阿里通义千问团队正式公开 Qwen1.5-32B,它是 Qwen1.5 语言模型系列的新成员,在性能、效率和内存占用之间寻求理想平衡,旨在提供与30亿参数规模模型相媲美的性能。在 MMLU、GSM8K、HumanEval 以及BBH等多个任务上,Qwen1.5-32B 即使与72B参数模型相比性能有所下降,但在多数任务中仍优于其他30B级别模型。相较于72B模型,Qwen1.5-32B的内存占用大幅减少,运行速度显著提升,旨在帮助用户为其下游应用找到更优的解决方案。

4月2日,昆仑万维官宣,AI音乐生成大模型天工SkyMusic基于昆仑万维天工3.0超级大模型打造,即日起面向社会开启免费邀测。本轮测试已开放1000个免费名额。天工SkyMusic采用音乐音频领域类Sora模型架构:Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过LDM让Music Patches被还原成高质量音频,使得天工SkyMusic能够支持生成80秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。

4月3日,腾讯开源了文生视频工具MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。文本、图像到视频的生成结果的所有帧直接由MuseV生成,没有时序超分辨、空间超分辨等任何后处理。除了直接放出模型代码,目前MuseV还有demo可体验。

4月1日,初创公司阶跃星辰,发布了三个大模型:Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型预览版。目前,千亿参数模型 Step-1超过 GPT-3.5 ,多模态大模型 Step-1V比肩 GPT-4V。第一款应用是跃问聊天助手,可以完成信息查询、语言学习、创意写作、图文解读等任务。此外,它还具备了多模态内容理解能力、联网搜索、代码分析增强(POT)等能力,高效理解和回应用户的查询,提供连贯且相关的对话。

4月1日,澜舟科技官宣:孟子3-13B大模型正式开源,面向学术研究完全开放,并支持免费商用。孟子3-13B大模型是基于Llama架构,数据集规模高达3T Tokens。语料精选自网页、百科、社交、媒体、新闻,以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。

OpenAI官宣4月2日起,ChatGPT不用注册,可以直接使用。虽然这次开放的版本是GPT-3.5,训练数据截止到2022年,但仍然大大降低了使用门槛。此后的ChatGPT将成为一项免费,快速的基础服务。

4月4日,OpenAI 的 DALL-E 进行了多项升级,添加了与 ChatGPT 的集成,现在用户可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。当输入一个想法时,ChatGPT 会自动为生成模型生产量身定制的、详细的 Prompt,用户也可以继续使用自己的 Prompt。

issue63 2024.4.8-4.14

4月9日,Google Cloud Next 2024大会上,谷歌宣布Gemini 1.5 Pro正式开放公开可用、上线音频处理能力;更新代码模型CodeGemma,推出首款自研Arm架构处理器Axion,升级视频版Imagen 2.0。其中,谷歌Gemini 1.5 Pro已经在Vertex AI上开放公测,100万token,还增加了音频功能。它能处理音频流,包括语音和视频中的音频。

4月10日,OpenAI官宣发布了具备视觉功能GPT-4 Turbo的正式版,能处理128k上下文,已经可以通过API调用了,其训练数据截止到2023年12月。同时,Vision请求也可以使用JSON模式和函数调用。新模型可以有助于简化开发人员的工作流程,创造出更高效的应用程序。与此同时,OpenAI已经将GPT-4每3小时40条消息的使用限制,变成了根据供需情况动态调整的灵活配额。不过,有研究发现,GPT-4 Turbo with Vision在编码方面较差。

4月13日,xAI 推出了多模态模型 Grok-1.5V。该模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。目前,Grok-1.5V 还没有完全开放,但会很快提供给早期测试者和现有的 Grok 用户。此外,xAI 还推出了一个新的基准RealWorldQA。目前,RealWorldQA 包含 700 多张图片。

百度文心一言上线了新功能,仅需几秒钟即可定制自己的声音。打开文心一言App,点击下方“+”,然后选择创建智能体。在声音选项里,会发现一个名为“创建我的声音”的功能。根据系统提示读出一段话,只需两秒左右的时间,系统便能捕捉到用户的声音特点,生成一个独特的“语音助手”。在确认声音质量后,用户的专属“语音库”就在瞬间构建完成。今后,在与智能体的每一次对话中,用户都可以点击播放键,使用自己合成的音色进行语音播报。

issue64 2024.4.15-4.21

4月16日,Create 2024百度AI开发者大会举办,宣布文心大模型4.0性能提升52.5%,又公布了智能体、代码、多模型等方面的新进展。百度着重介绍了三款AI开发工具:AgentBuilder(智能体开发工具)、AppBuilder(AI原生应用开发工具)和ModelBuilder(模型定制工具)。其中,AgentBuilder是面向所有人的,不需要编程基础也能可以轻松建立。会上,百度还发布新一代智能计算操作系统万源(Wanyuan)。

4月17日,稀宇科技 MiniMax 推出了万亿 MoE 模型 abab 6.5。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s。abab 6.5 包含万亿参数,支持 200k tokens 的上下文(相当于约 30 万汉字)。abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据,但更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近三万字的文本。根据 MiniMax 发布的技术报告,在知识、推理、数学、编程、指令遵从等维度测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。MiniMax还开发了一款生产力产品“海螺AI”,目前已经接入了万亿 MoE 模型 abab 6.5。

4月17日,昆仑万维宣布天工 3.0基座大模型与天工 SkyMusic音乐大模型正式开启公测,无次数限制。它生成的中文人声发音清晰、正宗、无异响,不仅针对普通话做了优化,还有粤语、成都话、北京话等方言语种。目前,SkyMusic已经集成到了手机上的天工APP。从目前的结果来看,天工SkyMusic可以支持生成80秒左右时长的歌曲。大模型天工 3.0 拥有 4000 亿参数。

Mistral AI 开源了其最新的大模型 Mistral 8x22B,该模型在AI开放社区中设定了性能和效率的新标准。

4月19日,Meta官宣了Llama 3 80亿和700亿参数版本,在各自参数规模上超越对手,为开源SOTA。Llama 3 405B 版本仍在训练中,将是一个密集模型,预计年末发布。据现有的评测数据,405B 版本的性能已经逼近 GPT-4。架构层面,Llama 3选择了经典的仅解码式Transformer架构,采用包含128K token词汇表的分词器。训练方面,Meta上了2.4万块GPU集群,Llama 3的训练数据规模达到了15T tokens,全部来自于公开信息,其中5%为非英文数据,涵盖30多种语言。此次与基础模型一同发布的,还有基于Llama 3的官方Web版本Meta AI(https://www.meta.ai/)。目前该平台有对话和绘画两大功能。

issue65 2024.4.22-4.28

科大讯飞发布首个支持长文本、长图文、长语音的大模型 讯飞星火 V3.5。支持多情感超拟人合成和个性化声音复刻。

微软发布名为 Phi-3 的小型语言模型(SLM),该模型系列虽然体积小巧,但功能强大,具有很大的潜力。作为Phi-3系列的首版,Phi-3-mini 拥有3.8亿参数,并且性能超过了两倍于其大小的模型。Phi-3-mini 现在可以在 Microsoft Azure AI模型目录和 Hugging Face 上公开获取,并且也可以在 Ollama 轻量级框架上运行。

4月25日,苹果团队发布了OpenELM,包含了2.7亿、4.5亿、11亿和30亿四个参数版本。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的 checkpoint 和训练日志。OpenELM是一款专为终端设备而设计的小模型。OpenELM使用了分层缩放策略,来有效分配Transformer模型每一层参数,导致模型每层的参数数量不同,从而实现了更有效的跨层参数分配与提升准确率。这款模型还可以在M2 MacBook Pro(64GiB内存)运行。

issue66 2024.4.29-5.5

5月1日,Google推出新型多模态医学 AI 模型 Med-Gemini 。它融合了高级推理、多模态理解和长文本处理能力,构建基于 Google 的 Gemini 模型,并针对医学领域进行了专门的优化和改进。在医学基准测试如MedQA中,展现出优越性能,准确率达91.1%。

5月2日,Anthropic 推出一项针对企业的新付费计划,其中包括医疗保健、金融和法律等受到高度监管的行业,该计划名为“Team”,为客户提供对 Anthropic 的 Claude 3 系列生成型 AI 模型以及额外的管理员和用户管理控制的更高优先级访问权限。此外,Anthropic 也推出一款 iOS 应用,只有11MB。该应用提供对 Claude 3 的访问,包括免费访问以及升级的 Pro 和 Team 访问,并与 Anthropic 的网络客户端同步,利用 Claude 3 的视觉功能为上传和保存的图像提供实时分析。

issue67 2024.5.6-5.12

幻方 DeepSeek AI 开源 MoE 语言模型 DeepSeek-V2。该模型拥有236B的参数量,能够处理长达128K token的上下文,相较于前一代DeepSeek 67B模型,在性能上实现了显著提升,同时在训练成本上节省了42.5%,减少了93.3%的KV缓存,并显著提高了最大生成吞吐量。在多个基准测试中,DeepSeek-V2的性能直逼行业领先的GPT-4,尤其在数学、代码和推理任务上表现出色。

5月8日,谷歌DeepMind发布了新一代预测蛋白质结构的AlphaFold 3模型,能够帮助科学家更精确地针对疾病机制,从而开发出更有效的治疗药物。此举是一个重要的里程碑式突破。AlphaFold 3是一种人工智能模型,它可以预测蛋白质、DNA、RNA等生物分子的结构以及它们如何相互作用。另外,DeepMind还推出了AlphaFold Server,它是一个供全球科学家用于非商业研究的免费平台。

5月9日,阿里云正式发布通义千问2.5,同时发布1100亿参数开源模型Qwen1.5-110B。此外,百炼大模型平台从模型开发、应用开发到算力底座全面升级。升级后,百炼还兼容LlamaIndex等开源框架,企业可自由替换能力组件来适配自身系统。

月之暗面 Moonshot AI 宣布对旗下智能助手 Kimi 进行更新,并推出专业 AI 助手 “Kimi+”。据官方介绍,Kimi+ 是拥有独特技能的 Kimi 分身,可解决特定问题,也能组成 AI 生产线。

零一万物推出了名为「万知」的一站式AI工作平台,号称专为中国人设计,能够提供会议纪要、周报撰写、写作辅助以及解读财报、论文等文件,并帮助用户制作PPT。这款AI个人助手支持中英双语,用户可以通过网页和微信小程序访问。

5月8日,OpenAI 官方发布了《模型规范》(Model Spec) 初稿,旨在公开讨论和定义AI模型应有的行为。所公开的文件汇集了OpenAI在塑造模型行为方面的现有文档、研究经验和未来模型发展的指导原则,主要包括三个核心部分:目标、规则和默认行为。目标是指导模型行为的广泛原则;规则是确保安全和合法性的明确指令;默认行为则是在目标和规则框架下处理冲突的指导方针。Model Spec 的发布是为了加深公众对AI模型行为的理解和讨论,同时也是OpenAI对模型安全和行为改进承诺的延续。OpenAI计划将这份规范作为研究人员和AI训练者的指导,探索模型是否能直接从规范中学习,并在未来一年内根据反馈更新规范内容、分享研究进展。

issue68 2024.5.13-5.19

5 月 14 日凌晨,OpenAI 在首次春季新品发布会上推出了新一代旗舰生成模型 GPT-4o (o 代表 Omnimodel全能模型)、桌面 App,并展示了一系列新能力。GPT-4o具有文本、语音、图像三种模态的理解力,模型反应比人类的回应还快,最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。还能够充分理解人类的情感,也能表现出各种感情。在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能。GPT-4o 的文本和图像功能免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。

5月17日, OpenAI宣布ChatGPT可分析线上Excel数据。ChatGPT可以直接打开线上数据文件,支持从Google Drive和Microsoft OneDrive在线文档上传,在新的可扩展视图中与表格和图表进行实时交互,完成实时数据分析;自定义图表并下载图表,用于演示文稿和文档。网友已经灰度测试到背后的新模型ADA V2。

零一万物发布 Yi 大模型家族的新成员 Yi-1.5 并宣布开源。Yi-1.5 模型包含6B、9B、34B三个版本的预训练和微调模型,采用Apache 2.0许可证。该模型在编码、数学、推理和指令遵循方面的能力相较于前一版本Yi有显著提升,同时保持了在语言理解、常识推理和阅读理解方面的优秀表现。

腾讯发布基于混元大模型的一站式智能体开发平台「腾讯元器」。企业和开发者可以通过腾讯元器直接创建智能体,利用腾讯官方提供的插件和知识库,实现个性化的AI应用开发。腾讯元器的亮点在于其便捷的一键分发功能,允许用户将创建的智能体快速部署到QQ、微信客服、腾讯云等多个渠道上,极大地简化了AI技术的落地应用过程。

腾讯公司宣布其混元文生图大模型全面升级并开源,这是业内首个中文原生的DiT(Diffusion With Transformer)架构文生图模型。该模型包含15亿参数,支持中英文双语输入及理解,现已在Hugging Face平台及GitHub上发布,包括模型权重、推理代码和模型算法等,可供企业与个人开发者免费商用。

5月15日,2024火山引擎FORCE原动力大会上,字节跳动云雀大语言模型升级为豆包大模型家族正式在火山引擎上对外开放服务。豆包大模型家族的全系列模型,包括豆包通用模型pro/lite、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call模型、文生图模型以及向量化模型。豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens。另外,豆包通用模型pro-128k版本,推理输入价格为0.005元/千tokens。

谷歌在I/O 2024开发者大会上发布Gemini 1.5 Pro正式版,上下文长度达到200万token,而且开放给个人用户使用。支持多模态的Gemini可以处理上传的任何格式的信息,理解内容后将其改造成适合用户的形式并可对话互动。

谷歌发布了Gemini 1.5 Flash。Flash是一个更轻量级的模型,专为那些对响应速度要求极高的特定或频繁任务优化。它同样具有多模态、1M tokens长上下文的特点,只不过实现了轻量化、低延迟、高效推理,每百万个token的价格仅是Pro版的二十分之一。Gemini 1.5 Flash在Google AI Studio和Vertex AI中可用,开发者可以注册申请两百万token的内测版。

issue69 2024.5.20-5.26

微软在2024 Build开发者大会上发布了Phi-3系列模型的新成员 “Phi-3 Vision”,这是一个有42亿参数的多模态模型,结合了语言和视觉能力。Phi-3 Vision专为图表和图解理解进行了优化,能够处理现实世界图像的推理以及从图像中提取和推理文本,支持128K的上下文长度。该模型在一般视觉推理任务、OCR、表格和图表理解任务中表现出色,优于其他更大模型如Claude-3 Haiku和Gemini 1.0 Pro V。

5月21日,微软在2024 Build开发者大会发布新一代 Copilot+ PC。它配备了强大的 AI Agent,只需在键盘上轻点新的 Copilot 按键即可快速交互。硬件AI算力达到40 TOPS以上,或者说每秒40万亿次运算,电池续航时间可达一整天。目前开始预订,起售价 999 美元,国行价格8688 元起售,6 月 18 日发货。在新一代PC里,打游戏时可与AI实时对话,提供吐槽陪玩或攻略指导,由GPT-4o提供支持。任何文件或网页浏览记录都可以用自然语言搜索回忆,实时翻译音频或视频字幕,目前支持40+种语言。在专为AI重构的新版Windows 11上,约有40多个AI模型被深度集成,许多功能都是实时的。微软引入了全新的系统架构,将CPU、GPU和新的高性能神经处理单元NPU结合在一起。NPU负责在后台实时运行AI。

5月21日 ,智谱·AI宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。CogVLM2的技术架构在上一代模型的基础上进行了优化,包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块,这些模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。

5月22日,百川智能发布其最新一代基座大模型 Baichuan 4,并推出了首款AI助手“百小应”。Baichuan 4在各项能力上相比前一代Baichuan 3有显著提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%。在SuperCLUE的评测中,Baichuan-4的能力排名国内第一,超越了SenseChat V5。Baichuan 4还首次带来了多模态能力,在各大评测基准上表现优异,领先其他多模态模型。

5月20日,面壁智能打造了端侧多模态模型MiniCPM-Llama3-V 2.5。该模型8B参数,不仅支持30+多种语言,而且综合性能、OCR长难图识别能力SOTA;图像编码快150倍。面壁自研高清图像高效编码技术,可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比的图像。

issue70 2024.5.27-6.2

腾讯将基于混元大模型的 AI 助手应用「混元助手」升级为「腾讯元宝」,集成 AI 搜索、AI 总结、AI 写作等功能。元宝不仅提供 AI 助手的标准功能,还利用腾讯新闻和微信公众号平台的资源,增强了内容的及时性和丰富度。此外,元宝还具备生成内容、翻译、多模态生成等多种能力,显示出腾讯在 AI 应用领域的强大技术实力和生态优势。

Google 宣布 Gemini 1.5 Flash 和 Gemini 1.5 Pro 现已全面推出。Gemini 1.5 Flash 现支持 1,000 RPM 限制,并引入了调优功能。此外,API 现已支持 JSON Schema 模式,AI Studio 移动版支持和浅色模式也已上线,为开发者提供更强大和便捷的开发工具。

OpenAI 推出专为大学校园设计的 ChatGPT Edu 版本,支持 GPT-4o、网络搜索、自定义 GPT、数据分析、代码生成等功能。牛津、剑桥、伯明翰等 24 所大学,以及沃顿商学院和亚利桑那州立大学已开始使用该生成式 AI 产品。ChatGPT Edu 提供多模态推理、增强的数据分析和搜索功能、自定义 GPT、提升的语音质量及多语言支持,还具备强大的安全机制,包括数据隐私、组权限和管理控制。

法国人工智能初创公司 Mistral AI 宣布了其首个代码生成模型 Codestral。该模型接受了 80 多种编程语言的训练,包括 Python、C、C++、JavaScript 和 Bash 等。Codestral 能自动完成代码函数、编写测试,并使用填补中间的机制完成部分代码,减少错误和漏洞。该模型拥有 32k 的上下文窗口,在 HumanEval、MBPP、CruxEval、RepoBench 和 Spider 等基准上表现出色,提供 API 端点、插件和开发环境集成。

issue71 2024.6.3-6.10

6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是支持用单台4090服务器推理的开源千亿MoE大模型。本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。

6月4日,AI初创公司澜舟科技宣布轻量化大模型Mengzi3-8B,现已正式开源,并支持免费商用。Mengzi3-8B是一款高效、低显存需求的AI大模型,半精度下显存占用小于16G,适用于PC(如MacBook)和大部分消费级显卡(如RTX 4090、RTX 4080、RTX 4070Ti)。此外,Mengzi3-8B的原生推理速度在同级别模型中处于领先地位,特别适合个人开发者和AI爱好者使用。

6月5日,智谱AI在智谱AI Open Day上宣布对旗下全模型矩阵的价格大幅下调,开源GLM-4-9B系列模型,并发布了大模型应用清言App和大模型开放平台的最新更新。小模型ChatGLM3-6B升级为9B后,在开放平台变为GLM-4-flash版本,API 价格相较于GLM-3 Turbo降价至10%。第四代GLM系列开源模型GLM-4 9B,官宣开源免费用。GLM-4模型,在开放平台上为GLM-4-Air版本,每100万token只需1元,价格则仅为原来的1%。

6月7日,阿里云发布开源模型Qwen2-72B。本次开源的Qwen2-72B大模型在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的开源模型,包括阿里云在4月底开源的Qwen1.5最大的模型Qwen1.5-110B。该Qwen2系列包含5个尺寸的预训练和指令微调模型,包括wen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。所有尺寸模型都使用了GQA(分组查询注意力)机制,模型的多语言能力和上下文长度支持均得到了提升。

issue72 2024.6.10-6.16

苹果在WWDC 24上展示了其首个AI系统——Apple Intelligence及全新Siri。这个强大的新功能将为iPhone、iPad和Mac提供情景驱动通知、写作改进、图像生成等功能。Apple Intelligence的英语试用版将于今年夏天推出,并于今年秋天在iOS 18、iPadOS 18及macOS Sequoia中发布Beta版。使用门槛是iPhone 15 Pro系列、配备M1芯片的iPad和Mac以及后续机型。苹果还和OpenAI宣布建立合作伙伴关系,将ChatGPT直接集成到即将发布的iOS 18、iPadOS 18和macOS中。

Luma Labs推出了Dream Machine,这是一种全新的AI模型,能够根据文本和图像提示生成5秒的视频剪辑。

6月12日,微软发布公告称Copilot GPTs将于7月10日起停服,移除创建GPT的功能,用户已经创建的GPTs将被清空。微软给出的官方解释是公司战略调整,正在将GPT的重点转向商业和企业场景,背后原因可能是缺乏商业回报。Copilot GPTs关闭引发了用户不满,批评者质疑此举会切断创新并削减消费者对于产品的信任。

6月14日,英伟达宣布推出 Nemotron-4 340B。它包含一系列开放模型,通过独特的开放模型许可,开发人员可以用免费、可扩展的方式使用这些模型生成合成数据,用于训练大语言模型,可用于医疗健康、金融、制造、零售等所有行业的商业应用。Nemotron-4 340B 系列包括基础、Instruct 和 Reward 模型,用于生成训练和改进 LLM 的合成数据。这些模型经过优化,可与 NVIDIA NeMo 配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。

issue73 2024.6.17-6.23

6月20日,Anthropic 发布了下一代旗舰大模型Claude 3.5 Sonnet,不仅在评估中胜过GPT-4o,还保持着中等规模的模型所具有的速度和成本优势。如今,Claude 3.5 Sonnet已经面向全球开启免费试用了。成本更低、速度更快。在运行速度方面,Claude 3.5 Sonnet也是Claude 3 Opus的两倍。在费用上,Sonnet处理每百万输入token仅需3美元,每百万输出token仅为15美元。

在Computex 2024大会上,Stability AI正式官宣SD 3 Medium公开发布。据悉,之后还会开源4B和8B的版本。目前,ComfyUI已经提交了对SD3支持的版本。本次开源的版本是Stable Diffusion 3 Medium在Hugging Face上可以下载模型权重。它的规模为20亿参数,在笔记本上就能跑。

6月21日,华为在年度开发者大会上推出全新升级的盘古大模型5.0版本,该版本在全面性、多模态处理能力以及深度思考能力上均实现了显著提升。盘古5.0针对不同业务需求,推出了多种规格的模型,并且能够与现实世界紧密结合,推动大模型在各行业的广泛应用。

Hedra发布Character-1,用户可以细颗粒度地控制如何使用AI来制作“虚拟角色的动画”。这是Hedra即将推出的基础视频模型的“预览版本”,目前它只提供方形视频,而不是宽屏或竖屏,而且分辨率相对较低。它的使用门槛相当低。基于该模型,用户只需要一段音乐——可以直接生成,或者上传已有的音乐,一张图片——可以直接生成,或者上传自己的图片。然后,只需单击生成视频并等待即可。大概一分钟左右,会生成一个一个口型同步的视频。

依图科技发布了面向安防场景的天问大模型4.0。

issue74 2024.6.24-6.30

谷歌DeepMind公布其新一代最强开源模型——Gemma 2。Gemma 2有90亿(9B)和270亿(27B)两种参数规模可用。27B模型训练了13T tokens,9B是8T tokens,都拥有8192上下文窗口,可在Google AI Studio中使用。26亿参数(2.6B)模型将很快发布,小到可以在手机本地运行。

OpenAI宣布开发了一个名为CriticGPT的新模型,基于GPT-4训练,旨在查找ChatGPT输出内容中的错误。CriticGPT的主要目的是协助人类AI训练员完成工作,使用”从人类反馈中强化学习”(RLHF)技术来改进GPT-4的回答。

6月25日,OpenAI向中国用户发布邮件称,自7月9日起,将不再接受来自那些未在其支持列表中的国家和地区的API请求。如果受影响的组织想要继续利用OpenAI的服务,他们需要在OpenAI服务覆盖的国家或地区进行访问。目前,OpenAI的API服务覆盖了全球161个国家和地区,但中国并不在其中,这表明OpenAI将不再向中国用户提供API服务。

百度在深度学习开发者大会上推出了智能代码助手”文心快码”。该产品基于文心大模型和百度多年积累的编程数据,具有代码智能、场景丰富等优势,可实现”帮你想、帮你写、帮你改”的应用形态。文心快码在百度内部已广泛使用,代码采用率达44%。它支持100多种编程语言,在Go、Java等主流语言中表现优异,并兼容多种主流IDE。产品分为标准版、专业版、企业版和企业专有版,满足不同用户需求。

6月27日,科大讯飞发布讯飞星火大模型V4.0及多个领域的人工智能应用。

issue75 2024.7.1-7.7

Runway宣布其最新的文生视频模型Gen-3 Alpha向所有用户开放,每月最低收费12美元。Gen-3一次可生成11秒的720P视频,支持文本输入生成视频。该模型功能强大,比肩Sora,能够生成高质量的视频内容。

7月3日,AI 音乐生成工具 Suno 宣布推出 iOS 客户端。

7月4日凌晨,法国知名开源 AI 研究实验室 Kyut 在官网发布了多模态大模型 Moshi。Moshi 的功能与 OpenAI 在5月14日展示的最新模型GPT-4o类似,都可以听取人的语音提问后进行实时推理回答。

7月4日,在今天揭幕的 2024 世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)上,阶跃星辰首发了三款 Step 系列通用大模型新品:Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。

7月5日,商汤科技发布了国内首个流式多模态大模型日日新5.5,实现了实时跨文本、音频、图像与视频推理,多项测评超过GPT-4o。

腾讯元宝应用推出了AI深度搜索功能,用户更新至最新版本后,能够在AI搜索深度模式下获得扩展问题解答,并能一键生成内容大纲、思维导图以及相关人物事件梳理。特别是在科研和财经等专业领域,该功能能够提供详尽的回答。经测试,元宝引用的消息源基本来自微信公众平台公众号文章。

快手宣布可灵AI网页端正式上线,所有功能限时免费。新功能包括:“文生视频”,支持最长10秒的视频生成以及“图生视频”,新增运镜控制和自定义首尾帧。可灵AI网页端提供AI图片、AI视频及即将上线的视频编辑功能,目前已吸引超过50万用户申请内测资格。

issue76 2024.7.8-7.14

腾讯智影小程序上线AI视频功能,用户可一键生成风格化视频,限时免费。用户导入视频后,可快速生成风格化效果,支持10秒视频处理。此外,智影AI还包含虚拟数字人、文本配音、智能去水印和文章转视频等功能,提升视频创作体验。

7月10日,阿里巴巴上线了AI搜索助手“心流”,提供智能搜索、知识问答、智能阅读、辅助创作等功能,旨在帮助用户提升工作和学习效率。

百度推出一款新型AI社交App“文小言”,利用文心大模型技术提供仿真数字人社交体验,允许用户与AI虚拟角色进行实时互动,每个角色都具备个性化的聊天服务和肢体语言反馈。

issue77 2024.7.15-7.21

7月17日,Anthropic 推出了 Claude Android 应用程序,旨在通过提供更多平台支持来吸引用户。该应用程序允许用户免费访问 Anthropic 的 AI 模型 Claude 3.5 Sonnet,并提供实时语言翻译功能,支持设备间对话同步和照片或文件的实时图像分析。此外,企业客户还可以在移动设备上访问他们的 Claude 账户。

7月19日,OpenAI 发布 GPT-4o mini ,一个成本更低、性能接近 GPT-4 的新模型,已在 ChatGPT 中取代 GPT-3.5。新模型支持更大的输入输出 tokens,价格更便宜,适用于多种应用场景,并计划开放微调功能。

issue78 2024.7.22-7.28

7月23日,Meta 正式发布了 Llama3.1,这是一系列大模型,包括8B、70B和405B三个版本,其中 405B 版本在性能上与 GPT-4o 相当,刷新了开源基础模型的能力上限。Llama 3.1扩展了上下文长度至 128K,并支持多语言和工具使用。Meta在预处理和预训练数据的 Curation pipelines 上进行了加强,并在后训练数据的质量保证和过滤方法上做了改进。Llama3.1 使用了超过 15 万亿的多语言 Token 语料库进行预训练,预训练模型的规模远大于以前的版本。

7月25日,OpenAI 宣布旗下AI搜索引擎 SearchGPT 正式开放内测,并计划在未来接入到 ChatGPT 服务中。

7月26日,智谱AI发布了升级版视频生成模型 CogVideoX,并推出了名为“清影”的AI视频生成服务,该服务能够在 30 秒内快速生成 6 秒视频,支持复杂指令的准确理解和执行,确保视频内容连贯,并具有画面调度的灵活性。目前,“清影”已在智谱清言的多个平台上免费开放给用户体验,同时企业和开发者也可以通过智谱大模型开放平台的 API 调用使用。

issue79 2024.7.29-8.4

7月31日,GPT-4o高级语音模式开启邀请测试。OpenAI宣布开始向一小部分ChatGPT Plus用户推出高级语音模式,基于GPT-4o提供更自然的实时对话。

谷歌发布了 Gemini 1.5 Pro 0801 版本,这款强大的 AI 在 LMSYS AI 竞技场排行榜上以 1300 分的成绩领先,超过了 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3.5。Gemini 1.5 Pro 配备了 2,000,000 个 token 的上下文窗口,极大增强了其处理大规模数据和生成长篇内容的能力。

谷歌开源了其最新端侧小模型Gemma2 2B,该模型以20亿参数的规模在性能上超越了参数更多的GPT-3.5-Turbo和Mixtral-8x7b,成为大模型竞技场LMSYS Chatbot Arena中表现最佳的开放模型之一。Gemma2 2B不仅性能卓越,还具有内置安全改进功能,同时推出了ShieldGemma安全内容分类器和Gemma Scope模型可解释性工具,进一步强化了模型的安全性和透明度。

7月31日,360集团创始人周鸿祎宣布,360安全大模型将免费为个人用户、中小企业提供服务,并在行业内第一个宣布安全大模型免费,让人人都能获得大模型带来的技术红利。

8月1日,Stable Diffusion 原团队成员创办的 Black Forest Labs 发布了 FLUX 文本转图像模型系列。FLUX.1 模型为开源图像生成模型树立了新标准:它们可以生成逼真的手、清晰的文本,甚至可以生成搞笑表情包这样异常困难的任务。

issue80 2024.8.5-8.11

GPT-4o自20240513之后首次更新到20240806版本。

OpenAI 推出了一项新功能,严格要求模型按 JSON 格式输出。允许开发者生成符合指定 JSON 模式的结构化输出。用户可以通过函数调用或 response_format 参数(使用 json_schema 选项)在 API 中使用此功能。

8月6日,智谱AI将其视频生成大模型CogVideoX开源,成为首个可商用的开源视频生成模型。CogVideoX支持在线体验,展示了高质量的视频生成效果,并且易于部署和使用,仅需单卡A100在90秒内即可生成视频。

issue81 2024.8.12-8.18

阿里巴巴开源的 Qwen2 Audio – 8.5B 模型在 ASR、S2TT 和 AIR-Bench 基准测试中表现出色,达到了目前的最佳状态。该模型经过 370K 小时的语音、140K 小时的音乐和 10K 小时的声音数据预训练,特别擅长语音聊天和音频分析任务,并与 Transformer 结构无缝集成。

8月14日,马斯克旗下的人工智能公司 xAI 正式发布新一代 Grok 2 大模型测试版,包括 Grok 2 和 Grok 2 mini 两个版本。Grok 2 测试版在逻辑推理能力上有显著提升,并且新增了文生图功能,使用 Black Forest Labs 的 FLUX.1 模型来生成图像。该版本支持中文提问和回答,目前只有 X Premium 和 Premium+ 用户可以体验。

8月16日,Runway 正式推出了其最新的AI视频生成模型 Gen-3 Alpha Turbo,该模型在视频生成速度上比之前的 Gen-3 Alpha 快了 7 倍,并且价格仅为原版的一半。这一新模型在保持与原版相同性能的同时,大幅降低了成本,使得所有用户都能体验到更快速的AI视频生成技术。

阿布扎比技术创新研究所推出了 Falcon Mamba 7B 模型,不依赖 Transformer 架构和注意力机制,能高效处理无限长序列,性能超越同规模开源模型。这一新模型特别适合长文本处理,且在内存使用上更为高效,现已在Hugging Face和GitHub上开源。

AI 代码编辑器 Cursor 将默认大模型切换到 Claude 3.5 Sonnet。Cursor 母公司 Anysphere,成立初期从 OpenAI 处融资 800 万美元,占当轮融资的 72.7%。

issue82 2024.8.19-8.25

Midjourney 网页版对所有人开放,为每位新用户提供最先进模型V6.1 25次试用机会。用户可使用Discord或Google账号登录,并在账户设置中合并两个平台的登录信息,确保历史记录同步。

8月19日,科大讯飞的星火语音大模型推出了极速超拟人交互更新,通过先进的端到端技术实现了快速响应和自然对话的无缝打断。新模型不仅能够识别并共鸣用户的情绪变化,还能根据用户的指令灵活调整情感表达和语言风格。此外,它还具备仿多种角色音色和语气的能力,使用户能够与不同人设进行互动。

8月21日,微软推出的新一代AI模型系列Phi-3.5,包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本,分别针对轻量级推理、混合专家系统和多模态任务设计。Phi-3.5采用MIT开源许可证,具有不同参数规模,支持128k上下文长度,优化了多语言处理和多轮对话能力,在基准测试中性能表现超越了GPT4o、Llama 3.1、Gemini Flash等同类模型。

Luma AI 推出了 Dream Machine 1.5,这是其 AI 视频模型的升级版,带来了更高质量的文本转视频功能。新版本不仅在理解文本提示上更为智能,还提供了自定义文本渲染选项,并进一步改进了图像转视频的效果。

阿里大语言模型“通义千问”今日宣布启用新域名“tongyi.ai”,并带来多项新功能。网页版聊天新增深度搜索功能;App 图片微动效支持多尺寸图片;App 自定义唱演支持 3:4 画幅(原先 1:1)。

issue83 2024.8.26-9.1

Anthropic 宣布 Claude 中的 “Artifacts” 功能现已对所有用户开放,且已集成到 iOS 和 Android 应用中。这意味着用户现在可以在手机上创建和查看这些 “Artifacts”。自6月推出预览版以来,已经有数千万个 “Artifacts” 被创建。这个功能类似于在软件中创建和保存个人作品或项目的过程,使用户可以更方便地管理和分享他们的创作成果。Anthropic 鼓励用户探索和利用这一功能,以便在 Claude 的平台上进行更多创新和分享。

智谱开放平台现提供免费的 AI 大模型服务,用户可注册后调用 GLM-4-Flash 模型来构建定制化模型和应用。GLM-4-Flash 适合处理垂直领域、成本敏感、需求快速响应的任务,具备多轮对话、网页浏览、函数调用和长文本推理能力,并支持 26 种语言。平台通过自适应权重量化、并行化、批处理和投机采样等技术优化模型效率,实现推理速度提升和成本降低。

8月28日, Gemini 官方版本更新公告,Gemini Gem 管理器功能已正式上线,这是 Gemini 版的 GPTs。

谷歌在其 AI Studio 中推出了三款新的 Gemini 实验性 AI 模型:Gemini 1.5 Flash-8B、Gemini 1.5 Pro Exp-0827 和 Gemini 1.5 Flash Exp-0827。Gemini 1.5 Flash-8B 拥有 80 亿参数,专为多模态和长文本摘要任务设计;Gemini 1.5 Pro Exp-0827 强化了编程与复杂提示词的处理能力,在 LMSYS 排行榜上升至第二,仅次于 OpenAI 的 GPT-4o-latest;Gemini 1.5 Flash Exp-0827 的性能显著提升,排名从第 23 位跃升至第 6 位。用户可通过 Gemini API 和 Google AI Studio 访问这些新模型。此外,谷歌计划在 9 月 3 日起将 gemini-1.5-pro-exp-0801 模型的请求自动重定向至更新的 gemini-1.5-pro-exp-0827,并移除旧版模型。

Android / macOS 版 ChatGPT 客户端发布新版本。现在您可以使用 ChatGPT 上的“提及”功能,该功能允许用户在一次对话中使用“@”符号调用不同的自定义GPT模型。

8月29日,智谱发布新版基座大模型GLM-4-Plus,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能;利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好反应人类偏好。新版文生图模型 CogView-3-Plus:具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。智谱还宣布智谱清言App新版现已支持视频通话,AI可以实时“看到”你的表情(陪伴场景),甚至可以来一局“你画我猜”。

谷歌宣布旗下 Gemini AI 支持更多类型的文件,包括电子表格、演示文稿、图像、音频和视频等,为用户提供更优质的 AI 服务。Gemini AI 可以分析、摘录和洞察文档内容,帮助用户提高理解、研究和写作能力。

issue84 2024.9.2-9.8

百度文心一言 App 推送一周年升级,更名为 「文小言」,同时宣布 9 月内文心 4.0 大模型将免费使用。

腾讯在 2024 全球数字生态大会上发布新一代大模型 「混元 Turbo」,采用 MoE 架构,推理效率提升 100%,推理成本降低 50%。其价格较混元 Pro 降低 50%,输出价格为 0.05 元 / 千 tokens,输入价格为 0.015 元 / 千 tokens。

在 2024Inclusion 外滩大会上,蚂蚁集团总裁韩歆毅宣布了全新推出的 AI 独立 App 支小宝,展示了蚂蚁集团在 AI 应用布局上的成果以及服务亿级用户的实践。支小宝 App 的定位是服务型 AI 产品,基于蚂蚁百灵大模型开发。它连接的仍是支付宝生态,在功能上,通过对话进行订票、点餐、打车等。

蚂蚁集团在外滩大会财富论坛上推出升级版 AI 金融管家 「蚂小财」,新版 「蚂小财」 能更实时解读热点,提供个性化专业服务,并在支付宝 APP 全量上线。同时,蚂蚁财富全新 APP 搭载 「蚂小财」 Pro 版上线灰测,这是国内首个实现 AI 原生体验的理财 APP。截至 2024 年 8 月底,「蚂小财」 的月度活跃用户数已达到 7000 万人,其中 45% 来自三线及以下城市。

OpenAI 计划推出大型语言模型的订阅服务,包括专注于推理的 「草莓」 和名为 「Orion猎户座」 的新旗舰 LLM。内部讨论中曾考虑过每月最高 2000 美元的订阅价格,但最终价格尚未确定。这一定价关系到 OpenAI 及其在类似产品领域的竞争对手,如谷歌、Anthropic 等公司。

OpenAI 日本办公室 CEO 长崎忠雄在 KDDI 峰会上透露,新一代模型 GPT-Next 的性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。GPT-Next 模型的性能提升归功于其优化的架构设计和学习效率的改进。

AI 公司 Anthropic 推出 Claude Enterprise 计划,旨在帮助企业更好地整合 AI 模型与内部知识库,提供个性化丰富的体验。该计划支持上下文窗口达 50 万个词元,原生集成 GitHub,并放宽了使用限制。Anthropic 表示,企业可向 Claude 提供大量知识资料。然而,企业不应过分依赖大型文档处理能力,因为 AI 模型可能出现 「中间丢失」 现象。Claude Enterprise 提供安全功能如 SSO 和基于角色的权限管理,强调保护客户数据,并将推出审计日志和 SCIM 功能。

谷歌推出了新的 AlphaProteo AI模型,旨在设计能与目标分子成功结合的高强度蛋白质结合剂,用于药物设计和疾病理解。该系统能生成新的蛋白结合体,已成功设计出与癌症和糖尿病并发症相关的血管内皮生长因子-A 的蛋白质结合剂,并具有较高的体外实验成功率。谷歌通过测试多种目标蛋白的结合体,包括病毒蛋白和参与癌症、炎症等疾病的蛋白,以验证 AlphaProteo 的效果。

谷歌推出了 Google Photos 应用的新功能 「Ask Photos」,该功能利用 Gemini AI 技术,允许用户通过自然语言搜索照片库,查找特定的回忆或信息。此功能已开始向 iOS 和 Android 用户开放早期访问权限。用户可以提出各种问题,以从自己的图片库中检索相关内容,例如 「我去年在哪里露营。」「我的门票何时过期。」 等。

Replit推出Replit Agent。这个工具旨在协助用户构建手机软件项目。它可以理解自然语言提示,并帮助用户从构思到部署将应用程序从概念变为现实。Replit Agent通过使用自然语言进行控制,使得构建和部署应用程序变得更加简单和高效。它提供了一个创新的方式,让用户可以用简单的语言描述来创建和部署应用程序。

issue85 2024.9.9-9.15

9月12日,OpenAI宣布全新模型o1-preview正式亮相。该模型即为传言了近一年的Q*/草莓。根据OpenAI发布的资料,该模型在智能推理方面达到了前所未有的新高度,因此,模型版本号将从1开始计数。这或许意味着,我们不会再看到GPT-5,o1将成为OpenAI未来的顶尖力量。从9月12日起,ChatGPT Plus和Team用户已可率先体验这一模型。用户可根据需求选择使用o1模型的预览版——o1-preview,或是其精简版——o1-mini。o1-preview每周的使用上限为30条消息,而o1-mini则为50条。由于用户体验热情较高,OpenAI还在9月14日宣布重置本周所有用户的条数限制。

9月10日,Apple举行秋季新品发布会正式发布iPhone 16系列,同时宣布Apple Intelligence美国英语版本将在今年晚些时候在加拿大/澳大利亚/新西兰/英国/南非等市场推出,明年将支持中文/法语/日语/西班牙语。

腾讯推出游戏视频模型GameGen-O,可生成开放世界视频游戏,模拟游戏引擎功能,生成游戏角色、动态环境、复杂动作等,支持交互控制。业内人士称其为游戏工作室的ChatGPT时刻。

法国AI初创公司MistralAI发布了首个多模态模型Pixtral12B,拥有120亿个参数,能够处理图像和文本。然而,HuggingFace的技术主管指出其性能数据可能存在问题。尽管如此,Pixtral12B展示了强大的图像识别和处理能力,包括识别复杂数学符号和生成详细描述。MistralAI计划在聊天机器人和API平台上提供测试。

issue86 2024.9.16-9.22

微软已在Azure OpenAI服务中提供o1-preview和o1-mini两个模型的部署(API)。

微软召开发布会,介绍Microsoft 365 Copilot的Wave 2更新。包括新推出的 Copilot Pages 一站式网页搜索、内容策划和团队写作工具,以及通过 AI 生成 Python 代码快速处理 Excel 数据和一句提示生成 PPT 页面的功能。微软还推出了 Copilot 智能体以简化企业业务流程。

9月18日,360智脑推出基于CoT思维链概念的多模型协作功能,这一功能是通过多个大模型组成的智能体框架实现的,可以让多个模型共同思考和协作解决业务问题。用户可以从多款模型中任选3款,分别做专家、反思者和总结者,以实现更全面、深入的思考和推理过程。

9月19日,阿里巴巴在云栖大会上开源最新的Qwen-2.5大模型,并提供了0.5b-72b的各种尺寸。这一系列大模型包括Qwen2.5、Qwen2.5-Coder和Qwen2.5-Math等不同参数版本,适用于各种业务场景。此举进一步推动了国内大模型研究和应用的发展。

可灵 AI 全球升级发布,新增可灵 1.5 模型和 「运动笔刷」 功能,提升视频生成质量与控制能力。自 6 月发布以来,已进行 9 次迭代,超过 260 万人使用,生成视频超 2700 万部、图片 5300 万张。

智谱AI开源了其图生视频模型CogVideoX-5B-I2V,该模型支持通过一张图片和提示词生成视频。同时开源的还有标注模型cogvlm2-llama3caption,用于将视频内容转换成文本描述。智谱AI团队还发布了一些成功的应用案例,并公开了相关研究论文。

issue87 2024.9.23-9.29

9月25日,Meta推出新一代开源AI模型Llama3.2系列,包含从1B纯文本到90B多模态的多个版本,支持边缘和移动设备,旨在推动人工智能在多种使用案例中的应用。此次发布强调了模型的开放性、可定制性以及在图像理解和视觉推理任务方面的能力,同时提供了预训练和指令微调版本,支持高通和联发科硬件,并针对ARM处理器优化。Meta同日还发布了真AR眼镜Orion,搭载端侧大模型,现阶段作为原型机仅面向开发者,预计消费者版本将于两年内推出。

Google发布了两个Gemini模型更新:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002,提供更多的能力、更快的速度以及更低的成本。新模型在多个基准测试中有显著提升,特别是在数学、长文本和视觉任务方面。Google还降低了Gemini 1.5 Pro的输入和输出token价格超过50%,提高了两个模型的速率限制,并减少了延迟。

OpenAI正在向ChatGPT付费用户全量推出高级语音模式,该功能将使ChatGPT的对话听起来更自然。ChatGPT新增了五种声音,包括Arbor、Maple、Sol、Spruce和Vale,使得总声音数量达到九种。此外,最新版本的高级语音模式在理解口音方面有所改进,对话更加流畅和快速。中文方面,高级语音模式还可以使用北京话、上海话、四川话、粤语等方言口音进行对话。

Claude宣布Artifacts功能免费开放,免费版、Pro版、Team版用户均可立刻上手体验。

钉钉推出了面向个人用户的“365会员”产品,提供包括AI搜索、个人AI助理、AI自动回复和自动速读在内的会员专享权益。365会员中的AI搜索功能可以整合工作和协同信息,个人AI助理支持直接询问、识屏提问、拍照提问等多种交互方式。对于家长用户,会员还提供“成长记录”功能,可以智能识别孩子的照片并自动记录成长轨迹。

9月26日,哗哩哔哩宣布已上线自研大语言模型“index”,并将其应用于AI字幕。目前,B站的AI字幕具备中文、英文、韩语、日语、泰语等近10种语言的实时翻译能力,准确度接近90%。

美图公司宣布其“奇想大模型”的视频生成能力已完成全面升级,现在能够生成时长、画质、流畅性、真实性和可信度更高的视频。升级后,该模型可以支持生成1分钟、每秒24帧、1080P分辨率的超长视频。这项技术的进步将逐步应用于美图秀秀、美颜相机、Wink、开拍、美图设计室、WHEE、MOKI等产品。

字节跳动发布两款视频生成模型,分别是豆包PixelDance和豆包Seaweed。PixelDance单次可生成最长10秒的视频,Seaweed可生成最长5秒的视频,可动态延长至20-30秒。发布会现场,字节展示了PixelDance模型的生成效果,其优势主要体现在对复杂指令的理解方面,适合人物、剧情更为复杂的视频生成,而Seaweed模型的优势主要在于生成视频的清晰度。

issue88 2024.9.30-10.6

10月1日,OpenAI 发布 Whisper large-v3-turbo 语音转录模型,参数 8.09 亿,速度提升 8 倍,解码层数减少至 4 层,体积与 VRAM 需求均降低,并开放 MIT 许可证下的代码及模型权重供 GitHub 用户获取和体验。

10月1日,OpenAI发布Realtime API,即高级语音模式的API,开发者可在Playground中体验,价格较贵,每百万token输入+输出需要300美元。

10月4日,OpenAI宣布了ChatGPT的新增功能——Canvas。基于GPT-4o模型开发而成,它提供了一个单独的窗口,可以与ChatGPT一起执行编程、写作任务,会帮你提供意见、审核和执行具体的功能。例如,当你在编写代码时遇到了困难,Canvas可以高亮显示有问题的代码段,帮助ChatGPT提供内联的调试建议快速修复这些错误;简单来说,可以把Canvas看成是一个内置的AI Agent功能,就是用AI来指导、协助ChatGPT一起执行任务,使输出的内容质量更好、更准确。

Meta发布Meta Movie Gen文生视频模型,被业界称为迄今为止最先进的媒体基础模型(Media Foundation Models),并非扩散模型。它使用了包含 30B 参数的视频生成模型和 13B 参数的音频生成模型。这一全新的 AI 模型采用计算机视觉和自然语言处理技术,通过简单的文本输入就可以生成高质量、高清晰度的视频和音频。其视频生成模型具有 300 亿个参数,能够以每秒 16 帧的速度生成长达 16 秒的视频。该模型结合了多种功能,还支持精准的视频编辑,用户可以输入文本描述生成高清视频,同时上传图像并添加背景音乐和音效。 使其不仅能够生成新视频,还可以生成配音乐的高质量音频。

Google发布NotebookLM,旨在帮助用户更好地整理信息、提出问题并生成答案。用户可以上传自己的文档,然后NotebookLM会立即理解这些来源的内容,使用户能够轻松阅读、记录笔记,并通过该工具来提出问题。这款工具也可以帮助用户更有效地创作和思考,适合于整理、研究和学习等多种场景。

快手可灵 AI 新推出的「对口型」功能,允许用户上传音频后使视频中的人物口型与之同步,目前支持 1.0 和 1.5 模型,且仅限人物角色,API 服务已面向所有用户开放。

Black Forest Labs发布FLUX Pro 1.1版,生成速度比前一版本快6倍,并提高了图像质量、提示依从性和多样性。同时推出官方API。

StackBlitz 推出 bolt.new,将AI代码生成从编码扩展到部署,带有完整的开发环境,可以预览部署后的效果。

issue89 2024.10.7-10.13

由MiniMax推出的海螺AI是一款国产AI视频生成器,它在VBench评测中排名第一,并在五周内实现了月访问量增长8倍多的惊人成绩。这款AI工具不仅吸引了全球180多个地区的专业人士,如电影导演和游戏开发者,还因其在人体动作流畅性和逼真性上的卓越表现而超越了竞争对手Runway。

10月8日,华为的原生AI操作系统“纯血鸿蒙”HarmonyOS NEXT已开始公测,该系统内置了名为小艺的智能体。HarmonyOS NEXT通过原生智能技术实现了AI与操作系统的深度融合,让小艺智能体能够与系统无缝结合,并在多个场景中提供智能化服务。这标志着华为在人工智能领域的进一步发展,为用户提供更智能、更个性化的操作系统体验。

vivo在开发者大会上发布了“蓝心智能”AI战略,展示了其在AI领域的深入布局,包括新一代操作系统OriginOS 5和BlueOS 2。后者搭载了基于Rust语言的蓝河内核,强调安全和高性能。蓝心大模型矩阵也得到全面升级,其中蓝心3B端侧大模型在多个评测中排名第一,性能提升300%,功耗优化达46%。基于蓝心语音大模型,“vivo听说”新增了方言自由说功能,目前支持6种方言,以解决各地区间的沟通障碍问题,让用户可以以自己最熟悉的乡音与手机进行交互。

北京智源人工智能研究院开发的BGE(BAAI General Embedding)模型在Hugging Face月度下载榜上位列第一,这是中国AI模型首次取得这一成绩。BGE模型自发布以来,总下载量已超过1亿次,成为下载量最多的国产AI系列模型。

10月11日,特斯拉在“WE,ROBOT”发布会上展示了无人驾驶出租车Cybercab和多功能无人驾驶厢式货车Robovan,展示了其在自动驾驶技术方面的重大进展。

10月13日,OpenAI在Github上开源了多智能体协同AI Agent——Swarm。与普通AI Agent不同的是,Swarm可以同时创建多个智能体互相协同工作来完成特定任务,包括客户服务、销售支持和售后服务等,同时每个智能体都配备了一套专属工具集以更高效的完成任务。

issue90 2024.10.14-10.20

OpenAI发布了GPT-4o-Audio-Preview模型。该模型能够分析音频输入的情感、语调和音调,并增强互动体验。此外,还提供了语音到语音的互动功能,音频既可以作为输入也可以作为输出。

OpenAI于本周发布了ChatGPT的Windows桌面客户端,提供了一种更便捷的桌面访问方式。此更新旨在提高用户体验和便利性,方便用户在桌面上使用该AI工具进行各种对话。

Meta 推出了一项名为 「自我训练评估器」 的 AI 工具,旨在减少 AI 开发中对人类的依赖。该工具利用 「思维链」 技术提高在科学、编程和数学等领域的答案准确性,并通过完全由 AI 生成的数据进行训练。这展示了实现自主 AI 智能体的可能性,能够从自身错误中学习。此外,自我改进的模型有望减少对昂贵且低效的 「基于人类反馈的强化学习」 的需求。Meta 还发布了其他 AI 工具,包括图像识别模型 「Segment Anything」 的更新和一些有助于发现新型无机材料的数据集。

Perplexity 推出“内部知识搜索”和“Spaces 空间”:内部知识搜索:用户可同时搜索公共网页和企业内部知识库,适合金融、销售、HR 和初创公司团队。Spaces 空间:用户可创建工作空间,邀请团队成员协作。

Google NotebookLM 推出企业版和个性化控制:支持自定义 AI 播客内容,调整解说深度,专注于用户指定的主题。个性化控制:类似给 AI 主持人提示卡,让解说更符合用户需求。

月之暗面推出 kimi 探索版 AI,搜索能力显著提升至普通版的 10 倍,并计划全面推广至用户,同时将新增至手机 App 中。

issue91 2024.10.21-10.27

在Adobe MAX 2024大会上,Adobe推出了一项创新AI工具Project Turntable,该工具可以让用户将2D矢量图像像3D对象一样进行旋转,而无需重新绘制。

10月22日,微软宣布在Dynamics 365中集成10个自主AI Agent,可帮助企业自动执行客服、销售、财务、仓储等业务,开创全新的智能自动化工作模式。这些AI Agent支持OpenAI最新模型o1,可以自动执行跨平台的超复杂业务,能节省大量时间和运营成本。AI Agent会从Microsoft 365 Graph、Dataverse以及其他业务系统的数据,分析工作数据,识别工作模式、趋势,以及潜在的改进领域,从而更好地自动执行业务流程。使用方面也很简单,用户可在Copilot Studio可视化的界面中开发AI Agent,定义如何响应不同的输入和场景以及执行逻辑和规则即可。

10月23日,Anthropic发布了Claude 3.5 Sonnet模型的更新。最新版本的Claude 3.5 Sonnet展示了一项名为Computer Use的功能,能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。另外,新的Claude 3.5 Sonnet模型在编程方面也表现出显著的提高。

Anthropic 还在 Claude 中新增了一款分析工具,该工具支持编写和运行 JavaScript 代码,用于处理数据、分析并实时生成洞察。此工具作为 Claude.ai 的新内置功能,类似于 ChatGPT 的代码解释器(Code Interpreter)。Claude 能够根据输入提示和文件,逐步清理、探索和分析数据,达到预期结果,并可创建互动数据可视化。该工具适用于市场营销、销售、产品管理、工程和财务等多个场景,目前处于功能预览阶段。

xAI推出了首款API “Grok-Beta”,这是一种生成式AI模型,支持函数调用,可将xAI的旗舰生成式AI模型Grok连接到数据库和搜索引擎等外部工具。据报道,该API的定价相比行业竞争对手高出许多,每百万输入令牌(token,约等于75万个单词)为5美元,每百万输出令牌为15美元。其定价模式在业内引发了一些热议。

Ideogram 上线Canvas功能,可以在无限画布上对生成的图片进行编辑。这包括扩图、局部重绘和其他基本的编辑功能。这个功能给用户提供了更多的创作自由,让他们可以更灵活地对生成的图片进行修改和完善。

Genmo公司开源了名为Mochi 1的DiT视频生成模型。这个模型基于Apache 2.0许可证发布,支持个人和商业用途的免费使用。它以每秒30帧的速度生成平滑的视频,持续时间长达5.4秒,并具有高时间连贯性和出色的运动质量。这一开放的视频生成模型在动作质量和遵循用户提示方面表现出色。

Midjourney网页版本周推出全新的AI图像编辑器,该编辑器具有多种独特功能,用户可以通过该编辑器轻松上传图像并进行放大、缩小、角度调整等操作。与此同时,该编辑器还能够实现各种二次创作需求,而无需依赖第三方平台。通过新发布的编辑器,用户可以在进行图像编辑时获得更加便捷的操作体验。

10月24日,科大讯飞宣布星火多语言大模型首次发布,除中英文外,可支持俄、日、阿、法等8个语种。根据实用任务场景构建测试集MMT-Eval-1.0,讯飞星火在汽车、家电、办公、翻译等行业的任务场景应用效果超过了GPT-4o。

10月25日,智谱的多模态大模型家族再次加入新成员——GLM-4-Voice(端到端语音模型),并在上线同时宣布开源。这一成果使得大模型具备了完整的感官系统,实现了机器与人交互的自然与流畅。GLM-4-Voice 模型具备直接理解和生成中英文语音的能力,能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征,且具有更低的延时,支持实时打断,进一步提升交互体验。

智谱还同步宣布AutoGLM开启内测,是一款独立的安卓app。AutoGLM是一个具有AI功能的智能体,不仅可以进行语音互动,还可以自动执行手机操作,例如下单网购和朋友圈点赞等。这一新功能表明智谱正在向着更高级的技术方向发展,将AI从简单的语音交互阶段不断提升至执行任务的阶段。有参与内测的用户截图显示,AutoGLM支持8个生活中常用的app,包括微信、美团、淘宝、大众点评、小红书、12306、携程、高德地图。另外,智谱清言的浏览器插件增加高级搜索功能,支持自动在知乎、小红书、知网等网站搜索内容并总结回答。

MagicOS 9.0推出全新的AI智能体YOYO,为用户提供智能服务。从现场演示来看,用户只需向YOYO发出语音指令,比如「我有些困了,帮我点一杯咖啡」,该智能体就能在理解用户需求之后,自主调取和操作手机的相应资源和服务,帮用户点一杯咖啡外卖。荣耀声称,YOYO智能体可完成600项需求意图理解、950项个人习惯记忆、270项复杂任务规划。

issue92 2024.10.28-11.3

10月31日,Anthropic 宣布推出 Claude 桌面客户端,带来快捷键和口述记录支持。这意味着用户现在可以在 macOS 和 Windows 上直接下载 Claude 应用程序,无需再依赖浏览器操作。Anthropic 在一篇博文中写道:”它将 Claude 的功能直接带入您首选的工作环境,这些功能并不包括 Anthropic 最近发布的控制计算机的功能,但允许最新模型 Claude 3.5 Sonnet 升级版在 PC 上执行任务。” 新发布的桌面应用既适用于免费的 Claude 用户,也适用于订购 Anthropic 高级计划的用户。

11月1日,OpenAI宣布为ChatGPT添加搜索功能,让用户可以在对话中直接获取实时网络信息。这项功能目前向付费用户开放,免费用户和企业用户将在未来几周内陆续获得访问权限。最引人注目的是,ChatGPT搜索采用无广告模式,这与传统搜索引擎形成鲜明对比。

GitHub宣布推出Github Spark,用于创建和共享微应用程序(“sparks”),用户可以根据自己的需求和偏好进行定制。通过GitHub Spark,用户可以快速构建小型网页应用程序,而且不需要编写代码。该工具结合了自然语言处理和人工智能技术,使得用户可以用简单的自然语言来描述所需的应用程序功能。GitHub Spark可以帮助用户直接在GitHub上创建和分享个性化的微应用程序。

字节跳动推出了一款名为”炉米Lumi”的AI模型分享社区平台。该平台提供了模型上传分享、Workflow搭建以及LoRA训练等功能。这个平台似乎类似于其他的AI模型分享社区,例如Liblib和CIvitai。Lumi可能会为用户提供模型上传分享和Workflow搭建等服务。

微软开源了一款名为OmniParser的纯视觉基础工具,旨在填补当前屏幕解析技术中的空白。这一工具无需额外的上下文数据,可以理解更复杂的图形用户界面(GUI),并且专为识别和解析图形用户界面的可交互图标而设计。OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块,能够在桌面、移动设备和网页等上跨平台工作,从而为AI技术在屏幕解析上开辟了新的可能性。

知乎直答最近宣布推出了”专业搜索”功能,引入了维普、知乎精选等专业内容源,涵盖超过5000万篇中英文文献数据。这一举措可以帮助用户更加便捷地获取高质量的文献资料,为学术研究和学习提供了更加丰富的资源。

issue93 2024.11.4-11.10

11月5日,腾讯开源混元Large(Hunyuan-Large)模型,是业界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。与有相似激活参数量的业界开源模型Llama3.1-405B、Mixtral-8x22B等相比,在多学科综合评测集、中英文NLP任务、代码、数学等9大维度,混元Large实现全面领先。

同时,腾讯元宝 APP 现在新上线了 AI 搜索能力。支持具有推理能力的深度搜索功能,另外也支持了搜索微信生态更多模态的信息,比如搜索结果里面会有视频号和 QQ 音乐的音频内容。

腾讯开源了混元3D生成大模型(Hunyuan3D-1.0),这是业界首个同时支持文字和图像生成3D的开源大模型。这个模型可以帮助创作者和开发者在10秒内生成高质量的3D资产,可以应用于各种领域,比如UGC 3D创作、商品素材合成以及游戏3D资产生成等。

昆仑万维于11月5日发布天工AI最新版本的高级搜索功能,旨在通过领先的AI技术为全球用户提供创新的智能搜索解决方案。此功能在金融投资、科研学术等多领域进行了多层次分析推理能力的全面升级,显著提升了用户在处理复杂问题时的信息获取效率和结果可靠性。此外,天工AI还优化了文档AI阅读分析功能,增强了对财报、研报、论文等复杂文档的理解和分析能力,为用户提供更高效的专业搜索体验。

11月8日,智谱宣布AI生视频产品“新清影”正式上线,同步开源该产品使用的底层模型CogVideoX v1.5。

xAI推出Grok API的免费公测,每位开发者每月都能获得25美元的免费API额度,一直持续到2024年年底。API完全兼容OpenAI和Anthropic。这项举措旨在为开发者提供更多使用xAI的机会,并促进xAI的API在开发社区中的应用。

Anthropic宣布,Claude 3.5 Haiku已经可以通过API访问。已在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供。Anthropic的开发者关系运营负责人Alex Albert发帖说,「该模型还更新了截至2024年7月的知识——是所有Claude模型中最新的。」然而,随着性能提升,Haiku的价格提升至之前的4倍,它现在的定价起步为每百万输入tokens $1,每百万输出tokens $5。

Anthropic 与 Palantir 数据挖掘公司和亚马逊云服务(AWS)合作,为美国情报和国防机构提供 Claude 系列 AI 模型。Claude 已可在 Palantir 的国防认证环境(IL6)中使用,该环境基于 AWS 基础设施,用于处理国家安全重要的数据。此次合作将提高政府分析能力和运营效率,为情报分析提供强大的 AI 工具,以及在决策过程中为官员提供支持。

谷歌即将推出全新升级的Gemini-2.0-Pro AI模型。Gemini-2.0-Pro-Exp-0111预计将带来更精确的语言理解和生成能力,更高效的学习机制,以及在图像处理方面的显著提升。新的AI模型将进一步提高Gemini的功能和性能。

11月8日,苹果发布iOS18.2 Public Beta版,正式公测集成了ChatGPT的Siri及Image Playground等AI功能。

Meta最近开源了一个名为NotebookLlama的项目,旨在生成类似播客的文本摘要。这个项目被视为Meta对标谷歌NotebookLM的一次尝试。NotebookLlama使用Meta自家的Llama模型来为用户提供高效的处理,允许用户将文本文件,如PDF文章或博客内容,转化为互动式播客摘要。通过这个项目,用户可以轻松生成从文本文件转化而来的互动式播客风格的内容。

Meta发布MobileLLM,这是一款专门针对智能手机的小语言模型。MobileLLM家族适用于智能手机,Meta也宣布开源了MobileLLM系列模型,其中包括600M、1B和1.5B三种不同参数版本。这一举措旨在为移动设备用户提供更高效的AI辅助功能。Meta还在GitHub上开源了MobileLLM的训练代码,以便研究人员和开发者使用。

issue94 2024.11.11-11.17

百度在2024年百度世界大会上发布了检索增强的文生图技术(iRAG)。这项技术结合了百度搜索的亿级图片资源和强大的基础模型能力,旨在解决大型模型在图像生成方面的幻觉问题。通过将图片资源和模型能力相结合,iRAG使得生成的图片更加真实、自然,并且能够降低“AI味”,让生成的图像更加可信。

百度在2024年百度世界大会推出无代码工具“秒哒”。该工具支持无代码编程、多智能体协作和多工具调用三大特性,号称用自然语言就能搭建一整套系统。演讲现场,李彦宏以萝卜快跑新技术发布会为例,展示了活动报名系统的搭建过程:只要在“秒哒”上用中文描述需求,并补充一份带有大会时间地点主题的文档,就可以指挥多个智能体协作,完成报名系统的开发。

百度还于11月12日发布了首款AI眼镜,即小度AI眼镜。这是全球首款搭载中文大模型的原生AI眼镜,预计将于2025年上半年正式上市。这款眼镜重量仅为45克,搭载16MP超广角摄像头,具备第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘等功能。

阿里通义千问最近开源了Qwen2.5-Coder全系列模型。这一系列模型在代码生成、修复和推理等方面展现出色的表现,并且支持多种编程语言,同时在多个基准测试中达到了与GPT-4o相当的SOTA水平。这意味着Qwen2.5-Coder在开源代码模型领域取得了极具竞争力的位置,并具有强大的代码生成能力。

字节跳动豆包大模型团队发布了SeedEdit通用图像编辑模型,它能够实现自然语言”一句话改图”的新体验。用户可以使用简洁的自然语言指令,进行各种图像编辑操作,包括修图、换装、美化、转化风格、在指定区域添加或删除元素等。这项创新的技术利用了先进的自然语言处理技术和深度学习算法,让用户能够轻松编辑任意图像,而无需专业的P图技能。

谷歌的DeepMind团队开源了诺贝尔奖获得者Alphafold3的源代码。这一模型是一种蛋白质结构建模工具,与之前版本相比,Alphafold3在建模蛋白质与其他分子共同作用时更为精确。通过开源Alphafold3的源代码,学术研究者现在能够自行运行模型,从而推动了AI在生物领域的变革。

OpenAI宣布推出ChatGPT Windows版客户端,为Windows 10用户提供了更加便捷和快速的AI交互体验。该桌面应用支持热键调用,提供了文件分析、搜索对话、文本生成等功能。用户可以从Microsoft Store下载并安装该应用,然后通过快捷键Alt+Space快速启用。此举使得OpenAI进一步拓展了ChatGPT的应用场景,为Windows用户提供了更加顺畅的使用体验。

OpenAI将于明年1月推出一款代号为Operator的新型人工智能代理,它将使ChatGPT能够代表用户完成电脑操作。据彭博社报道,该公司领导层在周三的员工会议上宣布了这一消息。该公司计划通过开发者API作为研究预览推出这项新功能。

11月15日,腾讯正式推出新的AI产品,名为ima.copilot(智能工作台),旨在为用户提供获取知识、搜索、创作文字和图像等功能。ima不仅能够搜索全网信息,还能打通微信公众号文章生态,使用户能够从海量优质知识中获得高质量的信息。这款产品还支持Mac版和Windows版,为用户提供更高效的知识获取和使用体验。

智谱AI发布”智谱清流”企业级智能体开发平台,这是专门为企业AI应用落地而打造的智能体开发平台。该平台提供了Agents、Workflow、知识管理等多种工具,支持API、SDK、URL集成,并利用智谱大模型技术,帮助企业快速构建专业级智能体,实现大模型到业务场景的快速应用。

微软计划在下个月为Copilot引入新功能,用户将能够选择关闭或启用网络搜索。这一新选项将允许用户是否将网络搜索查询发送到Microsoft Bing。用户可以通过新的控制选项禁用或启用网络搜索,从而更好地控制AI聊天的使用体验。

谷歌在App Store上正式推出了其Gemini人工智能聊天机器人的iOS版本。这使得iPhone用户可以使用Gemini应用程序,为用户提供了一个全新的AI交互体验。Gemini应用包括强大的功能,如Gemini Live模式,支持实时语音对话功能,以及与其他应用程序无缝连接的功能。Gemini应用的iOS版本增加了灵动岛集成功能,用户可以使用文本或语音与谷歌的AI进行互动。

月之暗面创始人杨植麟指出,AI 的发展关键是提升 「思考能力」,并透露公司 AI 助手 kimi 月使用人数达 3600 万,同时新数学模型 k0-math 将用于 k12 教育和提升 kimi 搜索能力。

Codeium推出的新IDE Windsurf。其中的Cascade具有高颜值和强大功能,集成了Cursor的所有功能,还支持在IDE内部运行终端命令。Windsurf的用户界面友好,支持直观的VSCode移植,为开发者提供了很好的编程环境。

issue95 2024.11.18-11.24

OpenAI更新GPT-4o模型版本至GPT-4o-2024-11-20。它不仅可以处理文本,还可以理解和生成图像、视频等多种格式的内容。此外,它还具有预测输出功能,可以显著加快模型的输出速度。这个模型已经可以在OpenAI API及一些第三方平台上使用,并且具有良好的性能和效率。

谷歌推出Gemini-Exp-1121实验版,在代码生成和推理任务上表现优异,再次登顶大模型竞技场榜首。

Mistral发布多模态模型Pixtral Large,在视觉数据、图表理解和数学推理领域超越GPT-4o,适用于研究、教育和商业用途。

阿里通义千问发布Qwen2.5-Turbo AI 模型:支持100 万tokens 上下文,这个改进让模型能够处理更长的文本,相当于约100万英语单词或150万汉字。这种长的上下文窗口长度可以容纳10部完整小说或150小时的演讲稿。这一特性可以使模型处理更加复杂和详细的信息,进一步提升模型的认知和推理能力。

幻方DeepSeek团队推出了其最新的模型——DeepSeek-R1-Lite,该模型在数学、编程等复杂逻辑任务中表现出色,媲美OpenAI的o1-preview模型,并在美国数学竞赛(AMC)和全球顶级编程竞赛(Codeforces)等评测中超越GPT-4o。

夸克上线“学术搜索”AI工具,提升学术工作中的信息获取、创作和处理效率,支持生成学术大纲和PPT。

微软发布AI开发平台Azure AI Foundry。旨在帮助任何人都可以轻松使用尖端的AI功能,改变AI开发的游戏规则。Azure AI Foundry提供了一整套工具,支持从模型训练到部署的各个环节,包括文本生成、图像处理和音频处理等,让用户更轻松地在支持人工智能的大型语言模型之间切换。该平台还整合了多个强大的人工智能模型,如OpenAI的GPT-4系列、DALLE-3、Whisper以及Embeddings模型等。这些模型拥有优越的自然语言处理能力,有助于帮助开发者构建和部署人工智能应用。

issue96 2024.11.25-12.1

本周,ChatGPT上线已满两周年,CNNIC发布的《生成式人工智能应用发展报告》显示,截至2024年6月,我国生成式人工智能产品的用户规模达2.3亿人。

Cursor 0.43版本更新引入了新的Composer Agent功能,这是该编辑器的一项重大改进。该功能能够实现自主选择上下文、操作终端和自动完成任务的能力,并对用户界面和性能表现进行了优化。该功能具备完整的项目理解和编辑能力,并对项目进行深度解析。众多用户对这一新功能表示兴奋,并称其为新版本最大亮点之一。

Claude推出新功能,允许用户通过预设样式和自定义样式来自定义对话的语气和形式。用户可以通过上传写作样本或描述需求两种方式来设置AI回复的语气和形式,以实现更加自然、高效的人机互动。这项功能让用户能够打造更具个性化和贴合使用场景的文本生成风格。

Anthropic 推出名为“模型上下文协议”(MCP)的开放标准,旨在通过统一的客户端-服务器架构解决 LLM 应用与数据源连接的难题。它支持通过同一协议访问本地资源(如数据库、文件)和远程资源(如 Slack、GitHub API),无需定制集成。MCP 不仅共享数据,还可公开工具和交互模板,且内置安全性,确保资源由服务器完全掌控。目前 MCP 支持本地运行,未来将引入企业级认证的远程支持,实现团队间的安全共享。通过 Claude 桌面应用,开发者可在短时间内集成 MCP,快速连接多种数据源,推动 AI 集成的标准化发展。

11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview,并同步开源。评测数据显示,预览版本的QwQ,已展现出研究生水平的科学推理能力,在数学和编程方面表现尤为出色,整体推理水平比肩OpenAI o1。

阿里巴巴开源Qwen2vl – Flux模型,具备图像变化与混合功能,可生成多样效果,推动图像生成技术发展。

中科院自动化所和武汉人工智能研究院联合发布了“紫东太初”3.0,这是全球首个千亿参数量的多模态大模型。该模型采用了统一的编码方法,具有出色的能力,算法和基础设施建设也在同步推进。

Hugging Face推出SmolVLM,20亿参数,体积小速度快内存高效,适用于端侧推理,基准测试表现出色。

昆仑万维最新推出的“天工大模型4.0”o1版(Skywork o1)是国内首个具备中文复杂推理能力的o1模型。这一模型在模型输出中内生了思考、计划和反思等能力,从而显著提升了推理能力、解决复杂任务的能力,被视为具有慢思考推理能力的系列模型。

上海人工智能实验室最近向公众开放了书生·浦语大模型,并发布了InternThinker强推理模型。这个InternThinker模型拥有卓越的长思维能力和在推理过程中自我反思和纠正的能力。它能在数学、代码和逻辑谜题等复杂任务中展现出更优越的性能。

扣子发布应用IDE。可通过UI Builder快速搭建用户界面,开发者无需关心配置环境和服务部署等步骤。使用IDE可以轻松地在多种技术栈中创建基于LLM的可交互的用户界面。此外,IDE还支持将插件发布到不同的社交平台和通讯软件。

智谱于11月29日举行Agent OpenDay活动,带来了多个新进展:• AutoGLM 可以⾃主执⾏超过 50 步的⻓步骤操作,也可以跨 app 执⾏任务;• AutoGLM开启「全⾃动」上⽹新体验,⽀持等数⼗个⽹站的⽆⼈驾驶;• 像⼈⼀样操作计算机的GLM-PC 启动内测,基于视觉多模态模型实现通⽤Agent的技术探索。

360集团推出纳米搜索多模态内容创作引擎,集搜索、学习、写作和创作为一体,形成了一个完整的工作流程。

联想宣布百应平台升级为 IT 服务智能体,涵盖AI营销、AI办公、AI服务三项AI应用。

腾讯混元大模型将于12月3日正式上线视频生成能力,用户可以在腾讯元宝App中提交申请试用。

issue97 2024.12.2-12.8

12月3日,腾讯混元大模型正式上线视频生成能力。此次更新中,HunYuan-Video模型经历了四项核心改进:1、引入超大规模数据处理系统,提升视频画质;2、采用多模态大语言模型(MLLM),优化文本与图像的对齐;3、使用130亿参数的全注意力机制(DIT)和双模态ScalingLaw,增强时空建模与动态表现;4、采用自研3D VAE架构,提升图像和视频的重建能力。与此同时,腾讯宣布将这款拥有130亿参数规模的视频生成模型开源。目前,该模型已在APP与Web端发布,其标准模式下的视频生成大约需要120秒完成。

智谱AI宣布GLM-4V-Flash现已完全免费。用户可以通过调用GLM-4V-Flash免费构建专属模型和应用。这是首个完全免费的视觉大模型API。

12月4日,OpenAI首席执行官Sam Altman宣布从12月5日开始为期12天的「OpenAI 12 天」圣诞大礼包活动,将连续12个工作日发布新的AI功能和产品。

12月5日,OpenAI通过一场小型直播发布了o1模型正式版、o1 Pro mode以及每月200美元的ChatGPT Pro版订阅。OpenAI 将 ChatGPT Pro 订阅用户使用的 o1 模型模式命名为 OpenAI o1 Pro,该模式将使用更多的计算资源为最难的问题提供最佳答案。也正是因为功能足够强大以及需要更多的计算,用户在使用 o1 Pro 时可能会遇到延迟增加问题,OpenAI 会在 ChatGPT 里显示进度条以便提示当前距离出现回答还需要多少时间。后续 OpenAI o1 模型正式版也将支持 API 访问,支持包括函数调用和图像分析等功能。

OpenAI正在向部分用户推出ChatGPT的“All Tools”功能,将图像生成、搜索、Canvas等功能整合,可在同一模型中使用。

12月6日,OpenAI 12天活动 Day2,发布了“强化微调”(RFT),支持对o1 mini和GPT-4o模型进行微调,将于明年第一季度正式推出。

Meta发布Llama 3.3 70B模型,该模型达到了405B模型的性能水平,但体积更小,成本更低。

xAI公司为其AI助手Grok增加了名为Aurora的新图像生成模型,目前已在Grok的Web和移动客户端中上线,生成效果据称优于之前的Flux模型。

微软推出全新的 Copilot Vision 功能,它通过嵌入到 Edge 浏览器中,提供实时网页内容分析和互动。它就像你的第二双眼睛一样,可以与你的网页浏览同步,实时监控你的网页浏览行为,能快速理解网页内容并随时准备提供个性化建议和进行信息处理指导等。这项功能被描述为一种新的浏览方式,使得用户可以与AI直接互动,共同完成网页浏览和相关任务。目前,Copilot Vision处于试用阶段,并且目前仅适用于Microsoft Edge浏览器上的一些特定网站。

Fish Audio 发布 Fish Speech 1.5,在准确性、稳定性、跨语言能力和情感表达方面有显著进步,并新增了五种语言的支持,增强了全球适用性。即将推出的实时无缝对话功能,允许用户随时随地选择语音库进行交互式聊天。

谷歌推出Genie 2,一种大规模基础世界模型,可以生成可交互的3D世界。它利用自回归潜在扩散模型,经过自动编码器后,视频中的潜在帧被传递到大型Transformer动力学模型。这个模型可以生成持续时间长达一分钟的3D世界,同时可以与建模的各种物体进行交互,包括NPC。Genie 2的出现引发了AI游戏开发领域的高度关注。

美东时间12月6日,Meta公司发布了其Llama系列的新成员——Llama 3.3 70B。这款生成式AI模型拥有70亿参数,旨在提升生成式文本的质量和多样性,进一步推动AI技术在各个领域的应用。Llama 3.3 70B的推出标志着Meta在智能生成技术方面的持续创新与发展。

issue98 2024.12.9-12.15

12月9日,OpenAI 12天活动 Day3,Sora视频生成服务正式发布,同步推出产品网站sora.com,已订阅OpenAI Plus和Pro服务的用户可直接登录使用。背后用的Sora Turbo是由OpenAI公司发布的视频生成模型,能够根据文本提示生成逼真的视频。Sora支持生成多种视频比例和编辑功能,包括1080p的高清视频和最长20秒的视频长度。它还具有Remix功能,可以通过修改文本来快速修改视频内容,为用户提供了独特的视频创作体验。另外,值得注意的功能还有“Storyboard”(故事板)。通过Storyboard,用户可以像导演一样,使用时间轴来指导视频的创作。此功能允许用户按照时间戳选择各帧动画要生成的内容,并以此串联生成视频内容。

12月10日,OpenAI 12天活动 Day4,Canvas功能正式免费开放,该功能可以在ChatGPT中运行Python代码,并与OpenAI的主要模型深度集成。Canvas还提供了协作性、拓展功能以及更广泛的可用性。此外,还支持直接显示文本或图形输出结果。

12月10日,Cognition的AI工程师Devin已正式推出,用户每月需要支付高达500美元的订阅费。这个AI程序员被宣传为能够独立开发和修复bug,订阅还包括Slack集成、IDE扩展和API,并提供入职培训和支持。虽然费用较高,但Devin被认为最适合完成小型任务,比如Bug修复和测试生成。

12月11日,OpenAI 12天活动 Day5,ChatGPT与iOS的集成正式在iOS18.2版本推送。在iOS 18.2中,最引人注目的新功能之一是Siri集成了ChatGPT。当Siri遇到无法独立解决的问题时,它将能够直接调用ChatGPT来提供帮助,ChatGPT作为Siri的Extension,通过Siri请求ChatGPT,会话历史也会保存到ChatGPT帐号中。这一功能的实现,不仅提升了Siri的智能水平,也为用户带来了更加丰富的交互体验。在隐私保护方面,通过ChatGPT处理的所有请求都是匿名发送的,充分保护了用户的隐私安全。

Google发布原生多模态输入输出的 Gemini2.0。Gemini2.0是一种原生多模态输入输出的人工智能模型,支持图像、视频和音频等多种输入形式,以及多模态输出,例如与文本混合的原生生成图像和可控的多语言文本转语音。Gemini2.0 Flash是该模型的实验版本,其速度比之前的1.5 Pro快两倍,并具有强大的性能和多语言音频输出能力。另外,基于该模型最新实验版本,Google在AI Studio上线了屏幕共享功能,用户可直接从浏览器开启屏幕共享,让Gemini2.0看着屏幕实时回复你的需求。

Google还宣布了实时多模态沟通助手Project Astra的进展,现在具有以多种语言和混合语言交流的能力,更好地理解口音和不常见的词语。提高了项目 Astra 的记忆能力,确保您可以控制。它现在具有最长 10 分钟的会话记忆,并能够记住与它过去的更多对话。Google还带来了Project Mariner,它能够理解和推理浏览器屏幕上的信息,包括像素和网页元素,如文本、代码、图像和表单,然后通过实验性的 Chrome 扩展使用该信息来完成任务。以及Jules,一款实验性的 AI 驱动代码代理,直接集成到 GitHub 工作流程中。它可以在开发人员的指导和监督下处理问题,制定计划并执行。

12月12日,OpenAI 12天活动 Day6,高级语音模式中加入了视频通话和圣诞老人语音。支持 50 多种语言的 ChatGPT 能够实时理解视觉场景,帮助你解决问题,甚至化身 AI 导师教你掌握新事物。另外,高级语音模式下还能通过下拉菜单中的屏幕共享功能(需允许iPhone屏幕录制)让ChatGPT“看”到屏幕显示画面并实时交流。

Midjourney推出Patchwork在线创作工具,可以通过简短的一句话生成完整的故事世界图像。它具有自动构建“世界”的样子、风格及背景故事的功能,无需用户进行额外的创作。这种工具将AI技术与创意表达相结合,为创作者提供了一个全新的创作方式。

12月13日,OpenAI 12天活动 Day7,带来了 ChatGPT 的一个新功能 Projects(项目),通过项目可以你可以上传文件、设置自定义指令,类似于 GPTs,但是不同于 GPTs 的主要是你可以在一个 Project 中将所有对话组织在一起,还可以把现有会话加入进去。该功能即日起开始向 Plus、Pro 和团队用户推出,企业版和教育版用户将在新年伊始获得该功能。

xAI 宣布向所有 X 平台用户免费推出新版本的 Grok-2 模型。与以往一样,Premium 和 Premium + 用户将获得更高的使用限制,并将优先访问未来的任何新功能。Grok 利用 X 平台实时了解世界正在发生的事情。近期,Grok 推出了两个额外的功能来进一步增强这种体验:网页搜索和引用。目前 Grok 利用来自 X 的帖子和来自更广泛互联网的网页,可为用户的查询提供及时且准确的答案。此外,Grok 还添加了“引用”功能,用户可以轻松深入了解来源,了解更多信息或验证 Grok 提供的信息。

DeepSeek开源了DeepSeek-VL2的视觉模型系列,这是一个专家混合(MoE)视觉-语言模型,训练数据量是前代的两倍。VL2系列包括了多个型号,如Tiny、Small和标准版本,它们在视觉问题回答、光学字符识别等任务上展现出了出色的性能。这一系列模型结合了混合专家架构和动态分辨率图像支持,为视觉和语言理解领域带来了一定的创新。

Google宣布了NotebookLM的产品更新,包括交互和界面的重构、播客生成中支持用户加入跟主持人对话、推出Plus会员。Plus会员有5倍以上的音频概述、笔记本数量以及来源数量,能够自定义笔记本响应的样式和长度,共享团队笔记本以及使用情况分析等。

微信团队发布了多模态大模型POINTS 1.5。这一代POINTS 模型不仅兼顾了POINTS1.0 中所坚持的效率优先的思想,同时也大幅增强了模型的性能。这个模型沿用了POINTS1.0 中使用的经典 LLaVA 架构,由一个 vision encoder,一个 projector 和一个大语言模型组成。

Ilya Sutskever在2024年的NeurIPS会议(Conference on Neural Information Processing Systems)上发表了引人注目的讲话,他认为目前的AI预训练方法已经达到了数据极限,需要适应新的范式。此外,他还表示具有推理能力的人工智能将会变得更加不可预测,而且会具备自我意识。

issue99 2024.12.16-12.22

12月16日,Kimi发布新一代视觉思考模型k1,该模型基于强化学习技术,具备出色的端到端图像理解和思维链分析能力。在基础科学领域的能力测试中,k1超越了全球领先的OpenAI等模型。用户可通过Kimi智能助手的Android、iPhone APP及网页版体验k1的功能,拍照或上传图片以获取详细的推理过程。这标志着AI领域在强化学习技术的推动下,正在迈入新的发展阶段,显著提升AI解决复杂问题的能力。

12月16日,扣子发布了一次重大的模型更新,通义千问模型支持Max版本,超越了原有的8K限制。同时,新加入DeepSeek模型。此次更新还涉及其他多个模型,基本上都进行了全面优化。效果测评显示新的智能体测试标准已实现数据与结果的标准化,大幅增强了智能体编排的实用性和精准性。

12月16日,OpenAI 12天活动 Day8,ChatGPT搜索功能迎来更新,新版本引入“Search as you talk”语音模式,允许用户通过语音进行自然对话和实时搜索。同时,AI搜索进行了全面优化,包括更快的网页跳转、支持强制联网,以及针对移动端的优化,如提供商家信息、集成地图和位置导航功能。为提升用户体验,新版AI搜索会根据上下文智能调整搜索结果。目前,Plus、Team和Pro用户已可体验这些新功能,其他用户将在未来几周内逐步开放。

谷歌推出AI视频生成模型Veo 2,亮点包括支持最高4K分辨率的清晰视频生成,提升了画质以满足高质量内容需求。此外,Veo 2的视频生成时长增加至最多2分钟,为创作者提供了更大的创作灵活性。该模型在真实感和物理模拟方面的显著提升,使得运动捕捉和动态表现更自然,增加了生成视频的可信度。同时,它支持多样化的视觉风格,为创作提供了多重选择。与OpenAI的Sora模型相比,Veo 2在分辨率和视频时长上都有显著优势。

谷歌还同步发布了改进版的AI绘图模型Imagen 3-002,作为Imagen 3的第二代,标志着该模型在短短半年内经历了显著进化。该模型在谷歌的评测中表现突出,显示出卓越的性能。用户现在可以通过谷歌FX官方网站免费体验这一新模型,无需排队。此举不仅进一步推动了AI艺术创作的发展,也显示了谷歌在生成模型领域的持续创新和技术实力。

12月17日,OpenAI 12天活动 Day9,o1 API现在支持函数调用、system message更改为developer message、结构化输出及视觉功能。最新版o1-2024-12-17提升了推理速度,能够处理复杂多步骤任务并提高准确性。此外,实时API更新简化了WebRTC集成,更新了两个模型GPT-4o-realtime-preview-2024-12-17和GPT-4o-mini-realtime-preview-2024-12-17,并将GPT-4o音频价格降低60%。新推出的偏好微调(PFT)技术也可帮助用户和开发者更便捷地定制模型,同时还发布了新的Go和Java SDK。

12月18日,在火山引擎force原动力大会上,火山引擎CEO谭待表示,最新版本的豆包通用模型Pro相比5月在综合能力、推理、指令遵循、代码、数学等方面进行了全方面提升。“更强模型推动企业AI升级。”谭待表示,豆包通用模型Pro为中手游、赛力斯汽车等企业助力了AI升级。

12月18日,在火山引擎force原动力大会上,即梦AI发布了全新的图片生成模型,他现场示范了海报生成功能,只需要一句话,就可以生成海报,不仅提高了效率,还能让创作出设计师水准的海报,更全面的描述,更精美的画面与排版,同时,还可以让海报动起来,实现动态效果。

12月18日,OpenAI 12天活动 Day10,ChatGPT支持电话接入,用户可以在感到难过时拨打电话与ChatGPT倾诉,或通过WhatsApp与其聊天。此举旨在为人们提供一个随时倾诉与支持的平台,尤其是在深夜孤独时。该功能提供每月15分钟的免费电话服务,方便那些不熟悉智能手机的用户使用。此外,AI还具备即时翻译能力,能够帮助不同语言之间的交流,增强人们的情感联系。这些更新旨在让AI更深入人们的生活,成为日常交流和情感慰藉的伙伴。

12月19日,OpenAI 12天活动 Day11,ChatGPT的macOS客户端迎来重大更新,提升了用户体验和应用性能。全新原生应用的代码被重写,资源占用更少,运行更加流畅。用户仅需使用快捷键(Option + 空格)即可快速调出ChatGPT。此更新的亮点是“与应用协同工作”功能,允许ChatGPT直接访问和理解其他应用程序的内容,无需用户手动操作。此外,它具备智能上下文感知能力,可以识别正在使用的应用程序,并提供更相关的帮助,如在终端中识别Git命令。Windows版本也正在开发中。

GitHub Copilot宣布全面免费,开发者现在可以在VS Code中免费使用此AI编程助手。免费版用户每月可获得2000次代码补全和50次聊天请求,同时支持选择Claude 3.5 Sonnet或OpenAI的GPT-4o模型。这一举措降低了使用AI代码助手的门槛,让更多开发者体验到AI带来的便利。用户只需通过GitHub账号注册Copilot免费计划,即可享受丰富的智能编程服务。

12月20日,Google发布了新款Gemini 2.0 Flash Thinking模型,这一推理模型旨在提升AI的思考能力和解决复杂问题的速度。转投Google的Logan Kilpatrick在社交平台X上介绍,Gemini 2.0 Flash Thinking不仅具备强大的推理能力,还能展示其思考过程,带来更直观的AI交互体验。该模型将加入大模型竞技场LMSYS,进一步增强其透明度和可验证性。

12月20日,OpenAI 12天活动 Day12,OpenAI正式宣布全新o3模型系列,该模型在AGI评测中取得了87.5%的令人瞩目成绩,超过了人类水平的85%门槛。o3系列被视为通往通用人工智能(AGI)的重要一步,模型采用了新技术“Deliberative Alignment”,以增强安全性和一致性。OpenAI CEO Sam Altman表示,这一系列将在2025年早些时候发布,目前已开通面向安全研究者的早期测试申请。

快手可灵AI宣布基座模型再升级,视频生成推出可灵1.6模型,效果大幅提升。据了解,1.6模型在文本响应度上提升明显,对运动、时序类动作、运镜等文字描述响应更好;动态质量进一步增强:运动更加合理,人物表情更自然;同时,1.6模型画面质量也再次进化:色彩、光影、细节表现均明显提升。数据显示,可灵AI发布半年来,已拥有超过600万用户,累计生成超6500万个视频和超1.75亿张图片。

issue100 2024.12.23-12.29

动态周报已迎来第100期!在过去近两年的时间里,我们共同见证了ChatGPT发布以来,LLM及应用产品的发展与演变。未来,这场以生成式AI大模型为核心的科技浪潮,还将继续深刻地影响我们的工作和生活。

12月23日,OpenAI首席执行官Sam Altman宣布了“Day13”特别奖励——Sora无限用。他表示,为了迎接圣诞节,人们在12月底通常会放假休息,OpenAI的GPU就没有那么繁忙。所以,假期期间能为所有订阅用户无限制的提供文生视频模型Sora,轻松跳过烦人的队列等待。

xAI推出Grok的独立iOS应用。目前,这款应用正在澳大利亚及部分其他国家进行测试。Grok能够实时获取来自网络和社交媒体平台X的数据,并提供多种生成式AI功能,例如重写文本、总结长篇段落、简单问答功能,以及根据用户的文字提示生成图像。

Cursor 0.44版本发布,本次更新带来了全新的YOLO模式,这一模式显著提升了AI编程的智能化水平。YOLO模式的引入使得编程变得更加直观和简单,甚至使得没有编程基础的用户也能够轻松上手进行开发。在这个版本中,Cursor不仅优化了其代理功能,还增加了一些实用的多功能集成,比如@docs、@git、@web和@folder等功能,这些都进一步增强了用户的操作效率。更新后的Cursor 0.44被认为是一个革命性的工具,使得编程体验更加顺畅和高效。

12月25日,阿里云通义千问发布业界首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。多项评测数据显示,QVQ超越了此前的视觉理解模型「开源王者」Qwen2-VL,整体表现与「满血版」OpenAI o1、Claude3.5 Sonnet等推理模型相当。

12月26日,深度求索(DeepSeek)正式发布了全新系列模型DeepSeek-V3,并同步开源(DeepSeek-V3-Base)。用户可通过官方网站chat.deepseek.com与该模型进行互动。该模型基于自研的Mixture of Experts(MoE)架构,拥有671亿参数和37亿激活参数,经过14.8万亿token的预训练。虽然DeepSeek-V3目前不支持多模态输入输出,但其表现已与业内领先的闭源模型对齐,其中与 V2.5(17.8%)相比,V3 编程性能暴增到了 48.4%,整整提升了近 31%。API服务也已更新,用户无需改动接口配置。

阶跃星辰推出了图像生成模型Step-1X系列的全新升级版本Step-1X-Medium。该模型采用MMDit架构,生成速度提升超过30%。经过针对性训练,Step-1X-Medium具备更强的理解能力和图文一致性,能够生成更自然的细节质感。此外,新增的“图生图”功能允许用户上传图片并通过简单的提示进行细节增强和风格迁移。该模型在“中国风”内容创作能力上也得到了强化,能够更好地捕捉东方文化的细腻之处,并支持在生成图像中添加英文文本。

智谱宣布将其基座模型GLM-PC的开源版本CogAgent-9B发布,供社区进行开发。CogAgent-9B-20241220基于GLM-4V-9B进行专用Agent任务训练,能够仅通过屏幕截图输入,结合用户历史操作,预测下一步的图形用户界面(GUI)操作。与2023年12月开源的第一版相比,新模型在GUI感知、推理准确性及任务普适性方面取得显著改进,同时支持中英文双语的屏幕截图和语言交互,适用于多种基于GUI的应用场景,包括个人电脑、手机及车载设备。

理想汽车发布智能助手独立应用:理想同学App,理想同学和智能驾驶是理想汽车的两大核心AI产品。理想汽车董事长兼CEO李想表示:“我们在做的理想同学和自动驾驶,通常被视作独立的领域。我们的大语言模型Mind GPT是认知智能,连接数字世界;而自动驾驶被称为空间智能,关乎物理世界。我们同时在这两个领域探索,并坚信认知智能与空间智能的结合——我们称之为VLA(Vision Language Action Model,视觉语言行动模型)。

issue101 2024.12.30-2025.1.5

可灵AI推出升级版文生图模型“可图1.5”,强化了语义理解,特别适应亚洲人。此外,新功能“AI模特”与现有的AI换装功能融合,为电商、广告等行业提供了一整套高效的可视化展示解决方案。用户能通过简易设置快速生成AI模特,再通过AI换装功能展示服装,甚至进行动态视频展示,大幅降低传统拍摄成本。

阿里云宣布对其大模型进行本年度第三轮降价,通义千问视觉理解模型全线降价超过80%。其中,Qwen-VL-Plus的价格下降81%,现为0.0015元/千tokens,成为全网最低价;而性能更高的Qwen-VL-Max降至0.003元/千tokens,降幅达到85%。按此定价,1元可处理大约600张720P图片或1700张480P图片,此举将显著降低用户使用成本,推动视觉理解技术的广泛应用。

阿里巴巴通义团队推出了全新AI开发框架Qwen-Agent,基于其Qwen语言模型,旨在帮助开发者构建复杂的智能体。该框架具备多种高级功能,支持智能体执行复杂任务,提供指令遵循、工具使用以及自动记忆能力。

智谱Flash系列新推出四大免费模型,全面支持对话、图文和视频等多种模态。这些模型旨在提升用户的多媒体交互体验,推动智能对话与内容生成的应用场景。用户可免费体验这些功能,进一步探索人工智能在多模态交流中的潜力。

「智谱清言」网页版上线了其新的Zero推理模型GLM-Zero-Preview,这是该系列的初代版本,预计是智谱在2024年发布的最后一个模型。官方称,该模型专注于推理能力,特别擅长处理涉及数理逻辑、代码及其他复杂问题的深度推理。

马斯克在社交平台上宣布,即将推出Grok 3模型,其预训练已完成,计算量相比Grok 2提升了十倍。这一全新模型由马斯克旗下的xAI公司开发,将为用户提供更强大的人工智能支持。训练过程中使用了10万块英伟达H100芯片,标志着Grok系列在性能上的重大突破。

issue102 2025.1.6-1.12

2025年1月6日,昆仑万维正式上线其最新的「天工大模型4.0」版本,包括创新的o1版和功能更强的4o版,均可在天工网页和APP上免费使用。Skywork o1作为国内首款具备中文逻辑推理能力的模型,经过全面技术升级,能高效处理数学、代码、逻辑等多种推理挑战。同时,Skywork 4o多模态模型支持的实时语音助手Skyo,具备情感表达和快速响应能力,为用户提供温暖和流畅的对话体验。

在拉斯维加斯的CES 2025展会上,英伟达CEO黄仁勋发布了全新GeForce RTX 5090显卡,标志着RTX 50系列的发布。RTX 5090在多项性能参数上突破,具备920亿晶体管和3352 AI TOPS,比RTX 4090性能提升了两倍,支持DLSS 4,显著提高游戏体验。国行价格起步为16499元,RTX 5070则定价4599元。英伟达还发布了全新的Cosmos世界模型平台和Project DIGITS超级计算机,使AI开发更加高效和普及。

谷歌推出了一款名为“Learn About”的AI学习工具,旨在帮助用户深入理解各类知识点。该工具基于谷歌的LearnLM模型,能够提供丰富的文本、视频信息,并以对话式形式逐步拆解复杂概念,还能总结学习框架。用户可以通过与AI互动,获得个性化学习体验。

1月9日,阿里巴巴推出的通义万相2.1模型在视频生成领域实现重大突破,首次支持直接通过自然语言生成文字特效视频,兼容中英文及数字。此模型通过复杂运动、写实与科幻特效等多样化风格的生成,展现了其强大的技术能力。用户反馈显示,万相2.1在控制肢体动作与视觉效果方面表现优秀。此外,该模型还提供了文生图功能,能够生成连贯的剧情图像,助力短视频和广告设计。

在2025年CES上,雷鸟创新发布了新款雷鸟V3 AI拍摄眼镜,搭载了猎鹰影像系统、阿里通义千问独家定制大模型及骁龙AR1旗舰芯片。这款智能眼镜打造了业内首个针对AI的多模态交互架构,旨在实现卓越的交互体验。创始人李宏伟指出,雷鸟与阿里之间的合作聚焦于真正的用户体验,而不仅仅是应用通用大模型。此外,与雷鸟V3相似,Rokid、闪极、XREAL等其他AR眼镜也将接入阿里的AI大模型,提供丰富的功能,如AI助手和多种智能识别服务,展现出AR与AI融合的未来潜力。

在2025年CES上,英伟达CEO黄仁勋首次系统展示了AI Agents的商业前景,提出其将成为继个人电脑和互联网之后的重要技术突破。他指出,AI Agents有望重塑全球10亿知识工作者的工作方式,并明确了五大商业化方向,包括智能代理机器人、人工机器人和自动驾驶汽车等关键领域。演讲中,黄仁勋展示了多个AI Agents实际应用案例,如提高新药研发效率的虚拟实验室、加强天气预测精度的气象代理等。NVIDIA的Nemo平台将帮助企业规模化部署AI Agents,将其融入日常运营,扮演数字员工的角色。这一变革预计将创造数万亿美元的新市场,提升人类工作效率,激发创新能力,推动产业革命的进程。

1月9日,谷歌宣布对NotebookLM进行重大更新,推出了Gemini 2.0 Flash实验版本及更多功能,包括全新界面的改进、用户在音频播放期间可直接与AI主持人互动,并推出了付费版本NotebookLM Plus。NotebookLM现已被数百万用户和多个组织使用,经过重新设计后,包括“来源”、“聊天”和“工作室”三个功能区域,分别用于管理信息、进行对话式讨论和创建新内容,如学习指南和简报。此更新旨在提升用户体验并增强内容创作能力。

马斯克旗下的xAI推出了独立应用Grok,该应用于1月10日在苹果App Store正式上线,用户可以免费下载使用。Grok不仅是应用的名称,也是xAI开发的AI语言模型。此前,用户只能通过社交媒体平台X接触到Grok。新的应用为用户提供了多种功能,包括生成图像和实时访问网络及X社交网络信息。此外,付费用户能够享受更高的使用权限,目前该应用在美国及其他地区开放测试。

英伟达开源了Sana模型,支持直接生成高达4K分辨率的图像。该模型采用Sana-0.6B版本,可以在16GB显存的GPU上运行,生成1024 × 1024分辨率的图片仅需不到1秒钟。官方还已支持ComfyUI,并提供了Lora训练工具,从而为开发者和艺术家提供了强大的图像生成能力。这一举措将进一步推动生成式AI在图像创作领域的应用和发展。

issue103 2025.1.13-1.19

1月13日,MiniMax宣布推出最新的语言大模型,并首次全面开源。新发布的文本模型MiniMax-Text-01和多模态模型MiniMax-VL-01采用了全新的Lightning Attention架构,显著降低了推理成本。MiniMax-Text-01的参数高达4560亿,并配备32个专家,同时支持超长达400万字的文本处理,其性能媲美顶尖海外模型。MiniMax还发布了模型、代码和技术报告,彰显其开放态度。目前,用户可以通过网页体验和API进行在线体验与商用。

Mistral AI于1月13日发布了最新的代码生成模型Codestral 25.01,该模型的上下文窗口扩展至256K,是前一代的8倍,能够更好地理解长文本上下文。新版本采用更高效的架构和分词技术,生成速度大幅提升,能够满足高频、低延迟的代码生成需求。

1月15日,全新多模态图片理解模型moonshot-v1-vision-preview正式发布,进一步增强了moonshot-v1系列的多模态能力,使Kimi能够更好地理解世界。该Vision模型具备强大的图像识别能力,能够准确识别复杂细节和微小差别,无论是食物还是动物。它能够有效区分相似的对象,例如在16张蓝莓松饼和吉娃娃图片中,模型能精确识别并标记每个图像的类型,展示出卓越的图像理解性能。

科大讯飞正式发布了讯飞星火深度推理模型X1。该模型基于全国产算力平台,是国内首个落地于真实应用场景的深度推理模型,尤其在教育和医疗领域展现了显著优势。实测结果显示星火X1能够解决全学段的数学问题,并且推理速度表现理想。

1月15日,国产视频大模型Vidu 2.0正式发布。该模型在速度上表现出色,生成4秒512P单片段视频的时间不超过10秒,而单秒视频的成本仅为4分钱。此外,自2024年7月底全球上线以来,Vidu在短短20天内吸引了超过百万用户,并在100天内用户总数突破千万,这表明其受欢迎程度和市场潜力。Vidu 2.0的发布为视频内容生成领域注入了新的动力。

1月15日,MiniMax旗下海螺AI推出了全新文本到音频技术Hailuo Audio HD (T2A-01-HD),其快速克隆功能能够在仅需10秒的时间内完成语音克隆。该技术配备首创的智能情感系统,旨在捕捉并重现语音中的情感。此外,海螺AI的音频克隆功能也具备类似优势,用户通过上传10至60秒的音频素材就能轻松复刻声音,并且支持多达12种语言。

1月16日,面壁智能正式发布端侧大模型MiniCPM-o 2.6,作为一款开源的多模态大模型,其性能接近GPT-4o。该模型支持实时双语语音识别以及视觉、语音和多模态流式交互,能在仅8B参数量下高效运行。MiniCPM-o 2.6可处理连续的视频和音频流,实现实时语音对话,参数优化使其在自动语音识别和语音生成方面优于其他同类模型。该技术的推出将极大推动多模态AI应用的发展,并支持在多个设备上运行,包括iPad等。

智谱发布了新款端到端多模态模型GLM-Realtime E2E,该模型在实时视频理解和语音互动方面表现卓越。GLM-Realtime不仅支持近乎实时的交互和清唱功能,还具备长达2分钟的记忆能力以及强大的功能调用特性。该模型旨在提升用户与AI系统的交互体验,适用于多种实时场景,将为智能助手的建设提供更为坚实的基础。

OpenAI再更新ChatGPT,推出“自定义指令”功能。该功能允许用户设定模型的个性化特征,例如性格、语气和思考方式,旨在提升用户的互动体验。用户可以添加特定的指令和偏好,这些指令将影响模型在未来对话中的响应。

issue104 2025.1.20-1.26

1月20日,字节跳动发布了全新AI中文IDE——Trae,旨在为开发者提供更高效的编程支持。该IDE集成了GPT-4o及Claude 3.5模型,支持代码自动补全、AI问答和基于Agent的AI编程等功能,帮助程序员自动化完成开发任务。Trae特别设计为中文用户友好,提供简体中文界面,且目前限时免费。

微信公众平台开始邀请创作者体验其新推出的智能回复功能,该功能能够根据用户之前发布的文章风格及内容进行自动回复。当用户开启此功能后,AI将学习并模拟其过去的写作风格,以便为粉丝提供更个性化的回复。此更新旨在提升公众号与读者之间的互动体验,减少用户的回复负担。同时,原有的公众号关键词回复和关注自动回复不受影响。

1月20日,豆包大模型团队正式推出其实时语音大模型,并在豆包 APP 7.2.0版本中全量开放体验。该模型集成语音理解与生成,实现端到端的语音对话,显著优于传统语音处理模式。其低延迟、支持对话随时打断等特性,提升了语音表现力和情感传递。据用户反馈,该模型在语音自然度和情绪表现上明显优于 GPT-4o。团队表示,此次推出具有里程碑意义,能够满足中国用户需求,直接为亿万用户提供服务。

1月20日,DeepSeek 发布并开源了 R1 模型,其性能与 OpenAI 的 o1 正式版相当,但输出价格只有后者的1/27。R1 模型采用 MIT 许可证,允许用户进行无限制的商业使用,并且明确支持用户利用 DeepSeek-R1 进行其他模型的训练。随后的几天,R1模型的训练成本以及表现在海外尤其是在美国引发了热烈的讨论。截至本期周报发稿时,DeepSeek的App已经在多个国家和地区的AppStore总榜上进入前10,部分国家和地区甚至登顶。

1月20日,Kimi 发布了全新 SOTA 模型——k1.5 多模态思考模型,这是该系列的连续第三次重磅升级,继去年 11 月和 12 月的 k0-math 和 k1 视觉思考模型之后。根据基准测试,k1.5 在多模态推理和通用推理能力上达到了SOTA级别,尤其在 short-CoT 模式下,其数学、代码和视觉能力超越了全球短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet,领先幅度高达 550%。此外,Kimi 还首次公开了模型训练的技术报告。

商汤科技日日新融合大模型交互版(SenseNova-5o)开放商用,实时音视频对话限时免费。

1月22日,火山引擎宣布,豆包大模型1.5Pro正式发布,目前已全面上线火山方舟。豆包大模型1.5Pro在知识(MMLU_PRO、GPQA)、代码(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)等多项公开测评基准上成绩全球领先。

谷歌悄然推出更新——Google Gemini 2 Flash Thinking Experimental 01–21,该模型在LMsys Arena上排名第一,领先其他模型,如GPT-4.0、OpenAI-o1、DeepSeek-R1和Claude 3.5 Sonnet。Gemini 2.0 Flash Thinking以1380的Arena Score取得卓越表现,显示出在准确性、推理能力、流畅性和一致性等评估标准上的优势。用户可通过Google AI Studio免费试用该模型。

1月22日,OpenAI宣布启动“Stargate星际之门”项目,计划在未来四年投资5000亿美元于美国的人工智能基础设施建设,首批1000亿资金已开始投入。该项目的投资者包括软银、OpenAI和Oracle等,软银创始人孙正义将担任主席。其目标在于推动美国在AI领域的领先地位,创造就业机会,并保障国家安全。目前,德克萨斯州的基础设施建设已正式启动,吸引了众多相关企业的参与。

Perplexity推出Sonar实时搜索API,提供基础版和功能更强大的Pro版,后者支持高级深度查询和复杂问题解决。企业应用方面,Zoom已通过Sonar增强其原生搜索功能。在数据安全方面,Sonar确保不用于大型语言模型(LLM)的训练,方便快速接入应用开发。Sonar Pro在SimpleQA基准测试中表现优于主流搜索引擎和各大语言模型,进一步提升了搜索效率和准确性。

1月23日,智谱华章宣布其GLM-PC正式开放体验,标志着自主操作电脑的多模态Agent技术升级。这一基于智谱多模态大模型CogAgent的智能体,成为全球首个面向公众、无需额外配置即可使用的电脑智能体。GLM-PC能够像人类一样“观察”和“操作”计算机,有效协助用户完成各种任务,展示了人工智能在日常计算中的应用潜力。

字节跳动开源了一款自学型UI Agent——UI-TARS,旨在实现复杂任务的自动化,支持跨平台操作,包括网页、桌面和移动设备。该代理具有理解界面的能力、高级推理能力,并且能够不断学习,其性能优于主流模型,如GPT-4。应用场景包括复杂的动态交互、表单填写、批量处理及在线预订等。此外,UI-TARS还提供了开发框架,支持在桌面和网页端运行,方便开发者进行集成和使用。

1月21日,阶跃星辰升级了其Step-1o系列模型,成为首个实现文本、视觉与语音三模态端到端融合的模型。该系列包括多模态理解模型Step-1o Vision和升级后的语音模型Step-1o Audio。阶跃在视觉理解方面表现卓越,尤其在LMSYS Org最新的Chatbot Arena视觉排名中名列前茅,展现了其在人工智能领域的强大竞争力。

1月24日,OpenAI发布了其新智能体“Operator”,标志着其迈入“Level 3”时代。Operator能够全自主地与浏览器互动,处理复杂任务,如购物和预定餐厅,用户仅需给出初始指令。其核心技术基于新的Computer-Using-Agent(CUA)模型,结合了视觉能力和推理能力,实现自主操作,无需API集成。目前该功能仅向部分Pro用户(200美元订阅)开放,OpenAI还计划在未来几周内推出更多智能体,展示了其在人工智能领域的进一步发展潜力。

跃问App推出了全新“创意板”功能,允许用户无需代码知识便可轻松自制应用和游戏。用户只需通过简单的自然语言描述自己的需求,创意板便能生成各种场景和工具,如趣味游戏、互动网页和可视化图表。该功能支持实时修改与个性化调整,用户可将生成的内容分享至多个平台,与朋友们一同体验。这一创意板被认为是国内首个专注于应用与游戏生成的创新功能,展示了AI在日常生活中的便利性与创造性。

OpenAI对ChatGPT的Canvas功能进行了更新,现已全面支持o1模型,并新增了直接渲染HTML和React代码的能力。这一更新不仅提升了Pro、Plus和Team用户的使用体验,也让Free用户可以享受到HTML和React的渲染功能。macOS ChatGPT桌面应用程序也已全面集成Canvas功能,使用户能够轻松构建和运行互动式应用。

1月25日,Ollama上线deepseek-r1模型,并在首页推荐,支持用户本地部署。

issue105 2025.1.27-2.2

本周正值中国春节假期,DeepSeek引发的舆论讨论继续在全球社交媒体发酵。除夕当天,DeepSeek应用在全球所有区AppStore登顶,随后几天,主流云服务(包括Azure和AWS)的大模型平台和主流的AI代码编辑器(包括Cursor、Windsurf和flowith等)均上线了自部署的DeepSeek-R1模型,上演了大型“口嫌体正”现场。

1月27日,DeepSeek发布了其大一统模型Janus-Pro,采用统一的Transformer架构,能够同时实现图片理解和生成。该模型提供1B和7B两种规模,适配多种应用场景,性能强大。Janus-Pro全面开源,支持商用,使用MIT协议,便于部署和应用。此外,该模型在基准测试中的表现优异,展现出更全面的能力。

1月27日,阿里通义千问发布了开源 Qwen2.5-1M 模型及推理框架,包含 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 模型,首次实现 1M 长度的上下文扩展。同时,团队开源了基于 vLLM 的推理框架,通过稀疏注意力技术使处理速度提升 3 至 7 倍。此外,Qwen 推出了 Chat 平台Qwen Chat(https://chat.qwenlm.ai/),用户可进行对话、编程与生成多媒体内容,支持 1M 长序列的处理。

1月27日,通义千问还发布了全新的视觉模型 Qwen2.5-VL,并在多个方面实现了显著飞跃。相较于上一版本 Qwen2-VL,Qwen2.5-VL 开源了 Base 和 Instruct 模型,提供 3B、7B 和 72B 三种模型尺寸。该模型的主要特点包括更丰富的感知能力,能够识别和分析图像中的文本、图表和布局,并具备推理能力,能够动态地使用工具,初步具备电脑和手机操作能力。此外,Qwen2.5-VL 还能够理解超过 1 小时的长视频,具有重要的应用潜力。

1月28日,DeepSeek R1 模型现在可用于 Perplexity 的深度网络研究。Perplexity 澄清说,通过其平台使用 DeepSeek R1 会将用户数据保存在“西方的服务器”上。Perplexity 上的 DeepSeek R1模型托管在美国/欧盟数据中心。

1月29日,微软宣布 DeepSeek R1 现已在 Azure AI Foundry 和 GitHub 上的模型目录中提供,加入了由 1,800 多个模型组成的多样化组合,包括前沿、开源、行业特定和基于任务的 AI 模型。DeepSeek R1 可以在受信任、可扩展且企业就绪的平台上访问,使企业能够无缝集成高级 AI,很快就能在微软AI电脑Copilot+ PC上运行。

1月30日,阿里巴巴发布了 Qwen 2.5-Max 模型,该模型是阿里云团队对 MoE 模型的最新成果,预训练数据超过 20 万亿 tokens。在多项基准测试中,Qwen 2.5-Max 几乎全面超越了 DeepSeek-V3、GPT-4o 和 Llama-3.1-405B。随着 DeepSeek 推动的国产 AI 资产重估浪潮,阿里凭借其雄厚的云业务投资和领先的 AI 能力,有望重塑市场估值。

1月30日,阿里云发布百炼qwen-max系列模型价格调整通知,qwen-max、qwen-max-2025-01-25、qwen-max-latest三款模型输入输出价格调整,qwen-max batch和cache同步降价。

1月31日,英伟达宣布:「DeepSeek-R1上线NVIDIA NIM」,在单个NVIDIA HGX H200系统上,DeepSeek-R1的处理速度可达3,872 Token/秒。同日,亚马逊也在Amazon Bedrock和SageMaker AI中,上线了DeepSeek-R1模型。

1月31日,华为云宣布DeepSeek-R1上线华为云ModelArts模型即服务MaaS平台。

1月31日,AI编程工具Windsurf和Cursor均宣布更新:正式支持DeepSeek系列AI模型,包括R1和V3。Windsurf称DeepSeek模型均部署在西方服务器,V3模型使用成本仅为Claude3.5的1/4,R1模型使用成本为Claude3.5的一半。

2月1日,OpenAI 宣布 o3-mini 与 o3-mini-high 模型上线,该模型现已可在 ChatGPT 和 API 中使用。o3-mini 在性能上表现出色,相较于 o1-mini,响应速度提升了 24%,并且答案更为准确。该模型不仅展示推理过程,还能在编码评估中随着思考时间的增加表现持续提升。在数学能力测评和处理困难数据集方面,o3-mini 同样表现优异。开发者可通过 OpenAI 的 API 使用该模型,付费用户可选择提供更高智能的 o3-mini-high 版本,而免费用户通过选择“推理”模式也能体验这一功能。

2月1日,硅基流动宣布其大模型云服务平台 SiliconCloud 正式上线基于华为云昇腾云服务的 DeepSeek-V3 和 DeepSeek-R1。此次发布被视为为国内用户的春节礼物,代表着在深度学习领域的重要进展。

2月2日,腾讯云宣布 DeepSeek-R1 大模型现支持一键部署至腾讯云的「HAI」平台,开发者可在3分钟内轻松接入和调用。腾讯云表示,通过「HAI」,开发者无需再进行繁琐的步骤,如购买卡片、安装驱动、配置网络和存储等,简化了部署流程,实现快速模型调用,提升了开发效率。

2月2日,OpenAI推出Deep Research深度搜索工具,旨在为需要调研和信息检索的领域提供有力支持,如医学、金融和科研等。该工具采用优化版o3模型,能够在5-30分钟内搜索网页与分析文件,并生成简明详细的报告。功能包括支持网站内容读取、数据处理与图表生成,引用来源作为论据,实时显示进度。现已向Pro用户开放,月限100次,并计划扩展至移动及桌面端。Plus用户将在约一个月后获得使用权限。需要注意的是,目前不支持英国、瑞士和欧洲经济区。

issue106 2025.2.3-2.9

macOS 版 ChatGPT 客户端更新至 1.2025.031 版本,新增了“推理”选项,用户可以在斜杠指令中使用这个功能。启用该功能时将调用o3-mini模型。

2月3日,得效Agents平台宣布接入DeepSeek-R1模型,同时此前已支持的DeepSeek-Chat与DeepSeek-Coder两款模型均已升级到V3。用户在创建Agent时可选择R1模型,此举将全面提升智能体工作流中AI处理内容的质量和水平。

华为鸿蒙NEXT内置的智能助手小艺现已接入DeepSeek-R1模型。升级至HarmonyOS NEXT 版本的用户,将小艺App 升级至11.2.10.310 版本及以上,打开小艺App,点击“发现”-“智能体”-“DeepSeek-R1”,即可体验DeepSeek。

2月6日,Google于Gemini推出新模型,Gemini 2.0 Flash Thinking实验版,现已在Gemini Web网页端上线,该模型已在大模型竞技场lmarena登顶。同时,还为Gemini Advanced付费订阅的高级用户提供了Gemini 2.0 Pro实验版模型。全新的模型旨在提升用户的思维和创作效率,进一步增强谷歌在人工智能助理领域的竞争力。

2月6日凌晨,OpenAI宣布,免费向所有用户开放ChatGPT搜索功能,无需注册。这一创新性举措标志着OpenAI在搜索引擎领域的更大竞争力,ChatGPT搜索能够快速抓取网络信息、解读用户想法并提供来源地址。相比传统搜索引擎如谷歌,能实现分钟级别的解析。这一决策引发了广泛讨论,许多用户和业内专家认为,这可能会冲击传统搜索引擎的市场格局,预示着搜索方式的重大变革。

字节跳动推出全新多模态视频生成模型OmniHuman,旨在提升数字人动画生成的效率与真实感。该模型允许用户仅通过一张图片和一段音频即可生成生动的动态视频,兼容多种图片尺寸与人物占比。2月8日,该模型已上线即梦AI。OmniHuman的问世标志着字节跳动在AI视频创作领域的又一次技术突破,可能会对内容创作模式产生重大的影响,并推动数字人技术的商业化发展。

Pika发布名为Pikadditions的创新工具,它能够将任何图片中的物体无缝融合到用户拍摄的视频中,而不会改变原有视频的内容。这项技术的推出为视频创作和编辑带来了新的可能性,使得用户可以在不影响视频整体风格和结构的情况下,添加个性化的视觉元素。Pikadditions的这一创新功能将为内容创作者提供更大的灵活性和创作自由,提升视频制作的趣味性和多样性。

钉钉宣布率先接入DeepSeek。用户在创建AI助理时可以直接选择DeepSeek系列的R1、V3等三种模型。同时,钉钉推出了全新模板,旨在简化用户创建与发布基于DeepSeek模型的AI助理的过程。用户在创建AI助力的过程中,即可选择DeepSeek系列模型,在工作流配置界面中,也可选择DeepSeek系列模型,体验这些模型的智能互动功能。这一更新将大幅提升用户体验,使AI助理的创建更加便捷高效。

GitHub推出了Copilot Edits,这一新功能类似于Devin,能够无监督地编写代码。Copilot Edits利用先进的AI技术,根据用户的意图和上下文,自动生成和编辑代码,提高开发效率和编程体验。这一更新标志着GitHub在智能编程助手领域的又一次突破,旨在帮助开发者更轻松地进行代码创作和修改,推动软件开发的创新与进步。

WWDC 2024 观后

作者 jaxli
2024年6月12日 12:21

新的操作系统,记录一些印象深刻的功能点,以此来观察Apple今年的软件升级方向:

iOS 18 / iPadOS 18

-控制中心改版,可全屏滑动切换页面,比如切换到媒体控制页、Home页、通信功能控制页

-新的Passwords App,统一管理所有密码

-手写计算器,在iPad备忘录中手写数学算式,画个等号或者横线,可直接计算出结果

-基于Apple Intelligence的全新Siri,支持双击Home Indicator打字与Siri沟通

macOS 15 Sequoia

-iPhone镜像,连续互通功能家族又新增成员,看演示几乎无延迟,对齐安卓阵营的多屏协同

-窗口Snapping,拖动窗口贴边即可快捷分屏

-新的Passwords App,统一管理所有密码

-Game Porting Toolkit 2,使得大量PC端游能更快移植,育碧11月发售的《刺客信条影》将同步发售macOS版本

-基于Apple Intelligence的全新Siri

watchOS 11

-新的Vitals应用程序和Training Load功能

-仅支持Apple Watch S6及以后的设备,经典的S4和基于S4的SE系统升级将截止到watchOS 10.6了

visionOS 2

-支持无线方式接入MacBook,在前方展示一个4K大屏幕,后续将可以拓展成更巨大的带鱼屏

tvOS 18

-支持21:9投屏

Audio&Home

-AirPods支持了点头、摇头交互,当腾不开手的时候来电,可以点头接电话,摇头拒接

Apple Intelligence

-Siri全局新UI,能结合个人数据和当前屏幕内容进行回答

-本地大模型+私人云服务线上大模型,线上不存储个人数据

-Keynote用了最后40分钟来讲Apple智能,分别通过功能、技术架构、应用体验三个部分做了介绍

-很多跨app的操作,后续第三方应用开发者适配后,都能张张嘴快速完成,省去点点点的很多步

-现在仅支持英语,中文支持日期没有公布

巴黎奥运,我这样看

作者 jaxli
2024年7月26日 22:54

央视频app:CCTV-5/5+/16/4K版16/4K/8K等多个频道直播信号在奥运会期间限时免费。另外央视频推出了9.9元15天VIP会员,切换频道想要免广告的话可以买一个。每天在“赛事中心”查看赛程,选择热点赛事进行预约,相当于加到了我关注的赛事列表,可在“我的预约”中查看所有关注的赛事时间和赛果。

奥运官网/app/小程序:查询赛中实时数据,运动员得分、排名等(https://olympics.com/zh/paris-2024/schedule),数据更新比直播信号快

微信浮窗:腾讯体育赛程(https://m.sports.qq.com/sports-event/h5-olympics-schedule.htm?competitionId=180000)、奖牌榜(https://m.sports.qq.com/sports-event/h5-medal-rank.htm?competitionId=180000)、一篇每日看点(来自人民日报)、一篇每日金牌赛日程(来自上海发布)

咪咕视频app:支持多角度信号同屏播放。

腾讯体育app:查看赛程、奖牌榜。

aoyo.ai:使用AI获取最新信息,并解答关于比赛规则、赛果、数据统计等的问题。

微信和抖音的”奥运会“搜索结果:随时获取最新资讯。

OpenAI DevDay Nov. 2023 观后

作者 jaxli
2023年11月8日 21:02

3月15日发布会上展示过的GPT-4视觉能力的API终于正式发布了,训练数据截止到2023年4月,可以说GPT-4 Vision & 128k context才是GPT-4的正式版形态。

DALL·E 3模型一并开放,与GPT-4配合,图文生成相得益彰。

目前GPT-4 Turbo和GPT-4 Vision都还是preview,模型代号分别为gpt-4-1106-preview和gpt-4-vision-preview;每个开发者账号每天的调用次数上限仅有200次(GPT-4 Turbo)和100次(GPT-4 Vision)。

很快就看到新的应用:有人用它来理解一段视频的所有关键帧,它可以快速理解视频的主要内容并能根据理解给出询问问题的结论。

具有真人语音效果的TTS-1模型也正式开放,一个可以听说读写画、具有人类所有知识的智能体诞生了,除了没有肉体和情感。

11/10补充:

GPTs,虽然这个idea今年2月在业界就有了,但OpenAI的产品实现也值得观察:通过自然语言提需求创建prompts应用,应用能力不仅是会话,还支持创建者上传自有的知识库、调用web browsing、dalle3和python沙盒,甚至可以配置与外部联动的自动化。可通过固定链接小范围传播(分享后有落地页),也可发布到GPT Store供他人使用,用户端也可以多模态输入。

WWDC23 Keynote观后

作者 jaxli
2023年6月7日 14:36

记录几个印象比较深刻的点:

1、虽然在Apple Park开放了受邀开发者区域,但整场发布会依然是录制的,不是live,开发者在现场大屏幕上观看;

2、iPadOS 17桌面小组件可以进行交互了,新增了健康app;

3、Vision Pro至少在以下几个方面优于当下最好的头显(hololens/quest/pico/psvr):

-显示效果(精细的分辨率和减低眩晕感)

-无需控制器,直接眼动+手势交互

-3D视频拍摄和浏览、全景照片浏览

但应该还无法作为显示器串流PC VR游戏。

4、Vision Pro的操作系统叫visionOS,而不是此前传言的xrOS;

5、由于初始设置设备时有一个人脸的扫描,佩戴着Vision Pro进行facetime的时候,对方看到的是一个建模出来的自己,从官方视频看,效果非常逼真;

6、可以通过digital crown调节从AR到VR(现实到虚拟)的沉浸度;

7、可以不连接iPhone独立运行,但目前尚不清楚跨设备“连续互通”的具体交互形式;

8、Vision Pro的电池是外接的,像是连接了一个充电宝,使用时将连接线吸附于左侧绑带,外置电池可以装入衣裤口袋;

9、可以看出Apple此前的LiDAR、3D结构光face ID、空间音频都是在进行技术积累和验证;

10、Vision Pro售价3499美元,明年初在美国上市,明年晚些时候在更多地区上市。

11、Vision Pro仍然是室内使用的设备,期待它的形态早日进化为日常佩戴的眼镜。

❌
❌