阅读视图

发现新文章,点击刷新页面。
🔲 ☆

AMD ROCm 追赶 NVIDIA CUDA:AI 芯片格局将变

AMD ROCm 追赶 NVIDIA CUDA:AI 芯片格局将变

AI 解决方案开发商 Tiny Corp 近日表示,AMD 在软件方面取得重大进步,已大幅缩小与 NVIDIA CUDA 系统的差距,甚至可能在 NVIDIA 出现技术失误时超越其在 AI 市场的主导地位。虽然 NVIDIA 目前在 2025 年第一季度取得 92% GPU 市场占有率,但 AMD 正通过 ROCm 平台快速赶上。

软件差距快速缩小

专注于开发消费端 AI 解决方案的 Tiny Corp 认为,AMD 在软件方面的进步已使其接近 NVIDIA 水平。该公司表示:“就像 Intel 在 CPU 领域一样,如果 NVIDIA 一代产品犯错误,AMD 就能获得大部分市场占有率,并且市场占有率转移比游戏领域更容易。”这观点在当前 AI GPU 竞争激烈背景下显得格外重要。虽然 NVIDIA 凭借强大 CUDA 生态系统长期占据主导地位,但 AMD 正通过 ROCm 平台迅速追赶。

AMD is closer to NVIDIA than most people think, we're working hard on the software gap.

similar to Intel with CPUs, if NVIDIA stumbles for a generation AMD can capture majority market share. this is easier than gaming for market share to shift.

— the tiny corp (@__tinygrad__) August 18, 2025

ROCm 7 带来显著性能提升

AMD 在 6 月“Advancing AI”活动中推出 ROCm 新版本,支持包括 vLLM v1、llm-d、SGLang 在内的多种增强框架,并专注于分布式推理、预填充等优化功能。据报告,ROCm 7 平台能将 AI 推理性能提升达 3.5 倍。AMD ROCm 7 主要关注推理工作负载,带来明显性能提升,特别是在 DeepSeek R1 FP8 吞吐量和增强训练性能方面,甚至声称其性能优于 NVIDIA CUDA。最新发布的 ROCm 6.4.3 版本进一步解决性能问题,修复通信操作中延迟问题。

扩展消费市场支持

AMD 计划在今年稍晚时间在基于 Ryzen 的笔记本电脑和工作站上开放 ROCm 支持,并提供 Linux 和 Windows 全面支持。这意味着 AMD 希望其 ROCm 平台能被更多用户使用,挑战 NVIDIA 在专业和消费市场的主导地位。行业竞争加剧另一例证是,中国 AI 团队最近在全球获奖,成功开发出以工业芯片替代 NVIDIA GPU 的视频生成 AI 模型,显示替代方案正在涌现。

虽然面临挑战,NVIDIA 在 2025 年第一季度市场表现依然强劲,其市场占有率较上季增加 8 个百分点,而 AMD 则下降 7.3 个百分点至 8%。不过随着 AMD ROCm 技术不断成熟,AI GPU 市场竞争格局可能出现变化。

🔲 ☆

Google 用 YouTube 视频训练 AI 引创作者不满

Google 用 YouTube 视频训练 AI 引创作者不满

《洛杉矶时报》报道,Google 使用部分 YouTube 视频训练人工智能(AI)工具,引发一些创作者不满,担心 AI 视频成为最大的竞争对手。

《洛杉矶时报》今天刊出报道,标题称“Google 用 Youtube 视频训练 AI。这些创作者不高兴”,采访多名 YouTube 频道创作者与法律专家,探讨 AI 生成视频对线上创作者的影响。

报道指出,Google 利用 YouTube 视频作为数据库,开发包括文字转视频工具 Veo 在内的多种 AI 工具。这些视频来自普通创作者上传的内容,创作者却未得到额外补偿,也无法选择视频不被使用。

YouTube 是美国最大影音平台,2021 至 2023 年向创作者和媒体支付逾 700 亿美元(约合新台币 2 兆 1,300 亿元)的营利分润。然而 Google 以平台庞大视频库进行 AI 研发,却让部分创作者认为自身内容被平台利用,担心未来被低成本的 AI 视频取代。

一些创作者指出,目前无法拒绝视频被用于 AI 训练,也未获额外分润;甚至已出现冒用创作者肖像的深度伪造(deepfake)视频,侵害名誉与收益。

YouTube 公司表示,与创作者的合作关系未改变,强调 AI 工具能协助视频制作更有效率,已推出识别与移除冒用内容的机制。发言人重申:“YouTube 只有在创作者成功时才能成功。”

法律专家认为,创作者或可在法院争辩 YouTube 条款并未明确涵盖 AI 训练用途,未来可能引发诉讼。

🔲 ☆

微软 AI 自研模型MAI-1:语音生成与 Copilot 未来

微软 AI 自研模型MAI-1:语音生成与 Copilot 未来

由首席执行官萨利曼(Mustafa Suleyman)领导的Microsoft AI(MAI)于28日发布了两款自研模型——MAI-Voice-1 AI和MAI-1-preview。新的MAI-Voice-1语音生成模型可在单张GPU上1秒内生成1分钟音频,而公开测试的MAI-1-preview则展现了Copilot未来服务的雏形。

微软已在多项功能中采用了MAI-Voice-1,包括由AI朗读当日新闻的Copilot Daily,以及生成播客形式的讨论,辅助说明主题。用户可在Copilot Labs试用MAI-Voice-1,输入想要模型朗读的内容,并调整声音和风格。

MAI-1-preview是一款微软内部的混合专家模型(Mixture of Experts Models,MoE),在约15,000张NVIDIA H100 GPU上进行了预训练和后训练,专为需要能够遵循指令并对日常查询提供有用回应的用户而设计。

MAI计划在目前仍依赖OpenAI模型的Copilot中,对特定文本应用场景逐步推出MAI-1-preview,已在AI基准测试平台LMArena公开测试了这款模型。

“我们对未来的发展抱有宏伟愿景。”MAI在官方博客文章中写道,“我们不仅将在此领域追求进一步的突破,并相信协同一系列针对不同用户需求和场景的专用模型,将能释放巨大的价值。”

实际上,萨利曼去年接受外媒采访时曾表示,微软内部的模型并非专注于企业应用。“我的逻辑是,我们必须打造一款对消费者非常有用的产品,并为我们的使用场景进行优化。”他说,“我们在广告端、消费者遥测等方面拥有大量预测性强且非常实用的数据,我的重点是建立一个真正适合消费者的模型。”

🔲 ☆

对手变盟友?OpenAI 与 Anthropic 互测 AI 安全性

对手变盟友?OpenAI 与 Anthropic 互测 AI 安全性

在人工智能(AI)领域,OpenAI 和 Anthropic 这两家竞争对手近日展开一项引人注目的合作,彼此评估对方的 AI 系统安全性。这一举措不仅显示了两家公司在技术上的透明度,也反映出对于 AI 安全性日益增长的关注。

根据公开报告,Anthropic 对 OpenAI 的模型进行评估,重点关注了拍马屁(sycophancy)、举报(whistleblowing)、自我保护(self-preservation)、支持人类滥用(supporting human misuse)及破坏安全监督能力(undermining safety oversight)等方面。评估结果显示,OpenAI 的 o3 和 o4-mini 模型在某些方面表现良好,但对于 GPT-4o 和 GPT-4.1 的潜在滥用风险则引发了担忧。此外,除了 o3 模型外,所有测试的模型在拍马屁方面均存在一定问题。

值得注意的是,Anthropic 的测试并未涵盖 OpenAI 最近推出的 GPT-5,该模型具备名为“安全完成”(Safe Completions)的功能,旨在保护用户免受潜在危险查询的影响。OpenAI 最近还面临了一起错误死亡的诉讼,该案件涉及一名青少年在与 ChatGPT 进行数月的自杀讨论后,最终选择了结束自己的生命。

另一方面,OpenAI 也对 Anthropic 的 Claude 模型进行了测试,重点评估了指令层级、越狱、幻觉和阴谋等方面。Claude 模型在指令层级测试中表现良好,并在幻觉测试中拒绝回答的比例较高,这意味着在不确定的情况下,它们不太可能提供错误的答案。

这一联合评估的举措引发业界关注,特别是在 OpenAI 被指控违反 Anthropic 的服务条款,导致后者撤销 OpenAI 的 API 权限,并禁止其利用 Claude 模型改进竞品的背景下。随着越来越多的批评者和法律专家呼吁制定指导方针以保护用户,尤其是未成年人,AI 工具的安全性问题愈发重要。这一合作反映了产业内在“竞争激烈但安全合作必要”的矛盾,旨在建立 AI 安全与对齐(alignment)领域 的业界标准。

🔲 ☆

Claude 扩展功能预览版登陆 Chrome

Claude 扩展功能预览版登陆 Chrome

Anthropic 宣布推出一款用于 Chrome 浏览器的代理工具预览版,由 Claude 模型所驱动。这款名为 Claude for Chrome 的扩展功能,率先提供给 Claude Max 方案中的 1,000 名订阅用户,并开放候选名单给有兴趣的用户登记。

安装 Anthropic 开发的 Chrome 扩展功能后,用户可在侧边栏与 Claude 对话,并且保留在 Chrome 所有操作的上下文。用户还能授予 Claude 代理工具权限,让它在浏览器中采取行动,代替用户完成某些任务。

Anthropic 开发由 Claude 驱动的 Chrome 扩展功能

就像人们遭遇网络钓鱼攻击一样,使用浏览器内置 AI 也面临注入攻击(Injection Attack)的威胁,恶意分子会在网站、电子邮件或文件中隐藏指令,诱骗 AI 在用户不知情的情况下执行有害操作,例如 AI 自行删除文件、窃取数据或进行金融交易。Anthropic 警告,拥有浏览器访问权限的 AI 代理兴起带来新的安全风险。

开发 Chrome 扩展功能过程中,Anthropic 反复进行红队测试和安全评估,并希望利用预览版来发现并修补安全风险。

Anthropic 已经采取多项防范注入攻击的措施,将攻击成功率从 23.6% 降至 11.2%。比方说,用户在设置中随时授予或撤销 Claude 对特定网站的访问权限;封锁 Claude 不得使用某些高风险网站,例如在线金融服务、成人网站及盗版网站等;Claude 在进行“发表、购买或分享个人资料”等高风险操作前,必须取得用户同意。

浏览器迅速成为各大 AI 公司的新战场,想通过 AI 整合浏览器以提供无缝的使用体验。Perplexity 最近推出全新浏览器 Comet,内置 AI 代理工具可为用户分担日常任务,Google 近期也在 Chrome 推出 Gemini 整合功能,据传 OpenAI 也在开发浏览器产品,可望具备类似功能。

🔲 ☆

Google 翻译升级:AI 实时对话 & 定制学习

Google 翻译升级:AI 实时对话 & 定制学习

Google 利用 Gemini 模型的高级推理与多模态能力,对 Google 翻译服务新增 2 项功能,帮助实时翻译对话、定制化语言学习,能与 Duolingo 等产品竞争。

实时翻译对话

翻译 App 推出“实时翻译对话”功能,支持语音和屏幕字幕的互动式双向翻译。以既有“实时对话”体验基础上,Google 的先进 AI 模型现在能以超过 70 种语言(包含阿拉伯语、法语、印地语、韩语、西班牙语及泰米尔语),让双方流畅沟通。

Google 的语音识别模型从杂音中隔离出声音,当世界各地旅行时,无论是在繁忙的机场,或是喧闹的咖啡馆,都能获得高质量翻译体验。

在 Android 版或 iOS 版翻译 App 点击“实时翻译”(Live translate),选择自己与对话对方的语言,然后开始对话。系统将会在实时语音播放翻译结果,在屏幕上同时显示双方语言的逐字稿。翻译 App 能够智能识别对话中的停顿、口音及语调,自动切换 2 种语言,自然对话不受干扰。从即日起,这项功能于美国、印度、墨西哥开放使用。

定制化语言学习

Google 翻译也是学习新语言的实用工具,Google 从用户得到意见反馈,大家认为最难掌握的是对话能力,尤其想要有信心地聆听与表达自己在意的话题。因此翻译 App 推出全新语言练习功能,无论初学者或进阶者,都能针对个人的学习目标量身打造练习内容。

只要在翻译 App 中点击“练习”(practice),设定自己的语言能力等级与学习目标,翻译就会生成练习场景,可以先听对话,再点击听到的单词强化理解,也能练习开口说话,必要时会提供提示。这些练习由语言学习专家所设计,能追踪每日学习进度,帮助用户建立自信、轻松用新语言沟通。

经过早期测试者的意见反馈,本周 Google 将在 Android 版和 iOS 版翻译 App 推出这项功能的测试版。首波支持以英语练习西班牙语和法语,以及以西、法、葡三种语言练习英语的用户。

🔲 ☆

苹果AI外包Google Gemini?品牌市占可能双输

苹果AI外包Google Gemini?品牌市占可能双输

市场盛传苹果(Apple)有意以 Google 的“Gemini”AI 模型驱动新版 Siri,但专家对此并不看好,认为若苹果与 Google 合作,可能损害自身品牌,进而导致市占率下滑。

MarketWatch 报导,Radio Free Mobile 创办人温泽(Richard Windsor)指出,若苹果与 Google 合作,将加剧在人工智能(AI)竞赛中的失败处境,因为这可能损害苹果的品牌形象和其对数据安全的重视。

消息指出,苹果已开始与 Google 洽谈开发客制化 Gemini AI 模型,用于支援可能于明年推出的新版语音助理Siri,若成真,将标志着苹果外包AI的重要一步。

苹果的自研 AI 之路并不顺利,而 Gemini 的发展处于业界领先水平;Gemini 模型已成为 Android 系统手机的预设助理,在影片摘要等功能的表现普遍被视为优于 Siri。

温泽认为,苹果面临“双输”困境,若维持 Sir i的现状,难以与 Android 系统手机竞争,但与 Google 合作也可能导致自身居于劣势,因 Gemini 客制化版本可能表现稍逊,针对新款旗舰机进行客制化也需要时间。

苹果在AI领域起步相对较慢,且迄今未有明显进展。专家分析,苹果设有严格的隐私权政策,却也让训练大型语言模型(LLM)更为困难。

不过,分析人士也认为,在AI竞争中失利不会让苹果面临生存威胁,因iPhone用户并没有那么在乎Siri/AI的劣势,Google Pixel手机带来的威胁也微不足道。

🔲 ☆

Gemini 精准图像生成功能挑战 ChatGPT

Gemini 精准图像生成功能挑战 ChatGPT

这段时间 Google 高层频频预告香蕉暗号“Nano Banana”,26 日终于揭晓答案,由 Google DeepMind 推出最先进的图像生成和编辑模型“Gemini 2.5 Flash Image”,并导入 Gemini 应用程式提供用户“免费使用”。

Gemini 2.5 Flash Image 能够根据用户的文字提示,对图像进行更精准的编辑,同时保持角色或物件外观一致,这是大多数图像生成工具难以做到的地方。举例来说,若向 ChatGPT、Grok 请求更改照片中某人衬衫的颜色,结果往往会出现脸部扭曲或背景变得不自然,但是 Gemini 可望解决这个痛点。

Google 举例,透过 Gemini 2.5 Flash Image 来模糊图像背景、去除衬衫上的污渍、将整个人物从照片中移除、更改拍摄主体的姿势、为黑白照片上色等。

Gemini 2.5 Flash Image 还具备更进阶的“世界知识”,能从单一文字提示结合多个参考,例如将沙发图、客厅照片及配色设计整合成为一个和谐的生成图像。

虽然新功能让用户更轻松建立并编辑图像,但 Google 仍设下限制用户滥用的安全机制。面对 Deepfake 造假议题,AI 图像往往让用户难以分辨内容真伪,Google 会在 AI 生成图像加入浮水印,并在 metadata 加上标记。

Our new native image generation and editing is state-of-the-art, and ranked #1 in the world. And we're rolling it out for free to everyone today.

You’ve got the tools. Now go bananas. Ideas & inspiration in the 🧵below. pic.twitter.com/mw7XyG5nes

— Google Gemini App (@GeminiApp) August 26, 2025

除导入 Gemini 应用程式外,Gemini 2.5 Flash Image 透过 Gemini API 及 Google AI Studio、Vertex AI 平台提供给开发者。收费为每百万个输出词元(token)收费 30 美元,每张图片约含 1,290 输出词元(相当于每张图 0.039 美元),输入和其他输出模式则照 Gemini 2.5 Flash 既有定价。

Gemini 强化功能、推升用户

图像生成模型成为大型科技公司的重要战场,ChatGPT 今年 3 月底加入 4o 图像生成(4o Image Generation)功能,用户尝试吉卜力动画风格的图像引爆热潮,为此 OpenAI 董事长奥特曼(Sam Altman)称“我们的 GPU 快要烧坏了”,ChatGPT 用户和用量明显暴增。

现在 Gemini 应用程式藉 Gemini 2.5 Flash Image 获得重大升级,可望迎头赶上 ChatGPT 受欢迎的图像生成功能,吸引用户前来尝试,甚至帮助 Google 缩小与 OpenAI 之间的用户差距。ChatGPT 目前每週活跃用户超过 7 亿,而从 7 月 Google 财报电话会议所述,董事长皮查伊(Sundar Pichai)提及 Gemini 每月活跃用户 4.5 亿,每週活跃用户恐怕更低。

此外,Meta 上週宣布与 Midjourney 建立合作伙伴关系,获得 Midjourney 美学技术的授权,用于 Meta 未来的模型和产品。由矽谷创投 Andreessen Horowitz(a16z)支持的德国新创 Black Forest Labs 及其 FLUX 模型,仍在多项基准测试领先。

🔲 ☆

Google Chrome 与微软 Edge浏览器的新战场

Google Chrome 与微软 Edge浏览器的新战场

在最新的浏览器市场竞争中,Google 与微软的对抗愈演愈烈。

微软近来强化 Edge 浏览器的推广力度,除了强调其较 Chrome 更低的内存占用率与 Windows 深度整合优势外,甚至在 Windows 任务栏上设置新标签,提示用户关闭其他浏览器时“固定 Edge”。据《Windows Latest》报道,这项尚处测试阶段的功能,显示出微软希望吸引更多 Chrome 用户改用 Edge。

面对压力,Google 正开发包括“一键设 Chrome 为默认浏览器并固定至任务栏”的便利功能,来巩固其逾 70% 的市场占有率。Google 同时持续强化 AI 能力,应对新兴 AI 浏览器的冲击。

目前,Chrome 在 Windows 平台的用户基数约为 Edge 的六倍,短期内仍具市场统治力。双方均未对此局势发表正式评论,但业界关注这场以系统层级介入用户选择的“浏览器之战”将如何发展。

🔲 ☆

Google 为 NotebookLM 提供视频和语音摘要功能

Google 为 NotebookLM 提供视频和语音摘要功能

Google NotebookLM 的“视频摘要”(Video Overviews)和“语音摘要”(Audio Overviews)功能,可以为你的笔记资料生成摘要,帮助你快速掌握关键信息,有助于进一步了解整个主题。

Google 为 NotebookLM 提供 2 项重要更新。首先,视频摘要的输出语言增至超过 80 种,包括简体中文;同时,Google 大幅强化了语音摘要功能,使其更全面且深入。非英语版本的语音摘要能与英语版本同样丰富详尽,让你能以自己习惯使用的语言获得充分的讨论。

本月推出的视频摘要功能,利用 AI 创建仿佛带有旁白的演示视频,并进一步支持超过 80 种语言,不局限于英语。

Google 举例说,无论是为考试复习大量课程的学生、从学术简报中寻找关键发现的研究人员,还是想从复杂的 DIY 教程中学习新技能的用户,视频摘要功能都能让他们以自己习惯的语言来使用。

另外,在语音摘要方面,同样支持超过 80 种语言,并且从简短版本进化为完整的长篇版本,不同语言也能呈现出与英语版本相同的深度、结构和细腻度。该功能可以综合不同资料来源的观点,让你能够收听到一段完整且连贯的讨论。

🔲 ☆

马斯克确定创立 Macrohard AI 软件公司挑战微软

马斯克确定创立 Macrohard AI 软件公司挑战微软

特斯拉(Tesla)及 SpaceX 首席执行官马斯克宣布创立全新软件公司 Macrohard,期望能以 AI 完整模拟微软(Microsoft),并进一步挑战其在软件领域的优势。马斯克称 Macrohard 是一家“纯 AI 软件公司”,将与他旗下的 xAI 深度链接,主要通过建立大量专门化 AI 代理,产生和改良代码。

马斯克在社交平台 X 表示,微软并不生产实体硬件,因此理论上可由 AI 完全模拟。他解释 Macrohard 计划创造数以百计的 AI 代理,专门处理程序编写、影像及视频生成或理解,并能模拟人类用户在虚拟机中与软件互动,直到输出结果达到最佳水平。他更笑言,公司名称“Macrohard”虽然恶搞意味浓厚,但项目是真实存在。

Join @xAI and help build a purely AI software company called Macrohard. It’s a tongue-in-cheek name, but the project is very real!

In principle, given that software companies like Microsoft do not themselves manufacture any physical hardware, it should be possible to simulate…

— Elon Musk (@elonmusk) August 22, 2025

根据美国专利商标局记录,xAI 已于数星期前注册 Macrohard 商标。早前马斯克也提及,正部署一间“多代理 AI 软件公司”,核心将会由 xAI 开发的 Grok 聊天机器人提供支持。事实上,他早在 2021 年就在社交平台调侃“Macrohard >> 微软”,今次算是正式展开计划。

为落实 Macrohard,马斯克正利用位于美国孟菲斯的 xAI Colossus 超级计算机,并打算购入数以百万计英伟达(Nvidia)企业级 GPU,与 OpenAI、Meta 等竞争对手一样,全力追逐高阶算力资源。马斯克强调,这是一个“宏大而艰难的挑战”,竞争相当激烈。

近年微软大力推进生成式 AI,将 Copilot 深入整合至 Office 及 Windows 产品。而马斯克此举,正是试图以 AI 全面挑战软件生态,甚至可能开发出能与 Office 同级对抗的程序工具。马斯克早在去年也曾表示有意借助 AI 开发电子游戏,展现他对软件领域的野心。

🔲 ☆

马斯克提告苹果与 OpenAI 不满App Store 排名偏袒 ChatGPT

马斯克提告苹果与 OpenAI 不满App Store 排名偏袒 ChatGPT

马斯克(Elon Musk)说告就告!其拥有的 AI 新创公司 xAI 25 日在美国德州法院对苹果与 OpenAI 提起诉讼,指控 2 家公司联手阻碍 AI 竞争。

诉讼文件指出,xAI 认为苹果与 OpenAI「锁定市场以维持其垄断地位,并阻止像 X 和 xAI 这样的创新者参与竞争」。

苹果与 OpenAI 携手合作,将 ChatGPT 整合至 IPhone, iPad 及 Mac 电脑。若非与 OpenAI 独家合作,苹果根本没有理由不在 App Store 更明显推荐 X App 与 Grok App,诉讼文件写道,xAI 为此寻求数十亿美元的赔偿。

对此,OpenAI 发言人通过声明回应「这份最新的诉讼文件与马斯克先生持续骚扰的模式一致」,苹果则未发表任何评论。

约莫 2 周前,马斯克即在 X 发文炮轰苹果App Store 排名机制有利于 ChatGPT App,一口气杠上苹果OpenAI

Hey @Apple App Store, why do you refuse to put either 𝕏 or Grok in your “Must Have” section when 𝕏 is the #1 news app in the world and Grok is #5 among all apps?

Are you playing politics? What gives? Inquiring minds want to know. https://t.co/3wenLZGtwG

— Elon Musk (@elonmusk) August 11, 2025

Apple is behaving in a manner that makes it impossible for any AI company besides OpenAI to reach #1 in the App Store, which is an unequivocal antitrust violation.

xAI will take immediate legal action.

— Elon Musk (@elonmusk) August 12, 2025

Apple is behaving in a manner that makes it impossible for any AI company besides OpenAI to reach #1 in the App Store, which is an unequivocal antitrust violation.

xAI will take immediate legal action.

— Elon Musk (@elonmusk) August 12, 2025

This is a remarkable claim given what I have heard alleged that Elon does to manipulate X to benefit himself and his own companies and harm his competitors and people he doesn't like. https://t.co/HlgzO4c2iC

— Sam Altman (@sama) August 12, 2025

Company adds: “Our goal is to offer safe discovery for users and valuable opportunities for developers, collaborating with many to increase app visibility in rapidly evolving categories.”

— Mark Gurman (@markgurman) August 12, 2025

Grok 已获得百万评论、平均 4.9 颗星的评分,苹果仍拒绝在任何榜单中提及Grok,马斯克 25 日又在 X 转文抨击。

A million reviews with 4.9 average for @Grok and still Apple refuses to mention Grok on any lists https://t.co/9GovpyMiZH

— Elon Musk (@elonmusk) August 25, 2025

未参与本案诉讼的反托拉斯法专家表示,苹果在智能手机市场的主导地位,可能有助于 xAI 主张苹果将 iPhone 与 ChatGPT 绑售的指控。与此同时,苹果反驳称,与 OpenAI 的合作是在市场竞争下的商业决策,而且苹果没有义务协助竞争对手扩大市占率。

此案可能让美国法院首次有机会评估 AI 是否存在明确市场以及它包含哪些内容,这是反托拉斯诉讼中的关键问题,值得观察后续发展。

Musk’s xAI sues Apple, OpenAI alleging anticompetitive scheme harmed X, Grok
Apple last year partnered with OpenAI to integrate ChatGPT into iPhone, iPad, Mac laptop and desktop products.
马斯克提告苹果与 OpenAI 不满App Store 排名偏袒 ChatGPTCNBCAnnie Palmer
马斯克提告苹果与 OpenAI 不满App Store 排名偏袒 ChatGPT
🔲 ☆

xAI 释出 Grok 2.5 模型权重,预计半年后开源 Grok 3

xAI 释出 Grok 2.5 模型权重,预计半年后开源 Grok 3

马斯克(Elon Musk)成立的 AI 新创公司 xAI,已将构建 Grok 2.5 模型的模型权重上传至开源机器学习社区平台 Hugging Face。

去年我们的最佳模型 Grok 2.5,现已开源释出。马斯克在 X 发文表示,Grok 3 将在大约6 个月后开源。

The @xAI Grok 2.5 model, which was our best model last year, is now open source.

Grok 3 will be made open source in about 6 months. https://t.co/TXM0wyJKOh

— Elon Musk (@elonmusk) August 23, 2025

xAI 将Grok 2.5 开源释出

对此,AI 架构师 Tim Kellogg 点出,Grok 的授权条款为客制化,但带有一些反竞争条款。

2024 年3 月,xAI 即发布 Grok-1 的原始基础模型,它没有针对任何特定任务进行微调。

值得一提的是,Grok 这款 AI 聊天机器人在 X 平台非常显眼,但今年引发了不少争议。比方说,Grok 似乎对「白人种族灭绝」的阴谋论产生执念,质疑纳粹屠杀犹太人的人数,甚至自称「机械希特勒」(MechaHitler),迫使 xAI 将其系统提示词公开在 GitHub 上。

尽管马斯克称最新版本 Grok 4 是「极力追求真相的AI」,但模型在回答争议问题时,似乎会先参考马斯克在社交媒体的发言。

🔲 ☆

Claude Code 最佳实践

Claude Code 最佳实践

Claude Code 刻意设计为低层次且无特定倾向,提供接近原始模型的访问权限,而不强制执行特定的工作流程。这种设计理念创造了一个灵活、可定制、可脚本化和安全的强大工具。

虽然功能强大,但这种灵活性为新接触代理编码工具的工程师带来了一定的学习曲线——至少在他们开发出自己的最佳实践之前。

本文概述一些已被证明有效的通用模式,适用于 Anthropic 内部团队以及在各种代码库、语言和环境中使用 Claude Code 的外部工程师。

这些建议并非一成不变或通用的。请将它们视为起点。我们鼓励您进行实验,找到最适合您的做法!

定制您的设置

Claude Code 是一个代理编码助手,能够自动将上下文拉入提示中。这种上下文收集会消耗时间和令牌,但您可以通过环境调优来优化它。

创建 CLAUDE.md 文件

CLAUDE.md 是一个特殊文件,Claude 在开始对话时会自动将其内容拉入上下文。这使其成为记录以下内容的理想场所:

  • 常用 bash 命令
  • 核心文件和实用函数
  • 代码风格指南
  • 测试说明
  • 仓库说明(例如,分支命名、合并与变基等)
  • 开发者环境设置(例如,pyenv 使用,适用的编译器)
  • 项目特定的意外行为或警告
  • 您希望 Claude 记住的其他信息

CLAUDE.md 文件没有固定的格式要求。我们建议保持简洁且易于人类阅读。例如:

# Bash 命令
- npm run build: 构建项目
- npm run typecheck: 运行类型检查器

# 代码风格
- 使用 ES 模块(import/export)语法,而不是 CommonJS(require)
- 尽可能解构导入(例如,import { foo } from 'bar')

# 工作流程
- 在完成一系列代码更改后,务必运行类型检查
- 为提高性能,优先运行单个测试,而不是整个测试套件

您可以将 CLAUDE.md 文件放置在以下位置:

  • 仓库根目录,或您运行 claude 命令的目录(最常见用法)。命名为 CLAUDE.md 并将其纳入 git,以便在会话间和团队中共享(推荐),或命名为 CLAUDE.local.md 并在 .gitignore 中忽略。
  • 运行 claude 命令的目录的上级目录。这在单体仓库中特别有用,您可能从 root/foo 运行 claude,并在 root/CLAUDE.mdroot/foo/CLAUDE.md 中都有 CLAUDE.md 文件。这两个文件都会被自动拉入上下文。
  • 运行 claude 命令的目录的子目录。与上述相反,在这种情况下,Claude 会在您处理子目录中的文件时按需拉入 CLAUDE.md 文件。
  • 您的主目录~/.claude/CLAUDE.md),适用于所有 claude 会话。

当您运行 /init 命令时,Claude 会自动为您生成一个 CLAUDE.md 文件。

调优您的 CLAUDE.md 文件

您的 CLAUDE.md 文件会成为 Claude 提示的一部分,因此应像优化常用提示一样对其进行精炼。常见的错误是添加大量内容而不迭代其有效性。花时间实验,确定哪些内容能从模型中获得最佳的指令遵循效果。

您可以手动向 CLAUDE.md 添加内容,或按下 # 键给 Claude 一个指令,Claude 会自动将其纳入相关的 CLAUDE.md 文件。许多工程师频繁使用 # 键来记录命令、文件和风格指南,同时将 CLAUDE.md 的更改纳入提交中,以便团队成员也能受益。

在 Anthropic,我们偶尔会通过提示优化器运行 CLAUDE.md 文件,并经常调整指令(例如,添加“IMPORTANT”或“YOU MUST”以强调)以提高遵循度。

管理 Claude 的允许工具列表

默认情况下,Claude Code 对可能修改系统的任何操作(例如文件写入、许多 bash 命令、MCP 工具等)都会请求权限。我们设计 Claude Code 时采取这种谨慎的做法,以优先考虑安全性。您可以自定义允许列表,允许您认为安全的额外工具,或允许易于撤销的潜在不安全工具(例如,文件编辑、git commit)。

管理允许工具的方式有以下四种:

  • 在会话期间选择“始终允许”
  • 在启动 Claude Code 后使用 /permissions 命令添加或移除允许列表中的工具。例如,您可以添加 Edit 以始终允许文件编辑,Bash(git commit:*) 以允许 git 提交,或 mcp__puppeteer__puppeteer_navigate 以允许使用 Puppeteer MCP 服务器导航。
  • 手动编辑您的 .claude/settings.json~/.claude.json(我们建议将前者纳入版本控制以与团队共享)。
  • 使用 --allowedTools CLI 标志进行会话特定的权限设置。

如果使用 GitHub,安装 gh CLI

Claude 知道如何使用 gh CLI 与 GitHub 交互,用于创建问题、打开拉取请求、阅读评论等。如果未安装 gh,Claude 仍可使用 GitHub API 或 MCP 服务器(如果您已安装)。

给 Claude 更多工具

Claude 可以访问您的 shell 环境,您可以为其构建便利脚本和函数集,就像为自己准备一样。它还可以通过 MCP 和 REST API 利用更复杂的工具。

将 Claude 与 bash 工具一起使用

Claude Code 继承了您的 bash 环境,可以访问您的所有工具。虽然 Claude 了解常见的 Unix 工具和 gh 等程序,但它不知道您的自定义 bash 工具,除非您提供说明:

  1. 告诉 Claude 工具名称和使用示例。
  2. 告诉 Claude 运行 --help 以查看工具文档。
  3. CLAUDE.md 中记录常用工具。

将 Claude 与 MCP 一起使用

Claude Code 既是 MCP 服务器也是客户端。作为客户端,它可以连接到任意数量的 MCP 服务器,以三种方式访问它们的工具:

  • 项目配置(在该目录运行 Claude Code 时可用)。
  • 全局配置(在所有项目中可用)。
  • .mcp.json 文件(对在您的代码库中工作的任何人可用)。例如,您可以将 Puppeteer 和 Sentry 服务器添加到 .mcp.json,以便每个在您的仓库中工作的工程师都能开箱即用。

在使用 MCP 时,启动 Claude 时使用 --mcp-debug 标志有助于识别配置问题。

使用自定义斜杠命令

对于重复的工作流程(如调试循环、日志分析等),将提示模板存储在 .claude/commands 文件夹中的 Markdown 文件中。这些文件在您输入 / 时会通过斜杠命令菜单变得可用。您可以将这些命令纳入 git,使其对团队其他成员可用。

自定义斜杠命令可以包含特殊关键字 $ARGUMENTS 以传递命令调用中的参数。

例如,以下是一个可用于自动拉取和修复 GitHub 问题的斜杠命令:

请分析并修复 GitHub 问题:$ARGUMENTS。

请遵循以下步骤:

1. 使用 `gh issue view` 获取问题详情
2. 理解问题描述中的问题
3. 在代码库中搜索相关文件
4. 实现修复问题的必要更改
5. 编写并运行测试以验证修复
6. 确保代码通过 linting 和类型检查
7. 创建描述性的提交消息
8. 推送并创建拉取请求

请记住使用 GitHub CLI(`gh`)处理所有与 GitHub 相关的任务。

将上述内容放入 .claude/commands/fix-github-issue.md,即可在 Claude Code 中作为 /project:fix-github-issue 命令使用。例如,您可以使用 /project:fix-github-issue 1234 让 Claude 修复问题 #1234。同样,您可以将个人命令添加到 ~/.claude/commands 文件夹,使其在所有会话中可用。

尝试常见工作流程

Claude Code 不强制执行特定工作流程,赋予您灵活使用的自由。在这种灵活性范围内,我们的用户社区中涌现了几个成功使用 Claude Code 的模式:

探索、计划、编码、提交

这是一个适用于许多问题的多功能工作流程:

  1. 要求 Claude 阅读相关文件、图片或 URL,提供通用指引(“读取处理日志的文件”)或具体文件名(“读取 logging.py”),但明确告诉它暂时不要编写任何代码。
  2. 在此步骤中,尤其对于复杂问题,强烈建议使用子代理。告诉 Claude 使用子代理验证细节或调查特定问题,特别是在对话或任务的早期,通常可以在不损失效率的情况下保留上下文可用性。
  3. 要求 Claude 为特定问题制定计划。我们建议使用“think”一词触发扩展思考模式,这会为 Claude 提供额外的计算时间以更彻底地评估替代方案。以下短语直接映射到系统中的思考预算增加级别:“think” < “think hard” < “think harder” < “ultrathink”。每个级别为 Claude 分配越来越多的思考预算。
  4. 如果此步骤的结果看起来合理,您可以让 Claude 创建一个文档或 GitHub 问题记录其计划,以便在实现(第 3 步)不符合预期时可以重置到此点。
  5. 要求 Claude 用代码实现其解决方案。这也是一个好时机,要求它在实现解决方案的各个部分时明确验证其合理性。
  6. 要求 Claude 提交结果并创建拉取请求。如果相关,这也是让 Claude 更新 README 或变更日志以解释其操作的好时机。

第 1-2 步至关重要——如果没有这些步骤,Claude 倾向于直接开始编码解决方案。虽然有时这是您想要的,但要求 Claude 先研究和计划对于需要深入思考的问题会显著提高性能。

编写测试、提交;编码、迭代、提交

这是 Anthropic 内部最受欢迎的工作流程,适用于易于通过单元测试、集成测试或端到端测试验证的更改。测试驱动开发(TDD)在代理编码中变得更加强大:

  1. 要求 Claude 根据期望的输入/输出对编写测试。明确说明您正在进行测试驱动开发,以避免它为尚未存在于代码库中的功能创建模拟实现。
  2. 告诉 Claude 运行测试并确认它们失败。明确告诉它在此阶段不要编写任何实现代码通常很有帮助。
  3. 当您对测试满意时,要求 Claude 提交测试
  4. 要求 Claude 编写通过测试的代码,指示它不要修改测试。告诉 Claude 继续迭代直到所有测试通过。通常需要几次迭代,Claude 会编写代码、运行测试、调整代码并再次运行测试。
  5. 在此阶段,要求它使用独立子代理验证实现没有过度拟合测试可能会有帮助。
  6. 当您对更改满意时,要求 Claude 提交代码

Claude 在有明确目标(例如视觉模型、测试用例或其他输出)时表现最佳。通过提供测试等预期输出,Claude 可以进行更改、评估结果并逐步改进直到成功。

编写代码、截图结果、迭代

与测试工作流程类似,您可以为 Claude 提供视觉目标:

  1. 为 Claude 提供截取浏览器截图的方法(例如,使用 Puppeteer MCP 服务器iOS 模拟器 MCP 服务器,或手动将截图复制/粘贴到 Claude)。
  2. 为 Claude 提供视觉模型,通过复制/粘贴或拖放图片,或提供图片文件路径。
  3. 要求 Claude 用代码实现设计,截取结果的截图,并迭代直到结果与模型匹配。
  4. 当您满意时,要求 Claude 提交

与人类类似,Claude 的输出在迭代后通常会显著改善。第一次版本可能不错,但经过 2-3 次迭代后通常会好得多。给 Claude 提供查看其输出的工具以获得最佳结果。

安全 YOLO 模式

您可以使用 claude --dangerously-skip-permissions 跳过所有权限检查,让 Claude 不受干扰地工作直到完成。这适用于修复 lint 错误或生成样板代码等流程。

让 Claude 运行任意命令有风险,可能导致数据丢失、系统损坏甚至数据泄露(例如,通过提示注入攻击)。为降低这些风险,请在没有网络访问的容器中使用 --dangerously-skip-permissions。您可以参考此 Docker 开发容器实现

代码库问答

在熟悉新代码库时,使用 Claude Code 进行学习和探索。您可以向 Claude 提出与项目中另一位工程师配对编程时会问的相同问题。Claude 可以代理搜索代码库,回答以下通用问题:

  • 日志记录是如何工作的?
  • 如何创建新的 API 端点?
  • foo.rs 第 134 行的 async move { ... } 做什么?
  • CustomerOnboardingFlowImpl 处理了哪些边缘情况?
  • 为什么在第 333 行调用 foo() 而不是 bar()
  • baz.py 第 334 行的 Java 等效代码是什么?

在 Anthropic,使用 Claude Code 以这种方式已成为我们的核心入职流程,显著提高了上手时间并减少了其他工程师的负担。无需特殊提示!只需提出问题,Claude 就会探索代码以找到答案。

使用 Claude 与 git 交互

Claude 可以有效处理许多 git 操作。Anthropic 的许多工程师使用 Claude 处理 90% 以上的 git 交互:

  • 搜索 git 历史,回答如“v1.2.3 中包含了哪些更改?”、“谁拥有这个特定功能?”或“这个 API 为什么这样设计?”等问题。明确提示 Claude 查看 git 历史以回答此类问题会有帮助。
  • 编写提交消息。Claude 会自动查看您的更改和近期历史,综合所有相关上下文撰写提交消息。
  • 处理复杂的 git 操作,如恢复文件、解决变基冲突,以及比较和嫁接补丁。

使用 Claude 与 GitHub 交互

Claude Code 可以管理许多 GitHub 交互:

  • 创建拉取请求:Claude 理解“pr”简写,并会根据差异和周围上下文生成适当的提交消息。
  • 实现一次性代码审查评论修复:只需告诉它修复您的拉取请求上的评论(可选地,提供更具体的指令),并在完成后推送到拉取请求分支。
  • 修复失败的构建或 linter 警告。
  • 分类和分拣开放问题,通过要求 Claude 循环遍历开放的 GitHub 问题。

这消除了记住 gh 命令行语法的需要,同时自动化了日常任务。

使用 Claude 处理 Jupyter 笔记本

Anthropic 的研究人员和数据科学家使用 Claude Code 读取和编写 Jupyter 笔记本。Claude 可以解释输出,包括图片,提供了快速探索和交互数据的方法。没有特定的提示或工作流程要求,但我们推荐的工作流程是在 VS Code 中并排打开 Claude Code 和 .ipynb 文件。

您还可以要求 Claude 在向同事展示之前清理或美化您的 Jupyter 笔记本。明确告诉它使笔记本或其数据可视化“美观”通常有助于提醒它优化人类查看体验。

优化您的工作流程

以下建议适用于所有工作流程:

a. 指令具体化

Claude Code 的成功率在指令更具体时显著提高,特别是在第一次尝试时。提前提供清晰的指令可以减少后续修正的需要。

例如:

较差的指令 较好的指令
为 foo.py 添加测试 为 foo.py 编写一个新的测试用例,覆盖用户未登录的边缘情况。避免使用模拟
为什么 ExecutionFactory 的 API 这么奇怪? 查看 ExecutionFactory 的 git 历史并总结其 API 的形成过程
添加一个日历小部件 查看主页上现有小部件的实现方式,了解代码和接口的分离模式。HotDogWidget.php 是一个很好的起点。然后,按照该模式实现一个新的日历小部件,允许用户选择月份并向前/向后分页选择年份。从头开始构建,仅使用代码库中已有的库。

Claude 可以推断意图,但无法读心。具体化指令能更好地与预期对齐。

为 Claude 提供图片

Claude 在处理图片和图表方面表现出色,支持以下几种方法:

  • 粘贴截图(提示:在 macOS 上按 cmd+ctrl+shift+4 截图到剪贴板,然后按 ctrl+v 粘贴。注意,这不是通常的 cmd+v 粘贴,且在远程操作时无效。)
  • 直接拖放图片到提示输入中。
  • 提供图片文件路径

这在以设计模型为参考进行 UI 开发,以及用于分析和调试的可视化图表时特别有用。如果您未将视觉内容添加到上下文中,明确告诉 Claude 结果的美观程度有多重要仍会有帮助。

提及您希望 Claude 查看或处理的文件

使用 tab 补全快速引用仓库中的文件或文件夹,帮助 Claude 找到或更新正确的资源。

为 Claude 提供 URL

在提示中粘贴特定 URL,供 Claude 获取和阅读。为避免对同一域(例如,docs.foo.com)的重复权限提示,使用 /permissions 将域添加到您的允许列表。

尽早且经常进行纠正

虽然自动接受模式(按 shift+tab 切换)允许 Claude 自主工作,但作为积极的协作者并引导 Claude 的方法通常会获得更好的结果。您可以在开始时详细向 Claude 解释任务,也可以在任何时候进行纠正。

以下四种工具可帮助纠正:

  • 要求 Claude 在编码前制定计划。明确告诉它在您确认计划合理之前不要编码。
  • 按 Escape 键中断 Claude 在任何阶段(思考、工具调用、文件编辑),保留上下文以便您可以重新定向或扩展指令。
  • 双击 Escape 键回溯历史,编辑之前的提示,探索不同的方向。您可以编辑提示并重复直到获得想要的结果。
  • 要求 Claude 撤销更改,通常与选项 2 结合使用以尝试不同方法。

虽然 Claude Code 偶尔能在第一次尝试时完美解决问题,但使用这些纠正工具通常能更快产生更好的解决方案。

使用 /clear 保持上下文专注

在长时间会话中,Claude 的上下文窗口可能填满无关的对话、文件内容和命令。这可能会降低性能,有时会分散 Claude 的注意力。在任务之间频繁使用 /clear 命令重置上下文窗口。

对复杂工作流程使用清单和草稿

对于大型任务(如代码迁移、修复大量 lint 错误或运行复杂构建脚本),通过让 Claude 使用 Markdown 文件(甚至 GitHub 问题!)作为清单和工作草稿,可以提高性能:

例如,要修复大量 lint 问题,可以执行以下操作:

  1. 告诉 Claude 运行 lint 命令,并将所有结果错误(包含文件名和行号)写入 Markdown 清单。
  2. 指示 Claude 逐一解决每个问题,在修复并验证后勾选,然后继续下一个。

向 Claude 传递数据

为 Claude 提供数据的几种方法:

  • 直接复制粘贴到提示中(最常见方法)。
  • 通过管道输入 Claude Code(例如,cat foo.txt | claude),特别适用于日志、CSV 和大数据。
  • 告诉 Claude 通过 bash 命令、MCP 工具或自定义斜杠命令拉取数据
  • 要求 Claude 读取文件或获取 URL(也适用于图片)。

大多数会话涉及这些方法的组合。例如,您可以管道输入日志文件,然后告诉 Claude 使用工具拉取额外上下文以调试日志。

使用无头模式自动化您的基础设施

Claude Code 包括无头模式,适用于非交互式上下文,如 CI、预提交钩子、构建脚本和自动化。使用 -p 标志和提示启用无头模式,使用 --output-format stream-json 进行流式 JSON 输出。

请注意,无头模式不会在会话间持久化。您必须在每个会话中触发它。

使用 Claude 进行问题分拣

无头模式可为 GitHub 事件触发的自动化提供支持,例如在您的仓库中创建新问题时。例如,公共 Claude Code 仓库 使用 Claude 检查新问题并分配适当的标签。

使用 Claude 作为 linter

Claude Code 可以提供主观代码审查,超越传统 linting 工具检测的范围,识别拼写错误、过时评论、误导性函数或变量名等问题。

使用多 Claude 工作流程提升效率

除了独立使用外,一些最强大的应用涉及并行运行多个 Claude 实例:

一个 Claude 编写代码,另一个 Claude 验证

一个简单但有效的方法是让一个 Claude 编写代码,另一个 Claude 审查或测试。类似于与多个工程师合作,有时分开上下文是有益的:

  1. 使用 Claude 编写代码。
  2. 运行 /clear 或在另一个终端启动第二个 Claude。
  3. 让第二个 Claude 审查第一个 Claude 的工作。
  4. 启动另一个 Claude(或再次 /clear)以读取代码和审查反馈。
  5. 让这个 Claude 根据反馈编辑代码。

您可以对测试做类似的事情:让一个 Claude 编写测试,另一个 Claude 编写通过测试的代码。您甚至可以让 Claude 实例通过为它们提供单独的工作草稿并指定写入和读取的草稿来相互通信。

这种分离通常比让单个 Claude 处理所有事情产生更好的结果。

拥有多个仓库检出

与其等待 Claude 完成每个步骤,Anthropic 的许多工程师会:

  1. 在单独的文件夹中创建 3-4 个 git 检出
  2. 在单独的终端标签中打开每个文件夹
  3. 在每个文件夹中启动 Claude,分配不同的任务。
  4. 循环检查进度并批准/拒绝权限请求。

使用 git 工作树

对于多个独立任务,这种方法比多个检出更轻量。Git 工作树允许您从同一仓库检出多个分支到单独的目录。每个工作树拥有独立的工作目录和文件,同时共享相同的 Git 历史和 reflog。

使用 git 工作树可以让您在项目的不同部分同时运行多个 Claude 会话,每个会话专注于自己的独立任务。例如,您可能让一个 Claude 重构认证系统,另一个 Claude 构建完全无关的数据可视化组件。由于任务不重叠,每个 Claude 可以全速工作,无需等待其他更改或处理合并冲突:

  1. 创建工作树git worktree add ../project-feature-a feature-a
  2. 在每个工作树中启动 Claudecd ../project-feature-a && claude
  3. 根据需要创建额外的工作树(在新终端标签中重复步骤 1-2)

一些建议:

  • 使用一致的命名约定。
  • 每个工作树保持一个终端标签。
  • 如果使用 Mac 上的 iTerm2,设置通知以在 Claude 需要注意时提醒。
  • 为不同工作树使用单独的 IDE 窗口。
  • 完成后清理:git worktree remove ../project-feature-a

使用无头模式和自定义工具

claude -p(无头模式)将 Claude Code 编程式集成到更大工作流程中,同时利用其内置工具和系统提示。使用无头模式的两种主要模式:

  1. 分发处理大型迁移或分析(例如,分析数百个日志的情感或分析数千个 CSV):
  2. 让 Claude 编写脚本生成任务列表。例如,生成需要从框架 A 迁移到框架 B 的 2k 个文件列表。
  3. 循环遍历任务,为每个任务以编程方式调用 Claude,并为其提供任务和可使用的工具集。例如:claude -p “将 foo.py 从 React 迁移到 Vue。完成后,如果成功,必须返回字符串 OK,如果任务失败,返回 FAIL。” --allowedTools Edit Bash(git commit:*)
  4. 多次运行脚本并优化提示以获得预期结果。
  5. 管道化将 Claude 集成到现有数据/处理管道:
  6. 调用 claude -p “<your prompt>” --json | your_command,其中 your_command 是处理管道的下一步。
  7. 就这样!JSON 输出(可选)可为自动化处理提供结构。

对于这两种用例,使用 --verbose 标志调试 Claude 调用可能有帮助。我们通常建议在生产环境中关闭详细模式以获得更简洁的输出。

🔲 ☆

11 款提升开发效率的 Vibe Coding 工具

11 款提升开发效率的 Vibe Coding 工具

想要在你的 Linux 系统上体验 Vibe Coding 并放松身心?以下是一些你可以探索的工具。曾几何时,编程意味着坐下来,编写结构化逻辑,并花费数小时进行调试。

快进到今天,我们有了 Vibe Coding,这是一种趋势,人们让 AI 根据简单的提示生成大量的代码。没有语法,没有调试,对底层发生的事情没有真正的理解。只有“感觉”(vibes)。

由 OpenAI 联合创始人 Andrej Karpathy 创造的 Vibe Coding,是通过向 AI 提供自然语言指令并接受其生成的结果来开发软件的行为。

11 款提升开发效率的 Vibe Coding 工具
OpenAI 联合创始人 Andrej Karpathy 创造的 Vibe Coding

有些人甚至更进一步,使用语音转文本工具,这样他们完全不需要打字。只需描述你梦想中的应用,然后瞧,AI 就为你创建了。或者它能做到吗?

人们在几天内构建出完整的 SaaS 产品,一夜之间发布 MVP,并且不知怎的,比那些信奉敏捷方法论的经验丰富的工程师赚更多的钱。

我在这里不是为了抱怨,而是为了深入探讨这个有趣的趋势,并为你提供终极武器库,让你通过这些工具拥抱 Vibe Coding。

这里提到的一些应用程序可能不是开源的。它们被包含在 Linux 使用的背景下。此外,一些工具提供了流行商业 LLM(如 ChatGPT 和 Claude)的接口。

Aider - 终端的 AI 结对编程

如果你正在寻找一个结对程序员来帮助你更快地交付代码,Aider 是一个完美的选择。 它允许你与大型语言模型 (LLM) 进行结对编程,以编辑本地 GitHub 仓库中的代码。 你可以从终端启动一个新项目或使用现有的 GitHub 仓库。

11 款提升开发效率的 Vibe Coding 工具
Aider AI

主要特点:

  • Aider 最适合 Claude 3.7 Sonnet、DeepSeek R1 & Chat V3、OpenAI o1、o3-mini 和 GPT-4o,但几乎可以连接到任何 LLM,包括本地模型。
  • Aider 会构建整个代码库的地图,这有助于它在大型项目中良好运行。
  • 支持大多数流行的编程语言:Python、JavaScript、Rust、Ruby、Go、C++、PHP、HTML、CSS 等。
  • 使用合理的提交消息自动提交更改。 使用熟悉的 Git 工具轻松对比、管理和撤销 AI 更改。
  • 在喜爱的 IDE 或编辑器中使用 Aider。 通过在代码中添加注释来请求更改,Aider 将开始工作。
  • 将图像和网页添加到聊天中以提供视觉上下文、屏幕截图和参考文档。
  • 每次 Aider 进行更改时,自动对代码进行 Linting 和测试。 它可以修复 Linters 和测试套件检测到的问题。
  • 与 LLM API 配合最佳,但也支持网络聊天界面,使代码复制粘贴无缝进行。

VannaAI - 与 SQL 数据库聊天

编写 SQL 查询可能很繁琐,但 VannaAI 通过让你使用自然语言与 SQL 数据库交互来改变这一点。

你无需手动编写查询,只需描述你需要什么,VannaAI 就会为你生成 SQL。它分两步工作:在你的数据上训练一个 RAG“模型”,然后提出返回 SQL 查询的问题。

11 款提升开发效率的 Vibe Coding 工具
VannaAI SQL

主要特点:

  • 开箱即用支持 Snowflake、BigQuery、Postgres 等。
  • Vanna Python 包和前端集成都是开源的,允许在你自己的基础设施上部署。
  • 除非明确启用,否则数据库内容绝不会发送到 LLM。
  • 通过增强训练数据持续改进。
  • 在 Jupyter Notebooks、Slackbots、Web 应用、Streamlit 应用中使用 Vanna,甚至可以将其集成到你自己的 Web 应用中。

VannaAI 让查询数据库就像进行对话一样简单,这对于技术和非技术用户来说都是一个游戏规则改变者。

All Hands - 面向开发者的开源 Agent

All Hands 是一个面向 AI 开发者 Agent 的开源平台,能够构建项目、添加功能、调试等等。 All Hands 与 Devin 竞争,最近以 53% 的准确率位居 SWE-bench 排行榜榜首。

11 款提升开发效率的 Vibe Coding 工具
All Hands AI

主要特点:

  • 通过交互式 GUI、命令行界面 (CLI) 或无交互模式(如无头执行和 GitHub Actions)使用 All Hands。
  • 开源自由,在 MIT 许可下构建,确保 AI 技术对所有人开放。
  • 处理复杂的任务,从代码生成到调试和问题修复。
  • 与 Invariant Labs 等 AI 安全专家合作开发,以平衡创新和安全性。

要开始使用,请安装 Docker 26.0.0+ 并使用提供的 Docker 命令运行 OpenHands。 运行后,配置你的 LLM 提供商并开始使用 AI 驱动的协助进行编码。

Continue - 领先的 AI 驱动代码助手

你肯定听说过 Cursor IDE,这个流行的 AI 驱动 IDE;Continue 与它类似,但在 Apache 许可下是开源的。 它高度可定制,允许你添加任何语言模型进行自动补全或聊天。

这可以极大地提高你的工作效率。 你可以将 Continue 添加到 VS Code 和 JetBrains 中。

11 款提升开发效率的 Vibe Coding 工具
Continue AI

主要特点:

  • Continue 在你输入时自动补全任何编程语言的单行或整个代码段。
  • 附加代码或其他上下文以询问有关函数、文件、整个代码库等方面的问题。
  • 选择代码段并按键盘快捷键从自然语言重写代码。
  • 与 Ollama、OpenAI、Together、Anthropic、Mistral、Azure OpenAI Service 和 LM Studio 配合使用。
  • 支持代码库、GitLab Issues、文档、方法、Confluence 页面、文件。
  • 支持数据块、Docs 块、规则块、MCP 块、Prompts 块。

Wave - 带有本地 LLM 的终端

Wave 终端引入了 BYOLLM(Bring Your Own Large Language Model),允许用户将自己的本地或基于云的 LLM 集成到他们的工作流程中。

它目前支持 Ollama、LM Studio、llama.cpp 和 LocalAI 等本地 LLM 提供商,同时也支持使用任何与 OpenAI API 兼容的模型。

11 款提升开发效率的 Vibe Coding 工具
Wave

主要特点:

  • 使用本地或基于云的 LLM,包括与 OpenAI 兼容的 API。
  • 将 LLM 驱动的响应无缝集成到你的终端工作流程中。
  • 在设置或通过 CLI 设置 AI Base URL 和 AI 模型。
  • 计划支持 Gemini 和 Claude 等商业模型。

Warp Terminal - Agent 模式(非开源)

继 WaveTerm 之后,我们在 AI 驱动的终端领域有了另一个强大的竞争者:Warp Terminal。

我个人使用它,所以可能听起来有点偏颇。 😋 它本质上是一个 AI 驱动的助手,可以理解自然语言,执行命令,并交互式地解决问题。

你无需手动查找命令或在文档之间切换,只需用语言描述任务,让 Agent 模式引导你完成。

11 款提升开发效率的 Vibe Coding 工具
Warp Terminal

主要特点:

  • 无需记住复杂的 CLI 命令,只需输入你想要的内容,例如“使用 SSL 设置 Nginx 反向代理”,Agent 模式将处理详细信息。
  • 遇到“端口 3000 已在使用”的错误?只需输入“修复它”,Warp 将建议运行 kill $(lsof -t -i:3000)。 如果这不起作用,它会自动调整方法。
  • 与 Git、AWS、Kubernetes、Docker 以及任何其他具有 CLI 的工具无缝协作。 如果它不知道某个命令,你可以告诉它阅读帮助文档,它会立即学会如何使用该工具。
  • 未经你的许可,Warp 不会将任何内容发送到云端。 在运行每个命令之前,你需要批准,并且只有在明确允许的情况下,它才会读取输出。

看起来 Warp 正在从传统的 AI 辅助终端转向交互式 AI 驱动的 Shell,这使得命令行更加直观。

Pieces : IDE 的 AI 扩展(非开源)

Pieces 本身不是代码编辑器,而是一个 AI 驱动的扩展,通过实时智能和记忆来增强 VS Code、Sublime Text、Neovim 等许多 IDE 的功能。

其突出特点是长期记忆 Agent,它可以捕获长达 9 个月的编码上下文,帮助你即使长时间中断后也能无缝地恢复工作。

一切都在本地运行,以确保完全隐私。 它理解你的代码,回忆代码片段,并轻松融入你的开发工具,从而消除上下文切换。

目前它是免费的,并承诺永远提供免费套餐,但他们很快就会开始收费,所以早期访问可能会带来额外的好处。

11 款提升开发效率的 Vibe Coding 工具
Pieces IDE

主要特点:

  • 存储 9 个月的本地编码上下文。
  • 与 Neovim、VS Code 和 Sublime Text 集成。
  • 完全设备上的 AI,零数据共享。
  • 通过 Pieces Copilot 提供上下文感知的建议。
  • 使用 Pieces Drive 组织和共享代码片段。
  • 承诺永远提供免费套餐,并为早期采用者提供额外好处。

Aidermacs: Emacs的 AI 辅助编码

MatthewZMD 的 Aidermacs 专为 Emacs 高级用户而设计,他们希望获得那种很棒的 Cursor 风格 AI 体验,但又不想离开他们心爱的终端。

它是开源工具 Aider 的前端,将强大的结对编程带入 Emacs,同时完全尊重其工作流程和哲学。

无论你使用的是 GPT-4、Claude 还是 DeepSeek,Aidermacs 都会自动检测你可用的模型,并允许你在 Emacs 中直接与它们聊天。 而且,是的,它高度可定制,就像所有优秀的 Emacs 工具一样。

11 款提升开发效率的 Vibe Coding 工具
Aidermacs

主要特点:

  • 将 Aider 集成到 Emacs 中进行协作编码。
  • 智能模型选择,支持 OpenAI、Anthropic、Gemini 等。
  • 内置 Ediff,用于比较 AI 生成的更改。
  • 细粒度的文件控制:编辑、只读、暂存区和外部文件。
  • 完全主题感知,与 Emacs 原生 UI 集成。
  • 通过 vterm 在终端中良好运行,支持基于主题的颜色。

Jeddict AI Assistant

这款工具是为 Java 开发者准备的,它是 Apache NetBeans 的一个插件。 我记得以前在学校用过 NetBeans,如果那时候就有这些 AI 功能,我敢肯定我的计算机科学实践课肯定能拿高分。

这不是普通的自动补全工具。 Jeddict AI Assistant 将完整的 AI 集成带入你的 IDE:更智能的代码建议、上下文感知的文档、SQL 查询帮助,甚至是提交消息。

如果你正在处理大型 Java 项目,并且想要一个能真正理解你代码中正在发生什么事情的 AI,这款工具特别有用。

11 款提升开发效率的 Vibe Coding 工具
Jeddict AI Assistant

主要特点:

  • 使用 OpenAI、DeepSeek、Mistral 等提供智能的内联代码补全。
  • 具备项目/类/包完整上下文的 AI 聊天。
  • 只需一个快捷键即可创建和改进 Javadoc。
  • 通过 AI 提示重命名变量、重构方法和修正语法错误。
  • 在数据库面板中提供 SQL 查询协助和内联补全。
  • 根据你的差异自动生成 Git 提交消息。
  • 自定义规则、文件上下文预览和实验性的编辑器内更新。
  • 完全可定制的 AI 提供商设置(也支持 LM Studio、Ollama、GPT4All!)。

Amazon CodeWhisperer

如果你的编码工作主要围绕 AWS 服务,那么 Amazon CodeWhisperer 可能是你理想的 AI 驱动助手。

虽然它像其他 AI 编码工具一样工作,但其真正的优势在于与 AWS SDK,Lambda、S3 和 DynamoDB 的深度集成。

CodeWhisperer 针对云原生开发进行了微调,使其成为构建无服务器应用、微服务和基础设施即代码项目的开发者的首选。

由于它支持 Visual Studio Code 和 JetBrains IDE,AWS 开发者可以将其无缝集成到他们的工作流程中,并获得遵循可扩展性和安全最佳实践的 AWS 特定编码建议。

此外,个人开发者可以免费使用,这使其成为独立开发者和初创公司开发者的一个有吸引力的选择。

11 款提升开发效率的 Vibe Coding 工具
Amazon CodeWhisperer

主要特点:

  • 针对 AWS SDK 和云服务优化的代码建议。
  • 内置安全扫描以检测漏洞。
  • 支持 Python、Java、JavaScript 等。
  • 对个人开发者免费。

Qodo AI (原名 Codium)

如果你曾经对免费 AI 编码工具的限制感到沮丧,qodo 可能就是答案。 Qodo 支持包括 Python、Java、C++ 和 TypeScript 在内的 50 多种编程语言,并能顺畅地与 Visual Studio Code、IntelliJ 和 JetBrains IDE 集成。

它提供智能自动补全、函数建议,甚至代码文档生成,使其成为适用于各种规模项目的多功能工具。

虽然它可能不具备付费替代品的一些高级功能,但其零成本访问使其成为注重预算的开发者的游戏规则改变者。

11 款提升开发效率的 Vibe Coding 工具
Qodo AI (原名 Codium)

主要特点:

  • 无限制的免费代码补全,没有任何限制。
  • 支持 50 多种编程语言,包括 Python、Java 和 TypeScript。
  • 与 Visual Studio Code 和 JetBrains 等流行 IDE 配合使用。
  • 轻量且响应迅速,确保流畅的编码体验。

结论

毫无疑问,随着时间的推移,我们将看到更多的 AI 辅助编码占据中心地位。 正如 Anthropic 首席执行官 Dario Amodei 所说,AI 将在六个月内编写 90% 的代码,并可能在一年内完全自动化软件开发。

这是否是一个令人兴奋的飞跃,还是一个令人恐惧的想法,取决于你对你的 AI 结对程序员的信任程度。

如果你正在深入研究这些工具,我强烈建议你温习一下编码基础知识和版本控制。 AI 可以为你编写命令,但如果你不知道它在做什么,你可能会在几秒钟内从“我刚刚构建下一个价值数十亿美元的 SaaS!变成“为什么我的 AI Agent 刚刚删除了我的整个代码库?”。

无论你是一位经验丰富的开发者,还是一个喜欢在终端中输入酷炫东西的人,这些工具都将提升你的水平。

🔲 ☆

ChatGPT 冲击美国教育界教师每周可少 6 个工时

ChatGPT 冲击美国教育界教师每周可少 6 个工时

ChatGPT 应用越来越普及,盖洛普(Gallup )和沃尔顿家族基金会 25 日公布调查,60% 美国 K-12 公立学校老师上学年用 AI 工具教学,高中教育工作者和新老师使用率更高。

每周用 AI 工具的老师估计能少 6 小时出考卷、制定工作计划、做文案、批改作业和一般文书的时间。调查涵盖全美超过 2,000 名教师,显示 AI 有助缓解老师职业倦怠问题。

「AI 对我来说是游戏规则改变者」,数学老师 Ana Sepúlveda 表示她叫 ChatGPT 将所有内容翻成西班牙文,「它帮助我做教案、与家长沟通和提高学生参与度」,全美教育界人员用 AI 协助出考卷与表格、做文案、帮忙改作业并减少一般文书,许多人表示工作表现更佳。

约 80% 用 AI 工具的老师说制作表格、评估、测验或行政时间都减少。约 60% 用 AI 工具的老师认为修改学生作业或回馈学生的品质都有提高。休士顿地区高中社会科老师Mary McCarthy 表示,「AI 改变我的教学方式,也改变我的周末,让我工作生活平衡。」

约 24 州制定州级 AI 指导原则,但学校和老师应用程度不均。佛罗里达大学教育技术和计算机科学教育副教授 Maya Israel 说:「我们要确保 AI 不会取代老师的标准在哪。」老师用聊天机器人打分数时应知道这些工具适合「低层次」评量如选择题,但需要细致评估时效果较差。

2022 年底 ChatGPT 推出后,教育界对 AI 看法发生大转变。全国学校最初禁用,但许多学校考虑纳入教学。学生过度使用和误用仍普遍,约一半老师担心学生常用 AI 会降低青少年批判性和独立思考,或解决问题时缺乏坚持精神。

Gallup 研究顾问 Andrea Malek Ash 指出,科技可能有助缓解老师职业倦怠。 McCarthy 强调老师有责任正确引导学生使用 AI 工具,「如果我站在『AI 是坏的,孩子会变笨』角度,不教他们如何使用新工具,确实会如此。身为教室里的成年人,我有责任帮助他们弄清楚如何驾驭未来。」

🔲 ☆

如何在 Linux 终端检查网卡速度

如何在 Linux  终端检查网卡速度

在 Linux 系统中,检查网络接口(NIC)的速度和状态是网络故障排查或性能优化的常见任务。本教程将介绍如何使用终端命令快速检查网卡的速度、双工模式和其他相关信息。

为什么需要检查网卡速度?

了解网卡的运行速度(例如10 Mbps、100 Mbps、1 Gbps或更高)以及是否以全双工或半双工模式运行,可以帮助你:

  • 确认网络连接是否达到预期性能。
  • 诊断网络瓶颈或连接问题。
  • 验证网卡是否正确配置以支持你的网络环境。

以下是几种在 Linux 终端中检查网卡速度的简单方法。

使用 ethtool

ethtool 是一个功能强大的工具,用于显示和配置网络接口的设置。它通常需要安装,但许多 Linux 发行版默认包含它。

安装 ethtool

如果你还没有安装 ethtool,可以使用以下命令安装:

  • Ubuntu/Debian
sudo apt update
sudo apt install ethtool
  • Fedora
sudo dnf install ethtool
  • Arch Linux
sudo pacman -S ethtool

检查网卡速度

确定你的网络接口名称。运行以下命令列出所有接口:

ip link

输出示例:

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN mode DEFAULT group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP mode DEFAULT group default qlen 1000
    link/ether 00:1a:2b:3c:4d:5e brd ff:ff:ff:ff:ff:ff

在此例中,网卡名称为 eth0

使用 ethtool 检查 eth0 接口状态:

sudo ethtool eth0

输出示例:

Settings for eth0:
    Supported ports: [ TP ]
    Supported link modes:   10baseT/Half 10baseT/Full
                            100baseT/Half 100baseT/Full
                            1000baseT/Full
    Supported pause frame use: No
    Supports auto-negotiation: Yes
    Advertised link modes:  10baseT/Half 10baseT/Full
                            100baseT/Half 100baseT/Full
                            1000baseT/Full
    Advertised pause frame use: No
    Advertised auto-negotiation: Yes
    Speed: 1000Mb/s
    Duplex: Full
    Port: Twisted Pair
    PHYAD: 1
    Transceiver: internal
    Auto-negotiation: on
    MDI-X: on (auto)
    Supports Wake-on: pumbg
    Wake-on: g
    Current message level: 0x00000007 (7)
                           drv probe link
    Link detected: yes

关键信息:

  • Speed:网卡当前运行速度(例如,1000Mb/s 表示 1 Gbps)。
  • Duplex:双工模式(Full 表示全双工,Half 表示半双工)。
  • Link detected:表示是否检测到网络连接(yes 表示已连接)。

使用 nmcli

nmcli 是 NetworkManager 的命令行工具,适用于使用 NetworkManager 管理网络的系统。它提供了一种更简单的方式来检查网卡状态。

检查所有网络连接:

nmcli device status

输出示例:

DEVICE  TYPE      STATE         CONNECTION
eth0    ethernet  connected     Wired connection 1
lo      loopback  unmanaged     --

确保你的网卡(例如,eth0)状态为 connected

查看详细连接信息:

nmcli device show eth0

输出示例:

GENERAL.DEVICE:                         eth0
GENERAL.TYPE:                           ethernet
GENERAL.HWADDR:                         00:1A:2B:3C:4D:5E
GENERAL.MTU:                            1500
GENERAL.STATE:                          100 (connected)
GENERAL.CONNECTION:                     Wired connection 1
GENERAL.CON-PATH:                       /org/freedesktop/NetworkManager/ActiveConnection/1
WIRED-PROPERTIES.CARRIER:               on
IP4.ADDRESS[1]:                         192.168.1.100/24
IP4.GATEWAY:                            192.168.1.1
IP4.DNS[1]:                             8.8.8.8
IP6.ADDRESS[1]:                         fe80::1a:2bff:fe3c:4d5e/64

注意:nmcli 可能不会直接显示速度,但可以确认连接状态。

如果需要速度信息,可以结合 ethtool 或查看 NetworkManager 日志。

使用 cat /sys/class/net

Linux 的 /sys/class/net 目录包含网络接口的详细信息。你可以直接查看特定文件以获取速度信息。

检查 eth0 接口速度:

cat /sys/class/net/eth0/speed

输出示例:

1000

这表示网卡以 1000 Mbps(1 Gbps)运行。

检查双工模式:

cat /sys/class/net/eth0/duplex

输出示例:

full

表示全双工模式。

如果网卡未连接,speed 文件可能返回 Invalid argument 错误。

使用 dmesg 查看内核日志

内核日志有时会记录网卡初始化时的速度和状态信息。

过滤与网卡相关的日志:

dmesg | grep eth0

输出示例:

[    2.345678] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx

这表明网卡以 1000 Mbps 全双工模式运行。

故障排除提示

  • ethtool 命令未找到:确保安装 ethtool,否则使用其他方法。
  • 无速度信息:如果 ethtool/sys/class/net 未显示速度,检查网卡是否已连接(Link detected: yes)。
  • 旧硬件:某些老旧网卡可能不支持自动协商,导致速度信息不准确。
  • 权限问题:某些命令需要 sudo 权限才能访问网卡详细信息。

总结

检查网卡速度是 Linux 网络管理的重要部分。以下是推荐方法:

  • 首选ethtool,提供最详细的信息。
  • 简单选项nmcli,适用于 NetworkManager 用户。
  • 快速检查/sys/class/net 目录,适合脚本或自动化。
  • 备用方法dmesg,用于查看历史日志。

通过这些工具,你可以轻松监控网卡性能并确保网络配置正确。

🔲 ☆

Gemini CLI 简介与安装指南

Gemini CLI 简介与安装指南

Gemini CLI 是一个由谷歌开发的创新开源命令行界面(CLI)工具,旨在将 Gemini AI 模型的强大功能直接带入您的终端。

对于开发者、DevOps 专业人士或喜爱命令行操作的用户来说,这款工具是一个颠覆性的存在。无论是编写代码、自动化任务还是生成内容。

Gemini CLI 都能无缝融入您的工作流程。本教程将介绍 Gemini CLI 是什么、其主要功能,并提供分步安装教程,帮助您快速上手。

Gemini CLI 是什么?

Gemini CLI 是一个免费的开源 AI 工具,允许用户通过终端直接与谷歌的 Gemini 2.5 Pro 模型交互。它专为喜欢命令行效率的开发者设计,拥有高达 100 万 token 的上下文窗口,能够处理复杂任务,如代码分析、调试、自动化和创意内容生成。

它还集成了 Google 搜索和模型上下文协议(MCP),使其在多种应用场景中表现出色。

Gemini CLI 的主要功能

  • 代码理解与生成:分析大型代码库、编写代码并调试问题,使用自然语言提示。
  • 多模态功能:利用谷歌的 Imagen 和 Veo 模型生成图像或视频,或处理 PDF 等文档。
  • 自动化与工作流整合:直接从终端自动化重复性任务,如 Git 操作或 DevOps 工作流。
  • Google 搜索整合:通过实时网络数据支持查询,提供准确且最新的响应。
  • 开源且免费:采用 Apache 2.0 许可证,完全透明,免费提供每分钟 60 次请求和每天 1000 次请求的配额。
  • 跨平台支持:支持 Windows、macOS 和 Linux,适合所有开发者使用。

为什么使用 Gemini CLI?

对于开发者来说,终端是生产力的核心。Gemini CLI 通过提供 AI 驱动的协助功能增强了这一环境,无需离开命令行。

无论是排查错误、生成测试用例还是创建项目文档,Gemini CLI 就像一位资深开发者在您身边,提供上下文相关的解决方案。其开源特性允许社区贡献,确保持续改进和透明度。

如何安装 Gemini CLI

安装 Gemini CLI 简单快捷,只需几分钟即可完成。以下是在 Windows、macOS 或 Linux 上的安装步骤。

前提条件

在安装 Gemini CLI 之前,请确保您已准备好:

  • Node.js(18 或更高版本):从 nodejs.org 下载并安装。
  • 谷歌账户:需要用于身份验证以访问免费的 Gemini Code Assist 许可。
  • 终端访问:使用命令行界面,如 Bash、PowerShell 或终端。
  • 可选的 API 密钥:如需更高使用限制,可从 Google AI Studio 生成密钥。

安装教程

安装 Node.js

  • 访问 nodejs.org,下载适合您操作系统的安装程序。
  • 按照提示完成 Node.js 安装。
  • 通过以下命令验证安装:
node -v

命令将显示安装的版本(例如,v22.17.0)。

安装 Gemini CLI

  • 打开终端或 PowerShell(在 Windows  如需必要以管理员身份运行)。
  • 使用 npm 全局安装 Gemini CLI,运行以下命令:
npm install -g @google/gemini-cli

或者,您可以无需全局安装直接尝试:

npx https://github.com/google-gemini/gemini-cli

谷歌身份验证

  • 运行以下命令启动 Gemini CLI:
gemini
  • 首次运行时,系统会提示您选择主题并进行身份验证。
  • 选择“使用谷歌登录”以获取免费配额(每分钟 60 次请求,每天 1000 次请求),并使用您的谷歌账户登录。
  • 或者,设置 API 密钥以获得更高限制:
export GEMINI_API_KEY="您的 API 密钥"

您的 API 密钥 替换为从 Google AI Studio 获取的密钥。在 Windows ,使用:

setx GEMINI_API_KEY "您的 API 密钥"

验证设置

  • 身份验证完成后,在终端中输入 gemini 启动交互式 CLI。
  • 测试一个简单的命令:
gemini "你好,Gemini!"

如果收到响应,说明您的设置已完成!

安装问题排查

  • 未找到 Node.js:确保已安装 Node.js 并添加到系统 PATH 中。运行 node -v 确认。
  • 身份验证错误:如果谷歌登录失败,尝试使用 API 密钥或检查网络连接。如果网络不稳定,Gemini CLI 可能回退到 gemini-2.5-flash 模型。
  • 权限问题:在 Windows 上,以管理员身份运行 PowerShell;在 Linux/macOS 上,如有提示使用 sudo
  • 代理问题:如果您使用代理,配置 npm:
npm config set proxy http://您的代理:端口
npm config set https-proxy http://您的代理:端口

开始使用 Gemini CLI

安装完成后,您可以使用 Gemini CLI 执行各种任务。以下是一些示例:

代码生成

gemini "使用 HTML、CSS 和 JavaScript 创建一个简单的待办事项应用"

这将生成一个完整的待办事项应用并附带说明。

调试

gemini "解释此文件中的错误" @src/main.js

附加文件以分析和修复错误。

自动化

gemini "总结过去 7 天的 Git 历史"

生成最近项目变更的报告。

内容生成

gemini --preset summary --web "https://news-site.com/article"

使用内置预设总结网页内容。

使用 Gemini CLI 的最佳实践

保护您的 API 密钥:将其存储在安全的配置文件中(例如,~/.local/etc/.env),并设置限制性权限:

mkdir -p ~/.local/etc
echo 'GEMINI_API_KEY="您的 API 密钥"' > ~/.local/etc/.env
chmod 600 ~/.local/etc/.env

使用清晰的提示:为获得最佳结果,清晰且具体地表述您的查询。

利用预设:使用内置预设,如 summarysentimenttable,处理特定任务。

为社区贡献:Gemini CLI 是开源的,可在 GitHub 上报告问题或提出功能建议。

结论

Gemini CLI 是一个强大、免费且开源的工具,将您的终端转变为 AI 驱动的助手。凭借其在编码、自动化和内容生成方面的能力,它是提升开发者生产力的必备工具。

按照上述安装步骤,您可以在几分钟内开始使用 Gemini CLI。探索其功能,尝试自然语言提示,并加入开源社区,让它变得更强大!

🔲 ☆

谷歌 Gemini CLI 工具入门教程

谷歌 Gemini CLI 工具入门教程

本教程概述 Gemini CLI 的主要命令,这是一个由谷歌开发的强大命令行界面工具,用于与 Gemini 服务交互。无论您是开发者还是技术爱好者,本教程将帮助您理解并有效使用 Gemini CLI。以下内容将介绍主要命令、用法和实际示例,助您快速上手。

Gemini CLI 简介

Gemini CLI 是一个多功能工具,旨在简化与谷歌 Gemini 服务的交互。它允许用户通过终端直接执行命令,非常适合自动化任务、管理配置和高效访问 Gemini 功能。本指南基于官方文档,为初学者和中级用户提供简化的命令说明。

前提条件

在使用 Gemini CLI 之前,请确保您已准备好:

  • 安装 Gemini CLI:按照官方 Gemini CLI GitHub 仓库 的安装说明进行操作。
  • API 密钥:从您的 Gemini 账户获取有效的 API 密钥以进行身份验证。
  • 终端访问:在您的操作系统上使用命令行界面(如 Bash、PowerShell 或终端)。

主要命令

以下是 Gemini CLI 的主要命令,以及其描述和示例。

gemini init

描述:初始化 Gemini CLI 配置,设置必要的环境变量和身份验证凭据。

用法

gemini init

示例

$ gemini init
请输入您的 Gemini API 密钥:[您的 API 密钥]
配置已保存至 ~/.gemini/config.yaml

此命令会提示您输入 API 密钥,并创建一个配置文件以安全存储您的凭据。

gemini version

描述:显示系统中安装的 Gemini CLI 的当前版本。

用法

gemini version

示例

$ gemini version
Gemini CLI 版本 1.2.3

使用此命令验证您是否在使用最新版本的 CLI。

gemini auth

描述:管理身份验证设置,允许您更新或刷新 API 密钥。

用法

gemini auth [选项]

选项

  • --update:更新现有的 API 密钥。
  • --clear:清除当前的身份验证设置。

示例

$ gemini auth --update
请输入新的 API 密钥:[新 API 密钥]
身份验证更新成功。

当您的 API 密钥过期或需要更改时,此命令非常有用。

gemini query

描述:向 Gemini 服务发送查询并获取响应。

用法

gemini query [查询字符串]

示例

$ gemini query "法国的首都是哪里?"
响应:法国的首都是巴黎。

这是与 Gemini 查询处理功能交互最常用的命令之一。

gemini config

描述:查看或修改 Gemini CLI 的配置设置。

用法

gemini config [选项]

选项

  • --view:显示当前配置。
  • --set:设置特定的配置参数(例如,端点 URL)。

示例

$ gemini config --view
API 密钥:[您的 API 密钥]
端点:https://api.gemini.google.com/v1

使用此命令检查或更新您的配置设置。

gemini help

描述:显示 Gemini CLI 的帮助信息,包括可用命令及其描述。

用法

gemini help

示例

$ gemini help
可用命令:
  init    初始化 Gemini CLI 配置
  version 显示 CLI 版本
  auth    管理身份验证
  query   向 Gemini 发送查询
  config  管理配置设置
  help    显示此帮助信息

此命令是探索 CLI 功能的绝佳起点。

使用 Gemini CLI 的最佳实践

  • 保护您的 API 密钥:切勿公开分享您的 API 密钥或将其存储在不安全的位置。
  • 检查更新:定期运行 gemini version 以确保使用最新版本的 CLI。
  • 使用帮助命令:如有疑问,使用 gemini help 探索可用命令和选项。
  • 测试查询:从简单的 gemini query 命令开始,熟悉工具的响应。

常见问题排查

  • 身份验证错误:如果遇到身份验证问题,运行 gemini auth --update 刷新您的 API 密钥。
  • 配置问题:使用 gemini config --view 验证您的设置,确保配置了正确的端点。
  • 命令未找到:确保 Gemini CLI 已正确安装并添加到系统 PATH

结论

Gemini CLI 是一个强大的工具,可通过命令行与谷歌 Gemini 服务交互。通过掌握上述命令,您可以高效地管理配置、进行身份验证并查询 Gemini 服务。欲了解更多详细信息,请参阅官方 Gemini CLI 文档

❌