2026-W18 Overview
本周 AI 代码编辑器生态迎来多项重要更新。Cursor 推出了全新的 Agents Window 界面和 SDK,标志着 IDE 向多代理并行协作方向演进。Windsurf 将 Devin 代理深度集成,并推出更高效的 Devin Local 代理。Claude Code 和 Gemini CLI 也发布了多个版本,持续优化稳定性和功能。值得注意的是,腾讯云 CodeBuddy 宣布大幅涨价,反映了 AI 算力成本上升的趋势。整体来看,AI 编程工具正从单线程辅助向多代理、平台化方向快速发展。
Editor Updates
Week-over-Week Overview
IDE
CLI / Plugin
IDE
Cursor
IDE- •推出基于 Agents Window 的新界面,支持并行运行多个代理。
- •引入平铺布局,可在本地、云端和远程 SSH 中运行代理。
- •更可靠的语音听写功能。
- •新增文件搜索过滤器,支持更精确的代码范围限定。
- •发布 Cursor SDK,允许构建基于 Cursor 运行时的程序化代理。
Cursor 本周发布了重大更新,推出了全新的 Agents Window 界面,支持在平铺布局中并行运行多个代理,并增强了语音听写和文件搜索功能。此外,还发布了 Cursor SDK,允许开发者构建程序化代理,并推出了安全审查功能的 Beta 版。
Windsurf
IDEv2.1.32- •Devin 现已集成到终端,所有用户可使用现有订阅。
- •新增 Devin Local 代理,比现有 Cascade 代理节省高达 30% 的 Token。
- •支持 Claude Opus 4.7 模型。
- •修复了切换 Cascade 对话时的崩溃问题。
- •修复了 Devin Cloud 会话的认证问题。
Windsurf 本周将 Devin 代理集成到终端和编辑器中,推出了更高效的 Devin Local 代理,并支持 Claude Opus 4.7 模型。同时修复了多个关键 Bug,提升了稳定性。
Trae
IDEv3.5.52- •发布 v3.5.52 热修复版本,修复已知问题。
- •v3.5.52 之前的版本为功能发布。
Trae 本周发布了 v3.5.52 热修复版本,主要修复了已知问题,未带来重大功能更新。
Augment
IDE0.457.5-beta- •Intent 0.3.4 发布,重构了核心逻辑并优化了新用户设置流程。
- •代理在内存压力下更具弹性,不再被中途终止。
- •终端标题现在会进行清理,防止凭据泄露。
- •支持粘贴图片 (Cmd+V)。
- •Shell 工具现在支持 sh,TUI 使用配置的 shell 执行异步命令。
Augment 本周发布了 Intent 0.3.4 版本,进行了重大重构并优化了新用户体验。同时增强了代理的稳定性、安全性和 Shell 支持,并增加了图片粘贴功能。
CLI
Claude Code
CLI / Plugin2.1.126- •本周发布了多个版本,包括 v2.1.126、v2.1.124、v2.1.123 等。
- •更新包含更智能的模型选择、项目清理工具和更强的权限处理。
- •改进了 OAuth 登录、Windows 和 PowerShell 的兼容性。
- •提升了 MCP 和插件工作流的速度。
- •新增技能搜索框和更丰富的钩子功能。
Claude Code 本周发布了多个版本,带来了更智能的模型选择、更强的权限处理以及大量稳定性、UI 和安全性的改进。MCP 和插件工作流的速度也得到了提升。
Gemini CLI
CLI / Pluginv0.41.0-preview.1- •发布 v0.41.0-preview.1 和 v0.40.1 补丁版本。
- •v0.41.0-preview.0 新增安全的 .env 加载和 headless 模式下的工作区信任。
- •v0.41.0-preview.0 增强 Shell 命令验证并添加核心工具允许列表。
- •v0.40.0 正式版发布,捆绑 ripgrep 二进制文件以支持离线。
- •v0.40.0 修复了 YOLO 模式被降级的问题。
Gemini CLI 本周发布了多个版本,包括 v0.40.0 正式版和 v0.41.0 预览版。新版本增强了安全性、Shell 命令验证,并捆绑了 ripgrep 以支持离线使用。
OpenCode
CLI / Plugin- •修复了选择服务器对话框的布局问题。
- •修复了侧边栏项目头像的回退逻辑。
- •修复了 WorkspaceAdaptor.create 的类型定义。
- •新增 LLM Gateway 作为提供商。
OpenCode 本周进行了一些小修复和功能增强,包括修复 UI 布局、类型定义,并新增了 LLM Gateway 提供商支持。
Aider
CLI / Plugin本周暂无重大更新
Copilot
CLI / Plugin- •GitHub Copilot for JetBrains IDE 预览版新增内联代理模式。
- •Copilot CLI 新增 Tab 补全功能。
- •Copilot CLI 改进了会话和同步工作流。
- •即将弃用 GPT-5.2 和 GPT-5.2-Codex 模型。
GitHub Copilot 本周为 JetBrains IDE 带来了内联代理模式的预览版,并增强了 CLI 的 Tab 补全和会话管理功能。同时宣布了部分模型的弃用计划。
CodeBuddy
CLI / Plugin2.95.0-next- •发布了多个 2.95.0-next 预发布版本。
- •腾讯云宣布 CodeBuddy 将于 5 月 15 日起涨价,最高涨幅达 154%。
CodeBuddy 本周发布了多个预发布版本,但主要新闻是腾讯云宣布其价格将大幅上涨,最高达 154%,反映了 AI 推理需求的激增。
Company Blogs
Team Marketplace Updates
管理员现在可以在不连接仓库的情况下创建团队市场,并直接在团队市场设置中添加、删除和配置第一方插件的安装行为。
Cursor Security Review
Cursor 安全审查功能在 Teams 和 Enterprise 计划中进入 Beta 阶段,可以运行安全审查员和漏洞扫描器两种始终在线的安全代理。
Build programmatic agents with the Cursor SDK
Cursor 推出 SDK,允许开发者使用与 Cursor 相同的运行时、工具和模型来构建程序化代理。
Join the new AI Agents Vibe Coding Course from Google and Kaggle
Google 与 Kaggle 合作推出新的 AI 代理 Vibe Coding 课程,旨在教授开发者如何利用 AI 代理进行编程。
2026 Vercel AI Accelerator recap
Vercel 回顾了 2026 年 AI 加速器项目,39 支团队在演示日向投资者展示了他们的下一代 AI 应用创意。
Coding Agents Ecosystem
High-signal items tagged coding-agents by the AI Daily pipeline this week — repos, tools, and writeups beyond the 10 tracked editors.
mattpocock/skills
Matt Pocock发布真实工程师的Agent技能集。
HERMES.md in commit messages causes requests to route to extra usage billing
Claude Code中HERMES.md导致额外计费问题。
warpdotdev/warp
Warp是一个基于终端的智能开发环境。
GitHub Copilot is moving to usage-based billing
GitHub Copilot将改为按用量计费。
VS Code inserting 'Co-Authored-by Copilot' into commits regardless of usage
VS Code在提交中自动插入'Co-Authored-by Copilot'引发争议。
obra/superpowers
Superpowers:一个有效的代理技能框架和软件开发方法论。
Show
开源Agent在TerminalBench上超越谷歌官方模型。
Claude Code refuses requests or charges extra if your commits mention "OpenClaw"
Claude Code在提交提及OpenClaw时拒绝请求或额外收费。
Cursor Camp
Cursor推出AI编程训练营Cursor Camp。
abhigyanpatwari/GitNexus
GitNexus:零服务器代码智能引擎,客户端知识图谱。
Alishahryar1/free-claude-code
免费使用Claude Code的终端/VSCode扩展。
gastownhall/beads
Beads:为编程agent提供内存升级。
I implemented meta paper [P]
实现Meta论文Scaling Test-Time Compute for Agentic Coding。
[AINews] Agents for Everything Else: Codex for Knowledge Work, Claude for Creative Work
探讨编码Agent突破限制,以及Claude在创意工作中的应用。
Codex CLI 0.128.0 adds /goal
Codex CLI 0.128.0新增/goal命令,增强AI编程助手功能。
Long-context coding on RTX 5080 16GB: Qwen3.6-35B-A3B holds 30 t/s at 128K (89 t/s fresh), no quality drop
用户测试Qwen3.6-35B-A3B在RTX 5080上长上下文编码,性能良好。
FormalScience: Scalable Human-in-the-Loop Autoformalisation of Science with Agentic Code Generation in Lean
提出FormalScience,用LLM代理在Lean中自动形式化科学推理。
OpenAI Really Wants Codex to Shut Up About Goblins - WIRED
OpenAI试图让Codex避免谈论地精等无关内容。
Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]
Qwen3 4B在代码任务上超越云agent,Mahoraga研究。
Join the new AI Agents Vibe Coding Course from Google and Kaggle
Google与Kaggle推出AI Agents Vibe Coding课程。
Live Rank
| # | Model | Elo | Δ | Org |
|---|---|---|---|---|
| 1 | Claude Opus 4.7 Thinking | 1571 | — | Anthropic |
| 2 | Claude Opus 4.7 | 1561 | — | Anthropic |
| 3 | Claude Opus 4.6 Thinking | 1548 | — | Anthropic |
| 4 | Claude Opus 4.6 | 1543 | — | Anthropic |
| 5 | GLM 5.1 | 1534 | — | Z.ai |
| Model | Resolved % | Org |
|---|---|---|
| live-SWE-agent + Claude 4.5 Opus medium (20251101) | 79.2% | UIUC |
| Sonar Foundation Agent + Claude 4.5 Opus | 79.2% | Sonar |
| TRAE + Doubao-Seed-Code | 78.8% | ByteDance |
| live-SWE-agent + Gemini 3 Pro Preview (2025-11-18) | 77.4% | UIUC |
| Atlassian Rovo Dev (2025-09-02) | 76.8% | Atlassian |
| EPAM AI/Run Developer Agent v20250719 + Claude 4 Sonnet | 76.8% | EPAM Systems, Inc. |
| mini-SWE-agent + Claude 4.5 Opus (high reasoning) | 76.8% | Anthropic |
| ACoder | 76.4% | ACoder |
| mini-SWE-agent + Gemini 3 Flash (high reasoning) | 75.8% | Google DeepMind |
| mini-SWE-agent + MiniMax M2.5 (high reasoning) | 75.8% | Minimax |
| Model | Pass Rate | Δ |
|---|---|---|
| gpt-5 (high) | 88% | — |
| gpt-5 (medium) | 86.7% | — |
| o3-pro (high) | 84.9% | — |
| gemini-2.5-pro-preview-06-05 (32k think) | 83.1% | — |
| o3 (high) | 81.3% | — |
| Model | Pass@1 | Easy | Med | Hard |
|---|---|---|---|---|
| O4-Mini (High) | 87.3% | 98.4% | 92.7% | 71.1% |
| O3 (High) | 84.7% | 99.1% | 89.8% | 66.0% |
| O4-Mini (Medium) | 84.5% | 98.8% | 92.2% | 62.9% |
| DeepSeek-R1-0528 | 84.4% | 99.2% | 90.9% | 63.6% |
| Gemini-2.5-Pro-06-05 | 84.3% | 99.1% | 92.2% | 62.0% |
| Gemini-2.5-Pro-05-06 | 82.7% | 98.8% | 90.6% | 59.4% |
| OpenReasoning-Nemotron-32B | 81.0% | 98.6% | 87.5% | 57.5% |
| EXAONE-4.0-32B | 80.9% | 98.8% | 88.3% | 56.3% |
| Qwen3-235B-A22B | 80.4% | 99.1% | 88.8% | 54.0% |
| XBai-o4-medium | 80.1% | 98.8% | 90.1% | 52.0% |