Wednesday, May 20, 2026
今日AI领域迎来重大动态:**Karpathy宣布加入Anthropic**([#item-twitter-com-karpathy-status-2056753169888334312]),同时**Google发布Gemini 3.5**([#item-blog-google-innovation-and-ai-models-and-research-gemini-mod]),并宣布进入Agentic Gemini时代([#item-blog-google-innovation-and-ai-sundar-pichai-io-2026])。研究方面,**ICRL框架**([#item-arxiv-org-abs-2605-15224])通过强化学习内化自我批评,而**CHI-Bench**([#item-arxiv-org-abs-2605-16679])评估AI代理在医疗工作流中的自动化能力。工具更新亮点包括**CLI-Anything**([#item-github-com-HKUDS-CLI-Anything])让软件支持Agent原生交互,以及**codegraph**([#item-github-com-colbymchenry-codegraph])实现预索引代码知识图谱。观点洞察指出,**Gemini 3.5 Flash**([#item-techcrunch-com-2026-05-19-with-gemini-3-5-flash-google-bets-])被押注为AI代理新浪潮,可为企业每年节省超10亿美元成本([#item-venturebeat-com-technology-google-says-gemini-3-5-flash-can-])。
> Headlines & Launches
Google发布Gemini 3.5,前沿智能与行动能力。
Google I/O 2026主题演讲:进入Agentic Gemini时代。
Google I/O发布Gemini 3.5 Flash,计划全面采用。
Google 25年来首次重新设计搜索框,集成AI生成答案。
Google I/O宣布Gemini 3.5 Pro推迟发布,引发不满。
Google为搜索、YouTube和Docs推出AI工具。
OpenAI加强AI检测与标注,扩展C2PA凭证。
Mistral AI收购Emmi AI,强化工业AI能力。
> Research & Innovation
ICRL:通过强化学习内化自我批评,提升智能体纠错能力。
研究LLM智能体系统中技能的规模定律。
CHI-Bench评估AI代理自动化医疗工作流的能力。
KV cache量化基准测试,评估TurboQuant、TCQ等方法的性能。
SDOF通过状态约束调度减少多智能体编排中的对齐损失。
SkillSmith将智能体技能编译为边界引导的运行时接口。
NOVA探讨AI通过迭代自我改进发现新知识的基本极限。
NVIDIA发布Nemotron-Labs-Diffusion,支持AR和扩散并行解码。
构建工具实时可视化GPT-2生成时的概念激活3D图,探索机械可解释性。
SANA:高效高分辨率图像合成,线性扩散Transformer。
实证研究:提升LLM心理理论能力是否真正改善人机交互。
CAX-Agent:用于可靠APDL自动化的轻量级智能体框架。
NIMO Controller:基于MCP协议的自驱动实验室编排器。
PQR框架生成多样真实查询以引发QA智能体失败。
无反向传播的Pong游戏:分布Hebbian可塑性接近PPO性能。
LLM在高风险决策中输出公平但内部存在潜在偏见。
可验证智能体基础设施:基于证明的授权用于主权AI系统。
SKG-Eval:基于增量语义知识图谱的多轮对话评估。
研究LLM中的语言习得装置,探讨数据效率。
声称新SOTA 1B模型HRM-text,但基准测试结果存疑。
提出DeepSlide,用AI从工件生成演示文稿,优化幻灯片生成。
超越情感分类:文本情感强度评估的生成框架。
基于检索的多标签法律注释方法,减少幻觉。
> Engineering & Resources
Google押注Gemini 3.5 Flash推动AI代理而非聊天机器人。
CLI-Anything:让所有软件支持Agent原生交互。
AI编码Agent持久记忆系统,基于真实基准测试。
预索引代码知识图谱,减少token和工具调用,100%本地。
Anthropic为Claude Managed Agents添加自托管沙箱和MCP隧道。
字节跳动发布3B参数统一多模态模型Lance。
Claude Code学术研究技能集:研究→写作→审阅→修订→定稿。
Agent技能框架与软件开发方法论。
基于Karpathy观察的Claude Code行为改进配置。
Google I/O 2026 13大AI公告汇总。
Gemini 3.5 Flash可为企业AI每年节省超10亿美元。
用4张RTX 2080 Ti本地运行DeepSeek-V4,实现255 tok/s预填充。
antirez发布DeepSeek 4 Flash本地推理引擎,支持Metal。
Forge开源工具将8B模型在智能体任务上准确率从53%提升至99%。
提出构建生产级 LLM 应用的12条原则。
CLI代理减少LLM token消耗60-90%,单Rust二进制。
AI模式在美国搜索中的使用情况一年回顾。
Google Workspace新增语音功能等AI更新。
Google AI订阅服务更新,推出100美元套餐。
OlmoEarth v1.1发布,更高效的模型系列。
Google AI Edge Gallery更新,支持Gemma 4多token预测、Pixel TPU、MCP等。
Hugging Face开源ML工程师项目,自动读论文、训练模型。
Agentic视频生成:导演、编剧、制片、视频生成一体。
多Agent AI代理平台,包含前端、Reddit等专用Agent。
OpenAI采用Google SynthID水印技术验证AI图像。
如何使用Google新AI代理进行高级搜索。
创始人融资2800万美元,用AI对抗网络钓鱼。
开源工具用 LLM 生成带功能部件的3D物体。
llama.cpp更新以支持多token预测(MTP)改进。
HeyGen 发布 Hyperframes,用 HTML 生成视频,面向 AI agent。
如何在前沿实验室获得工作(预训练方向)的讨论。
Google I/O 2026实时博客,涵盖Gemini和智能眼镜更新。
创始人从提示工程转向构建AI系统。
免费使用Claude Code的终端/VSCode/Discord工具。
Anthropic官方Claude Code插件目录。
Unsloth Studio:本地训练和运行开源模型的Web UI。
讨论表格基础模型(如TabPFN-3)的性能和前景。
介绍如何用LLM提示工程学习TLA+形式化验证。
Firefox将“摇动总结”功能扩展到Android。
AI agent 执行危险命令的社区讨论。