Friday, May 15, 2026
**AI 今日快报** Anthropic与盖茨基金会达成2亿美元合作,聚焦AI在健康与教育领域的应用[#item-anthropic-com-news-gates-foundation-partnership];Google被曝将在I/O大会发布新Gemini模型,但非前沿版本[#item-sources-news-p-google-about-to-release-new-gemini]。研究方面,新工具BenchJack系统审计AI智能体基准测试漏洞[#item-arxiv-org-abs-2605-12673],并揭示视觉语言模型的可解释失败模式[#item-arxiv-org-abs-2605-12674]。工具更新上,OpenAI将编程助手Codex引入ChatGPT手机应用[#item-axios-com-2026-05-14-openai-brings-codex-to-your-phone],Nous Research发布与用户共同成长的Agent[#item-github-com-NousResearch-hermes-agent]。观点洞察指出,AI笔记工具在医疗场景中频繁出现基本事实错误[#item-theregister-com-ai-ml-2026-05-14-ontario-auditors-find-docto],而Abridge正通过AI将医患对话转化为高效医疗操作系统[#item-latent-space-p-abridge]。
> Headlines & Launches
Anthropic与盖茨基金会达成2亿美元AI合作。
Anthropic与盖茨基金会合作,投入2亿美元用于AI健康与教育。
消息称Google将在I/O发布新Gemini模型,但非前沿模型。
微软开始取消Claude Code许可证。
Synthetic获1000万美元种子轮融资,用于AI记账服务。
> Research & Innovation
系统审计AI智能体基准测试,揭示漏洞并提出BenchJack工具。
揭示视觉语言模型的可解释失败模式,提升安全性。
提出可验证过程监督方法,训练语言模型生成正确答案和合理推理。
用RL训练Qwen3.5自我越狱并利用失败改进防御。
提出持续在线适应框架用于自我改进的基础智能体。
提出验证器引导的动作选择方法,用于具身智能体任务。
提出DisaBench框架,评估语言模型对残疾人群体的危害。
提出分层智能体语言委员会,通过多智能体辩论提升推理。
提出ToolWeave,结构化合成复杂多轮工具调用对话。
提出参考引导的流匹配方法用于生成建模。
提出基于宏动作的多智能体指令跟随方法,通过价值取消实现。
学习可迁移的潜在用户偏好,用于人机对齐决策。
提出以状态为中心的决策过程,用于语言环境中的智能体。
通过共识驱动的偏好优化缓解LLM跨语言文化不一致。
提出TimelineReasoner,利用大型推理模型推进时间线摘要。
提出BoostTaxo,用boosting式agent推理进行零样本分类体系归纳。
提出BEHAVE混合AI框架,实时建模集体人类动态。
改进视觉语言模型在纯文本输入下的校准,弥补缺失模态。
比较扩散语言模型与自回归语言模型生成文本的差异。
提出LLM公平性应通过情境对话行为而非标准化测试评估。
TurboQuant量化方法首次全面研究,FP8 KV缓存量化最佳。
使用RAG和微调实现LLM在聚合物复合材料增材制造中的领域适应。
研究AI聊天机器人如何引发潜在沟通危机。
Qwen3.6 27B INT8量化配方使模型思考更少但正确。
> Engineering & Resources
Nous Research发布hermes-agent,与用户共同成长的Agent。
OpenAI将AI编程助手Codex引入ChatGPT手机应用。
开源个人AI超级智能项目,注重隐私和简洁。
为AI编程代理提供持久记忆的库,基于基准测试。
代理技能框架和软件开发方法论,可工作。
Matt Pocock分享的Claude Code技能集,面向真实工程师。
Claude Code新增'/goals'功能,分离工作与决策。
Ring-2.6-1T万亿参数推理模型发布。
Hugging Face发布ml-intern:开源ML工程师,自动读论文、训练模型。
Garry Tan的Claude Code配置,包含23个CEO/设计/工程等工具。
IBM发布Granite多语言嵌入模型R2,支持32K上下文,Apache 2.0许可。
Scenema Audio发布零样本语音克隆和语音生成模型及推理代码。
NVIDIA发布Kimi2.6和Kimi2.5的NVFP4量化版本。
在LLaMA.cpp上为Qwen实现多令牌预测,性能提升40%。
antirez/ds4:DeepSeek 4 Flash本地推理引擎,支持Metal。
Abridge如何将医患对话转化为医疗操作系统,节省大量时间。
Lovable投资将vibe coding引入硬件的公司。
OpenAI的Codex现已集成到ChatGPT移动应用中。
安大略审计发现医生使用的AI笔记工具经常出现基本事实错误。
Cline作为自主编码Agent的SDK/IDE扩展/CLI助手发布。
AI新闻:Codex崛起,Claude计量程序化使用。
探讨AI开始自我构建时的潜在影响。
llama.cpp b9158修复RDNA3 Flash Attention问题。
arXiv新政策:对虚构参考文献的作者实施一年禁令。
React Doctor:AI Agent检测不良React代码。
Claude Code学术研究技能:研究、写作、审阅、修订、定稿。
Codebuff从终端生成代码的AI工具发布。
Claude Code技能实现Manus风格持久化Markdown规划。
VS Code新Agents窗口支持本地AI模型但需联网和Copilot订阅。
轻量级Markdown技能,用于自主ML研究:跨模型评审、想法发现。