Friday, April 24, 2026
今日AI领域迎来重磅发布,OpenAI正式推出GPT-5.5模型,其在Terminal-Bench 2.0上险胜Anthropic的Claude Mythos,向超级应用迈进;研究方面,Qwen 3.6 27B在Agentic Index上追平Sonnet 4.6,同时有论文提出用于长上下文推理的TTKV分层缓存方法;工具更新上,GPT-5.5已通过Codex API可用,并新增代码搜索MCP工具让Claude Code处理整个代码库;观点方面,分析指出AI token支出失控趋势,而Anthropic的Mythos数据泄露引发行业反思,美国政府备忘录关注对抗性蒸馏可能收紧开源模型管控。
> Headlines & Launches
OpenAI发布GPT-5.5,向AI超级应用迈进。
OpenAI发布GPT-5.5,在Terminal-Bench 2.0上险胜Claude Mythos。
> Research & Innovation
Qwen 3.6 27B 在 Agentic Index 上追平 Sonnet 4.6。
提出TTKV,一种用于长上下文LLM推理的分层KV缓存方法。
基准测试18个LLM的OCR能力,发现便宜/旧模型常胜,开源数据集和框架。
提出自适应红队与端到端修复策略-奖励系统的框架。
提出人机协作恢复机制,防止计算机使用代理造成危害。
发现幻觉神经元在跨领域迁移中具有泛化性。
提出结合搜索、精炼与强化学习的RAG推理框架。
Cognis:为对话AI代理提供上下文感知记忆系统。
研究人员发现10种针对AI代理的间接提示注入攻击。
研究发现AI科学家产出结果但缺乏科学推理过程。
研究LLM中刻板印象的定位与预防方法。
提出面向社会的AI对齐基准,用于评估人类价值观对齐。
提出可视化语言模型生成分布的方法,超越单输出评估。
研究对抗环境如何误导工具集成型AI代理。
量化LLM中认知-修辞失调的框架。
构建神经符号基准与流水线,将自然语言转换为可执行逻辑。
CoAuthorAI:人机协同的科学书籍写作系统。
新对话AI利用医疗协议指导用户何时就医。
小MLP从8个输入预测58个人体参数,将前向传播嵌入训练损失。
结合AI与Lean 4实现形式化验证的专利分析框架。
PR-CAD:基于LLM的渐进式可控文本到CAD生成。
研究多变量间隙最长公共子序列问题的求解方法。
> Engineering & Resources
OpenAI发布GPT-5.5,通过Codex API可用。
OpenAI称GPT-5.5更高效且编码能力更强。
代码搜索 MCP 工具,让 Claude Code 将整个代码库作为上下文。
腾讯发布Hy3 preview,开源295B参数21B活跃的MoE模型。
OpenAI推出ChatGPT临床版免费访问,并发布HealthBench专业基准。
Ling-2.6-1T模型将开放权重,1万亿参数50B活跃参数,承诺开源。
OpenCode 是一个开源编码 agent,支持自主编程。
Anthropic发布Claude Code质量报告更新。
DeepSeek发布DeepEP V2和TileKernels,优化MoE通信和内核。
Hugging Face 开源 ML 工程师,可读论文、训练模型并部署。
免费使用 Claude Code 的工具,支持终端、VSCode 和 Discord。
AI 全自动短视频生成引擎,快速制作视频内容。
Vercel 发布 Skills,一个开放 agent 技能工具。
Shannon Lite 是一个自主 AI 渗透测试工具,用于 Web 安全。
Google在Gemini Enterprise中引入独特AI代理身份。
Anthropic的Mythos数据泄露事件引发羞辱。
美国政府备忘录关注对抗性蒸馏,可能收紧开源模型。
用户分享使用PI Coding Agent搭配本地Qwen3.6 35b模型的真实体验,效果出乎意料地好。
Gemma Tuner Multimodal:在Apple Silicon上微调Gemma多模态模型。
Google发布TorchTPU,原生在TPU上运行PyTorch。
上下文窗口优化工具,减少 AI 编码代理 98% 的 token 消耗。
SAP与Google Cloud合作,用Gemini Enterprise驱动AI营销。
OpenSimula:开源实现Simula机制设计用于合成数据生成。
一站式 RAG 框架,简化检索增强生成应用构建。
Pi-mono 是一个 AI agent 工具包,含编码 agent CLI。
自主编码代理,可在 IDE 中创建文件、执行命令、使用浏览器。
Era Computer融资1100万美元,构建AI小工具软件平台。
Bret Taylor的Sierra收购YC支持的AI初创Fragment。
一篇教程展示如何在单张 RTX 3090 上运行 Qwen 3.6 27B。
讨论推理和输出采样方式是否应不同,涉及多语言推理问题。
构建归一化器解决WER在STT评估中因格式差异导致的惩罚问题。
编排角色扮演自主 AI 代理的框架,促进协作智能。
Agent Vault:开源AI代理凭证代理和保险库。
Rilian融资1750万美元,用于AI原生安全编排。
AI机器人Noscroll帮你自动刷社交媒体,替代无意识滚动。
用户盛赞 Qwen 3.6 27B 在笔记本上的表现。
微软推出的 AI Agent 入门教程,共 12 课。
Routa 是一个工作区优先的多 agent 协调平台。
为 Claude Code 和 AI 代理提供营销技能,包括 CRO、SEO 等。
AIE Europe回顾与Agent Labs观点,非今日新闻。
LlamaIndex发布LiteParse,浏览器端PDF文本提取。
Fere AI融资130万美元,开发自改进交易代理。
用户对比 Qwen 3.6 35B 与 27B 的编码性能。
社区讨论32-64GB内存运行模型的实际生产力价值,用户分享使用场景。
用户实验Qwen-3.6-27B配合推测解码的性能提升。
用户寻求Transformer模型大小和推理优化建议,尝试剪枝等效果不佳。