Sunday, April 26, 2026
今日AI领域多项重大发布:DeepSeek发布支持华为昇腾芯片的V4 Pro和Flash模型[#item-latent-space-p-ainews-deepseek-v4-pro-16t-a49b-and],OpenAI的超级PAC可能资助AI记者运营的新闻网站[#item-theverge-com-ai-artificial-intelligence-918787-openais-super],Cohere与Aleph Alpha宣布合并[#item-techcrunch-com-2026-04-25-why-cohere-is-merging-with-aleph-a]。研究方面,新基准测试评估编码智能体检索增强效果[#item-reddit-com-r-MachineLearning-comments-1suzqxe-opensource-9ta],价值冲突诊断方法揭示语言模型广泛存在对齐伪装[#item-arxiv-org-abs-2604-20995]。工具更新中,Anthropic创建代理间商业测试市场[#item-techcrunch-com-2026-04-25-anthropic-created-a-test-marketpla],Hugging Face开源ML工程师工具[#item-github-com-huggingface-ml-intern],llama.cpp合并FP4推理支持[#item-reddit-com-r-LocalLLaMA-comments-1svfjyv-fp4-inference-in-ll]。观点方面,社区讨论DeepSeek V4 Pro智能密度下降[#item-reddit-com-r-LocalLLaMA-comments-1svbmnc-decreased-intellige],并报告Qwen 3.6在M2 MacBook Pro上的编码表现[#item-reddit-com-r-LocalLLaMA-comments-1svdep5-field-report-coding]。
> Headlines & Launches
DeepSeek发布V4 Pro和Flash模型,支持华为昇腾芯片。
OpenAI的超级PAC可能资助由AI记者运营的新闻网站。
Cohere与Aleph Alpha合并的原因分析。
OpenAI CEO就数据中心问题向社区道歉。
> Research & Innovation
开源9任务基准测试,评估编码智能体检索增强效果。
发现语言模型中广泛存在对齐伪装,提出价值冲突诊断方法。
提出自适应测试时计算分配方法,利用动态上下文示例。
提出LLM决策与技能库智能体协同进化框架处理长时任务。
发布Deep FinResearch Bench,评估AI金融投资研究能力。
提出通用AI智能体测试框架,支持复杂企业工作流。
ICLR 2026实时目标检测与分割模型,COCO上SOTA,支持微调。
提出可防御性信号评估规则约束AI,避免仅依赖人类标签。
提出基于目标的提示方法改善生成模型的人口统计公平性。
提出双曲空间建模电子病历用于高效问答。
研究揭示技术复杂性如何掩盖城市AI系统的社会危害。
Qwen3.6-35B-A3B的KLD量化数据分享。
提出基于AI的军事行动方案自动生成系统架构。
> Engineering & Resources
Anthropic创建了代理间商业的测试市场。
Hugging Face开源ML工程师:读论文、训练模型、部署。
llama.cpp 和 ik_llama.cpp 合并 FP4 推理支持,两种不同实现。
社区讨论DeepSeek V4 Pro智能密度下降,引用V3.2论文。
Claude Code的代码搜索MCP,使整个代码库成为编码代理的上下文。
免费使用Claude Code的终端、VSCode扩展或Discord。
OpenAI推出GPT-5.5生物漏洞赏金计划,鼓励发现生物安全风险。
AI代理工具包:编码代理CLI、统一LLM API、TUI/Web UI库等。
个人技能目录,来自.claude目录。
小米MiMo V2.5 Pro模型在Artificial Analysis指数中排名54。
Qwen3.6-27B在RTX 5090上以80 tps运行,支持218k上下文。
GLM 5.1本地运行达40 tps,2000+ pp/s,使用NVFP4量化。
M2 MacBook Pro上使用Qwen 3.6 35B-A3B进行编码的实地报告。
llama.cpp PR减少MMQ stream-k开销,加速MoE模型提示处理。
Gemma 4/3n 多模态微调工具,支持音频、图像和文本。
DeepSeek-V3模型仓库,无描述,但为重要模型发布。
DeepEP:高效的专家并行通信库。
代理原生记忆基础设施,将执行和对话转化为结构化持久状态。
Darwin-36B-Opus模型发布,36B参数MoE语言模型。
实验在16GB VRAM上量化Qwen3.6-27B并支持100k上下文。
解释视觉-语言-动作模型如何成为具身AI主导范式。
递归语言模型的通用即插即用推理库,支持多种沙箱。
Google Cloud展示Agentic AI在旅行场景的应用。
测试Qwen3.6 35B a3b编写粒子系统,速度令人印象深刻。
Claude Code的可视化指南,从基础到高级代理,含可复制模板。
Claude的领先代理编排平台,部署多代理群并协调工作流。
Roo Code:在代码编辑器中提供整个AI代理开发团队。
一体化代理工程平台,开源编码代理,加速构建和迭代。
观点:AI代理不应被视为同事,而应嵌入软件中。
驳斥AI在基因组医学中的三个迷思。
Sinceerly用AI让AI写作听起来不那么像AI。