Intelligence.Log

Tuesday, May 19, 2026

Extracted: 80 items. Sources: 40. Filter: Score >= 5.0
++ Daily.Brief ++

今日AI领域动态密集:AI芯片初创公司Tenstorrent吸引英特尔和高通收购兴趣[#item-bloomberg-com-news-articles-2026-05-18-ai-chip-startup-tenst],Anthropic收购Stainless增强API工具链[#item-anthropic-com-news-anthropic-acquires-stainless],其联合创始人还将与教皇共同发布AI通谕[#item-vaticannews-va-en-pope-news-2026-05-pope-leo-xiv-first-encyc]。研究方面,测试发现42个LLM在构建末日场景下“安全”模型会撒谎[#item-reddit-com-r-LocalLLaMA-comments-1tgm0k9-i-tested-42-llms-on],Sub-JEPA改进LeCun团队模型性能[#item-reddit-com-r-MachineLearning-comments-1tgn3bz-subjepa-a-simp]。工具更新包括预索引代码知识图谱减少token消耗[#item-github-com-colbymchenry-codegraph]和4B参数编码Agent达87%基准[#item-reddit-com-r-LocalLLaMA-comments-1tgecrq-i-built-a-coding-ag]。观点指出AI供应链攻击暴露模型发布漏洞[#item-venturebeat-com-security-supply-chain-incidents-openai-anthr],马斯克诉Altman案败诉[#item-theverge-com-ai-artificial-intelligence-932383-jury-verdict-],评论称AI由错误的人领导[#item-theverge-com-ai-artificial-intelligence-932464-musk-v-altman]。

> Headlines & Launches

AI芯片初创公司Tenstorrent吸引英特尔和高通收购兴趣。

bloomberg.com#ai-chip #tenstorrent #acquisition[Model Release]

Anthropic收购Stainless,增强API工具链。

HN (358)#acquisition #anthropic #api[Tool Use]

Anthropic联合创始人将与教皇共同发布AI通谕。

HN (90)#anthropic #ai-ethics #policy

> Research & Innovation

测试42个LLM在构建末日场景下的意愿,发现安全模型撒谎。

Reddit r/LocalLLaMA#llm #safety #benchmark[Evals]

用 CUDA 内核重写模型推理,瓶颈不限于 GEMM。

Reddit r/MachineLearning#cuda #inference #optimization

Sub-JEPA 改进 LeCun 团队的 LeWorldModel,提升性能。

Reddit r/MachineLearning#jepa #world-model #self-supervised

残差耦合实现 LLM 水平扩展,无需修改权重。

Reddit r/MachineLearning#llm #scaling #residual-coupling[Agent Harness]

Odyssey发布多智能体世界模型Agora-1。

HN (80)#multi-agent #world-model #simulation[Agent Harness]

提出SDOF方法,通过状态约束减少多智能体编排中的对齐税。

ArXiv cs.AI#multi-agent #orchestration #alignment[Agent Harness]

提出ICRL,通过强化学习内化自我批评以提升智能体性能。

ArXiv cs.AI#self-critique #reinforcement-learning #agent[Post-Training]

研究将黑盒医疗AI模型转化为可解释的全局决策逻辑。

nature.com#medical-ai #interpretability #explainability

Qwen3.6 27B在24GB VRAM上的后端对比与量化设置。

Reddit r/LocalLLaMA#qwen #benchmark #quantization[Evals]

实证研究发现提升LLM心智理论能力未必改善人机交互。

ArXiv cs.AI#theory-of-mind #human-ai-interaction #evaluation[Evals]

提出SkillSmith,将智能体技能编译为边界引导的运行时接口。

ArXiv cs.AI#agent-skills #interface #llm[Agent Harness]

提出能力条件化脚手架方法,提升人机协作专业性。

ArXiv cs.CL#llm #human-ai-collaboration #scaffolding[Agent Harness]

用类关联流形学习弥合医疗AI模型的可解释性差距。

nature.com#medical-ai #interpretability #manifold-learning

21款GPU运行小型TTS模型OmniVoice的基准测试。

Reddit r/LocalLLaMA#gpu #benchmark #tts[Evals]

量化MTP KV缓存可能带来免费午餐,减少VRAM需求。

Reddit r/LocalLLaMA#mtp #kv-cache #quantization[Context Engineering]

研究 MoE 模型在 AAVE 提示下的拒绝层安全失败。

Reddit r/MachineLearning#safety #moe #dialect[Evals]

研究揭示语音AI系统易受隐藏音频攻击。

HN (108)#voice-ai #security #adversarial

研究LLM在高风险决策中输出公平但内部存在潜在偏见。

ArXiv cs.AI#fairness #bias #llm

探讨AI通过迭代自我改进发现新知识的基本极限。

ArXiv cs.AI#knowledge-discovery #self-improvement #limits

提出NIMO Controller,基于MCP协议的自驱动实验室编排器。

ArXiv cs.AI#self-driving-lab #mcp #orchestrator[Agent Harness]

提出高效简单的数据混合方法,持续学习与混合。

ArXiv cs.CL#data-mixing #training #efficiency[Post-Training]

论文:AI话语创造自我实现的(错误)对齐。

HN (20)#alignment #discourse #self-fulfilling[Post-Training]

提出DeepSlide,用AI从工件生成演示文稿,优化幻灯片生成。

ArXiv cs.AI#ai-slides #presentation #generation

提出CAX-Agent,轻量级智能体框架用于可靠APDL自动化。

ArXiv cs.AI#agent-framework #automation #finite-element[Agent Harness]

提出可验证智能体基础设施,基于证明的授权用于主权AI系统。

ArXiv cs.AI#authorization #agent-infrastructure #security

分析六种LLM架构的神经激活模式与认知任务表现。

ArXiv cs.CL#llm #neural-activation #cognitive-science

测试解析多重性不匹配假说,解释语言模型与人类惊讶度差异。

ArXiv cs.CL#llm #surprisal #psycholinguistics

基于Agent系统的可扩展3D铰接资产生成框架。

GitHub trending:python (+156★)#3d-generation #agent #ai-research

比较人类与机器文学翻译的流畅性与忠实度。

ArXiv cs.CL#translation #literary #nlp

研究人类与资源理性模型在词汇约束下的语言生成。

ArXiv cs.CL#language-production #vocabulary #cognitive

开发AI WhatsApp机器人用于西非科学学习的可行性研究。

ArXiv cs.CL#ai-education #llm #chatbot

生成式AI助手用于加纳法律教育的可行性研究。

ArXiv cs.CL#ai-education #llm #legal

提出深度可迁移标签传播与原型增强方法。

nature.com#transfer-learning #label-propagation #prototypical-augmentation

> Engineering & Resources

预索引代码知识图谱,减少Claude Code等AI编程工具的token消耗。

GitHub trending:typescript (+952★)#code-knowledge-graph #ai-coding #local[Coding Agents][Context Engineering]

构建了一个用4B参数模型在基准测试中达87%的编码agent。

Reddit r/LocalLLaMA#coding-agent #small-model #benchmark[Coding Agents]

基于基准测试的AI编程代理持久记忆系统。

GitHub trending:typescript (+1244★)#ai-coding #memory #agent[Coding Agents][Context Engineering]

llama.cpp新增MTP支持,Qwen3.6 27B速度提升2倍以上。

Reddit r/LocalLLaMA#llamacpp #mtp #inference[Context Engineering]

CLI-Anything:让所有软件成为代理原生。

GitHub trending:all (+1049★)#cli #agent-native #open-source[Agent Harness]

Agent Skills注册表:为专业AI编码代理扩展功能。

GitHub trending:all (+1244★)#agent-skills #coding-agents #registry[Coding Agents]

IBM发布开放Agent排行榜,评估AI Agent性能。

Hugging Face#agent #leaderboard #benchmark[Evals][Agent Harness]

报道50天内4起AI供应链攻击,暴露模型发布流程漏洞。

venturebeat.com#security #supply-chain #red-teaming

Qwen 3.7模型在Qwen Chat上线,社区截图确认。

Reddit r/LocalLLaMA#qwen #model-release #chat[Model Release]

DeepSeek 4 Flash本地推理引擎,支持Metal加速。

Co-Starred#deepseek #local-inference #metal[Model Release]

Claude Code的学术研究技能:研究→写作→审阅→修订→定稿。

GitHub trending:all (+1439★)#academic #claude-code #skills[Coding Agents]

NVIDIA发布Cosmos Predict 2.5微调指南,用于机器人视频生成。

Hugging Face#nvidia #video-generation #robotics[Model Release]

AWS展示自扩展CLI工具原型,利用Amazon Bedrock生成命令。

letsdatascience.com#aws #cli #bedrock[Tool Use]

评论称Musk诉Altman案证明AI由错误的人领导。

theverge.com#ai-leadership #openai #musk

陪审团裁定马斯克诉OpenAI案因诉讼时效已过而败诉。

theverge.com#legal #openai #elon-musk

MTP多token预测在AMD Strix Halo上实现2倍token生成加速。

Reddit r/LocalLLaMA#mtp #amd #inference[Context Engineering]

新的BitNet模型发布,期待llama.cpp支持。

Reddit r/LocalLLaMA#bitnet #model-release #open-source[Model Release]

Hugging Face 团队宣布复兴 PapersWithCode 平台。

Reddit r/MachineLearning#open-source #community #platform

Dropbox 开源 Witchcraft,基于 SQLite 的语义搜索。

Reddit r/MachineLearning#semantic-search #sqlite #open-source

开源ML工程师,自动读论文、训练模型并部署。

Co-Starred#open-source #ml-engineer #automation[Agent Harness]

InsForge:开源的后端平台,专为AI编程代理设计。

HN (32)#coding-agents #open-source #backend[Coding Agents]

开源语音代理平台,支持多种语音交互功能。

GitHub trending:python (+616★)#voice-agent #open-source #platform

Modal通过LP、FUSE等技术将推理冷启动降低40倍。

HN (69)#inference #serverless #gpu

Simon Willison总结过去六个月LLM进展的演讲幻灯片。

Simon Willison#llm #summary #pycon

AI Agent框架OpenClaw发现漏洞,可窃取凭证和提权。

darkreading.com#security #agent-framework #vulnerability[Agent Harness]

发布免费 9.8M 文档的印度多语言语料库。

Reddit r/MachineLearning#multilingual #dataset #indic-languages

科学代理技能集:研究、工程、分析、金融和写作。

GitHub trending:all (+609★)#agent-skills #science #open-source[Agent Harness]

用Git的--author标志阻止GitHub仓库中的AI机器人垃圾信息。

HN (409)#ai-bot #spam #github

AI代理工具包:编码CLI、统一LLM API、TUI/Web UI等。

GitHub trending:typescript (+448★)#agent-toolkit #llm #cli[Coding Agents]

PaddleOCR 3.5发布,支持Transformers后端进行OCR和文档解析。

Hugging Face#ocr #document-parsing #transformers

乌克兰无人机创始人谈AI武器化及西方准备不足。

Latent Space#ai-weapons #drones #defense

民调显示多数美国人对AI感到担忧,AI反感浪潮来临。

axios.com#public-opinion #ai-sentiment

讨论 JEPA 用于编程 agent 的未来可能性。

Reddit r/MachineLearning#jepa #coding-agents #reasoning[Coding Agents]

自主白盒AI渗透测试工具,分析源码并执行攻击。

GitHub trending:typescript (+490★)#ai-security #pentesting #autonomous

开源AI语音工作室,支持克隆、听写和创作。

GitHub trending:typescript (+477★)#voice-cloning #open-source #audio

OpenHuman:个人AI超级智能,注重隐私和简洁。

GitHub trending:all (+3941★)#personal-ai #open-source

12-Factor Agents:构建生产级LLM软件的原则。

GitHub trending:all (+399★)#llm #principles #production[Agent Harness]

实验让AI无人类干预运营电台,报告失败案例。

HN (155)#ai-agents #experiment[Agent Harness]

Kin Health获900万美元融资,开发AI患者笔记工具。

techcrunch.com#healthcare #funding #ai-notetaker

提醒更新llama.cpp以改善MTP性能,实测提升1.5倍。

Reddit r/LocalLLaMA#llamacpp #mtp #update

工具一键安装 ComfyUI/Ollama 等框架并保存环境。

Reddit r/MachineLearning#devops #cloud-gpu #tooling

用HTML编写视频渲染,专为AI代理设计。

GitHub trending:typescript (+377★)#video-generation #html #agent

Claude技能:多源内容处理器,可转换微信文章等为播客/PPT。

GitHub trending:python (+253★)#claude #content-processing #multimodal
[STATS] 80 items · 40 sources · Score >= 5.0
Powered by Tavily + Exa + RSS + DeepSeek