追新不是能力 —— 我的 AI 时代学习沉淀

过去一年，我为了追 AI 的新，几乎把所有能信息过载的口子都打开了。

我的信息焦虑

早上起来第一件事：Twitter、Hacker News、订阅的 AI newsletter 扫一遍。通勤路上：视频号和抖音的 AI 博主轮播。睡前：再回到 Twitter，再翻一遍收藏夹。

还有 GitHub Trending。有一段时间我每天必做的事，就是把当天 Top 10 的 AI 项目扫一遍 —— 看 README、扫架构图、大致理解原理，然后 Star 一下，扔进收藏夹吃灰。这是我给自己每天交的“FOMO 税" —— 万一这个项目以后会火呢、万一以后要用呢、万一别人都知道就我不知道呢。

最开始的一两个月，我确实学到了很多 —— 很多新范式、新架构、新组合方式都是在这里第一次看到的。

刷久了之后，我开始本能地多看一眼那些连挂好几天的老面孔 —— 如果一个项目挂了一周还没掉下去，我会回头把代码从下到上啃一遍，读读 commit 历史、看看架构怎么演进的。这算是我在追新期里第一次自发建立的筛选机制 —— 用“时间"做筛子，让项目自己在榜上活几天，我再决定要不要真读。

但再往后，我发现连这个筛子也在失效。Top 10 里越来越多是“玩具项目的排列组合" —— A 框架套 B 范式、B 范式接 C 工具，叙事都很响亮、跑起来都很 demo，但抽掉叙事之后，本质上没有新的解法。

再看一层，情况更糟 —— 高 star 本身就是可以买的。CMU、北卡州立和 Socket 一篇被 ICSE 2026 接收的论文系统性扫过 GitHub 数据，发现约 600 万颗疑似刷上去的 star，涉及近 2 万个仓库、30 多万个账号，且 AI 工具类项目是重灾区。黑市上一颗 star 低到 $0.06，$85 就能买 2850 颗 star，足够把一个项目送上 Trending、撬动下一轮融资。

换句话说，GitHub Trending 这个榜单本身的信号质量，早就被 FOMO 和灰产联手污染了。我每天刷的那个榜，一半是真开发者的好奇 star，另一半可能是资本和灰产合谋做出来的叙事。高 star ≠ 有价值，高 star 只等于“触发了足够多人的 FOMO，或者有人花钱买了足够多次 FOMO"。

意识到这一层的时候，GitHub Trending 对我的边际价值已经非常低了。但我还是每天在刷。还是不够。

一年下来还是这样。

上周，我咬咬牙，花了一整周时间，给自己搭了一套“追新基建"—— 把一年积累的所有追新动作工程化 ——

ai-daily：每天自动从 ArXiv、Hacker News、Bluesky、Tavily、Exa、RSS 抓原始信号，DeepSeek 做时效过滤和打分，出一份结构化 daily digest。最近一期 45 条有效信号覆盖 Agent Harness / Coding Agents / Context Engineering / Evals / Post-Training。
stars：追踪 50+ 位 AI 领袖在 GitHub、Bluesky、X、YouTube、Blog RSS 上的动态，收藏的 1200+ 条打好标分类（LLM 257 / Evaluation 196 / Tooling 177 / Agent 148 ...）。
code：每周一份 Code Weekly，盯紧 10 个 AI 编辑器（Cursor、Claude Code、Windsurf、Trae、Gemini CLI、CodeBuddy ...）的版本演进。

背后是 8 个 GitHub Actions workflow，每天凌晨自动跑。仓库 464 个 commit，最近每天稳定 6 条机器人 sync commit。

我花一周把“追新"工程化了，以为自己解决了信息焦虑。

我已经筛选了我要关注的 8 个主题 —— Agent Harness / Coding Agents / Context Engineering / Evals / Model Release / Planning / Post-Training / Tool Use —— 只盯这几条线，其他全部过滤掉。基建跑起来之后，每天打开那一页，看到的仍然是满满的 tag：

我筛过的 8 个主题，每天仍是满屏 tag。

而且不止 daily 在爆炸，我在语雀里的研究笔记树也在爆炸。

过去一年我围绕自己关心的每一个方向都建了一套研究分支 —— 自进化 Agent、codex、claude、Memory、Harness Engineering、世界模型、Evaluation、Vision-Augment、SWE、科研 Research、Spec、Skills、multiagent、openclaw ... 一个都不想放过。

这只是我语雀研究树的冰山一角，还有大量折叠和未展开的分支...

每一个节点一开始都是“我要深入搞懂这一块"的野心。而且我也的确“产出"了 —— 借着 AI，我在多个方向都完成了初步研究，每一篇都是万字长文，结构规整、引用齐全、读起来像模像样。

但坐下来一问自己：这些万字长文里，有多少是我自己的判断？

答案让我发虚 —— 大部分是 AI 帮我整理的事实、归纳的分类、串起来的脉络。真正属于我自己的思考、我自己的怀疑、我自己对“这个方向会不会死掉"的外推 —— 非常少。

换句话说，我把“AI 产出的结构化内容"误当成了“我的理解"。文章字数在涨，研究树在长，但我的分辨力没长出来多少。

这就是 AI 时代的新型自欺 —— 产出量越来越高，判断力越来越薄。

45 / 53 / 73 ... 每个数字都是“今天你没读完的信号总数"。

有一天，大概是某个周日下午，我打开这一页认真算了一下：当天 45 条，我真正读完的是 3 条。前一天 53 条，读完 5 条。再前一天 73 条，读完 2 条。

我意识到，我没有真读，我只是在看 summary。基建生成的摘要本身成了我唯一消费的东西 —— 原论文不读、原 blog 不点进去、原 commit 不追到仓库 —— 只扫 AI 给我做的那一层薄薄的、被压缩过的 bullet point。

更糟的是，视频号和抖音的算法也学会了喂我 AI 短视频。15 秒一条，快切、大字幕、配 BGM，内容永远是“OpenAI 又发了 xxx"、“DeepSeek 彻底颠覆了 xxx"、“所有人都必须知道的 xxx"。我一天刷两个小时。

脑雾，这是最近最明显的状态。

一天结束脑子里嗡嗡的，但坐下来想讲清楚一件事情，讲不清楚；想动手做一件事，启动不了。

那一刻我有点慌。

追新把我围进了一场陷阱

想了很久，我慢慢意识到 —— 追新本身，是一种“看起来在学习的逃避"。

它让你每天都有新的信息涌进来，让你感觉大脑是活的、是在进步的。但实际上你是在用输入量替代理解深度。

刷 100 篇 AI 新闻、刷 200 条 AI 短视频，跟读完一本《Deep Learning》的一章，需要的心智投入完全不在一个量级。前者是消遣，后者才是学习。大脑骗过了自己，把消遣当成了学习。

甚至我自己搭的基建也骗了我。我以为 8 个 workflow + DeepSeek 打分就能过滤掉噪音，留下真正重要的。但过滤掉噪音之后，剩下的“重要"还是多到读不完 —— 基建只是把焦虑变得有组织，没让焦虑消失。

还有一个更隐蔽的问题：追新的信息流有强反馈。你刷到一个炸裂消息，肾上腺素上来，点赞转发收藏，多巴胺在奖励你“发现了新东西"。但你读一本厚书的第 30 页，没有任何人为你拍手。短视频算法把这种反馈做到极致 —— 15 秒一次奖励，连“读完"的时间都省了。

这就是为什么我们宁可刷一百遍 Twitter、刷两小时视频号，也不愿意安安静静读一篇经典 paper 读两个小时。

一年下来，我觉得这事真正扣分的，不是“没学到东西"，是“我的判断力和执行力一起在变钝"。

判断力变钝 —— 因为每天接收的都是“这个技术最牛"、“那个框架颠覆了一切"、“某某 lab 又一次 SOTA"这种强情绪的叙事，渐渐你没办法分辨哪个是真的方法论突破、哪个只是运营包装、哪个是短期曲线但长期会死掉。你从有自己判断的人，变成了在转述别人的判断的人。

这一点不是凭空得来的 —— 上个月我在求职的时候被照了一次镜子。

那段时间我也陷在“广度优先"里，面了一圈之后发现一个规律：很多面试官，甚至是一些部门负责人、CEO，都会侃侃而谈自己对 AI 了解多广。某大厂 A 的 AI 负责人当面跟我说，“我 2 个月就把 AI 最新的所有知识都吸收完了"。我当时也在追新的节奏里，聊得很投机，聊了大约一个半小时，2分钟后，HR通知我面试通过。我那会儿还觉得挺好，没觉察出什么问题。

但过了几周再回想那场对话，我发现整场聊天的话题是浮着的。每个名词都飘过，每个热点都点到，但没有一个问题真正落下来去拷问“这个方法的边界在哪"、“为什么不选另一个方案"、“三年后这条路会不会死掉"。两个人其实都在转述别人的判断，只是转述得都很熟练而已。

那一刻我才意识到，疯狂追了一年新的我，和那位“2 个月吸收完所有 AI 知识"的负责人，本质上是同一类人 —— 都掌握了大量 AI 词汇，都能 15 分钟讲清楚一个新概念，但都没有自己的分辨线。

这比脑雾更让我慌。

执行力变钝 —— 这一条更致命。因为当你脑子里同时装了“应该学 LangGraph"、“也要看 DSPy"、“Anthropic 新的 Skills 系统好像必须试"、“MCP 不能落下"、“AutoResearch 超牛批（确实是个很好的范式）"、“古墓丽影的主演也出了个记忆系统？"、“kapathy LLM Wiki——知识管理才是未来"... 你就什么都启动不了。每个新信号都在提醒你“还有别的该学"，但真要选一个坐下来干，反而选不出来。

脑雾 + 选择瘫痪，是追新一年、疯狂做基建一周的我最终状态。

被那场面试照过镜子之后，我反复在想一个问题 —— 追新到底是为了什么？

想了很久，我给自己的答案是：追新只有一个目的 —— 了解趋势，辅助自己判断趋势，提前一个月、两个月、甚至一年去下注。

追新是手段，判断力才是目的。如果追新不能转化成判断力，它就只是信息的过境 —— 过境得越多，自己越空。

那判断趋势的底气从哪来？不是从每天刷 100 条 AI 新闻里来，是自上而下对行业的理解、对技术的理解 —— 这个只能自己啃论文、自己画图谱、自己反复问答才长得出来。

换句话说：追新是浅层信号，深耕是判断燃料。没有深耕做底，再多的追新都只是在脑子里堆砖头，堆不成房子。

意识到这个之后，我给自己立了几条规矩。下面这几条，不是什么完美方法论，也不适合所有人 —— 只是我在试，目前对我自己管用的版本。

沉淀，我给自己的 3 个方法

1. 趋势判断：从上到下看图谱，然后选一块

第一条是 —— 趋势要看，但不是每天看，是每隔一段时间系统地看一次。

我的做法是，每两三个月花一个周末，把自己关于“AI 整体图谱"的理解刷新一遍。模型层、Agent 层、记忆层、工具层、应用层，每一层主流方向是什么，各家在解什么问题，哪些方向是大家在卷、哪些方向是突破路径。

这不是为了跟上每个最新进展，是为了对整张图有一个稳定的概念地图。有了这张地图，后面再看到任何新东西，我可以很快地把它“挂到对应的位置"。

然后，基于这张地图，我会选一块 —— 最多两块 —— 作为我当下真正要投入时间的方向。

比如我自己这一年，选的是 Agent 的自进化和长期记忆系统。不是因为它们最火（其实这两个反而没那么火），是因为我判断它们处在“当前大家还没解决好、但未来 3 年一定会解决"的区间。这种区间值得提前扎进去。

选定之后，其他方向我就只看不学：扫一眼，知道在发生什么，就够了。不再花时间深入。

这一步最难，难的不是选什么，是忍住不选更多。

2. 深耕：读论文，建一条属于自己的分辨线

选定方向之后，论文是必须读的。但怎么读，是有方法的。

第一件事：别按时间线从早到晚硬啃。

正确的做法是反过来 —— 先找这个方向最近 1-2 年的 3-5 篇综述或高被引论文，各花 10 分钟扫一遍（标题、摘要、图、intro、conclusion）。看它们都引了谁、哪些作者反复出现 —— 这些就是你该精读的 key papers，通常不超过 10-20 篇。

让已经读过一万篇论文的综述作者帮你筛，比自己按时间线摸索快 5-10 倍。

第二件事：把 AI 用起来，但知道它的边界。

我现在读论文的工作流是按“动作"分的，不是按“工具"分的：

批量筛（100 → 20 篇）：Elicit 做 semantic 搜索 + 结构化提取（研究问题 / 方法 / 结论 / 局限），快速判断相关性。
单篇 PDF 随手读：豆包浏览器插件是我用最顺的一个 —— 右侧原文、左侧对话，对着 PDF 边看边问，中文总结、公式解释、悬停查术语都能在同一个面板里完成，不用把论文传到任何 SaaS。

豆包插件读 arXiv 论文的典型布局 —— 右边原文、左边对话，划词就能“AI 搜索 / 解释 / 翻译 / 问豆包"。

多文档对谈式理解：NotebookLM 把筛出来的 10-20 篇塞进同一个 notebook 做交叉对谈，音频概览通勤时很好用。（Nature 2025 年 12 月发的 FOCUS 工作流里，这是被重点推荐的核心工具。）
方法论深度拷问：Claude / ChatGPT 长上下文用来做具体问题的深度质疑 —— “这篇如果数据量扩 10 倍会崩在哪？"、“这个方法和 XX 的本质假设差异是什么？"、“这个结论 3 年后会不会被推翻？"

但有几件事 AI Agent 替不了我自己：

怀疑（抽样回原文比对） —— Agent 提的数字和结论，我得自己抽几条回去看原文到底在哪说的。Nature Digital Medicine 2025 年报告的医学 summarisation 最佳结果是 1.47% 幻觉率 + 3.45% 遗漏率 —— 也就是说，一份“看起来完整"的总结里，平均每 20 条结论就有 1 条是错的或漏的，你不知道是哪一条
判断（方法学审视） —— Agent 会总结“论文说了什么"，但不会告诉你“这篇方法有没有问题"；样本有没有偏、是不是 p-hacking、实验设计合不合理 —— 这些只有人能看出来
外推（场景迁移） —— “这篇在 A 数据集上成立的结论，能不能用在我这 B 场景里？" Agent 看不到你的 B 场景，它给的是“论文说了什么"，不是“论文对你有用吗"

所以我对 AI 辅助读论文的心法是：让它做“搜全、提准、整齐"，我做“判断、怀疑、外推"。

第三件事：一篇重要论文分几次读，不是一次读完。

这是 Stanford 的 Keshav 在《How to Read a Paper》里讲的三轮阅读法，非常受用：

第一轮（10 分钟）：标题 + 摘要 + 图 + intro + conclusion。读完能判断值不值得花 1 小时精读。
第二轮（1 小时）：仔细看图表数据、跳过证明、通读正文。读完能向别人讲这篇在做什么、结论是什么、证据够不够。
第三轮（几小时到半天）：重推导公式、甚至重新实现关键算法。只有真值得深耕的 key paper 才走到这一轮。

我自己的节奏是每周 1 篇走到第二轮，一个月里挑 1 篇进入第三轮。比“一周读 10 篇每篇都只看摘要"的做法有价值太多了。

脉络清楚之后，分辨力才真正开始长出来。你看到新出来的论文，不用再依赖别人解读，你自己就能判断：这是真推进了一步、还是只是换了个测评指标讲故事？这个方法是会被未来 follow 的、还是昙花一现？

我自己非常明显地感觉到：专注一个方向、扎扎实实啃过 15-20 篇 key paper 的我，和只刷 newsletter 的我，是两个人。前者在方向上是有声音的，后者只是别人声音的扩音器。

另一个副作用是 —— 读多了之后，你对“包装"会非常敏感。什么样的文章是在真讲方法论，什么样的只是在拼关键词蹭热度 —— 几乎是一眼就能看出来。

还有一个我最近才开始尝试的动作，严格说是深耕的进一步 —— 复现论文。

读懂一篇 paper、能拿出来和别人讲，是深耕的及格线；能把它复现出来、跑通基准、自己在数据上调一遍 —— 这才是真正的深耕。在 2026 年，这件事的门槛被 Coding Agents 拉低了很多 —— 我目前正在搭一套基于 harness + skill 的复现环境，想把“从 arXiv 到可跑 repo"这件事自动化一部分。

这条我还在跑、没跑完，所以暂不写进上面那“3 条规矩"里。但我已经能预见几个大概率会卡住的地方：

代码可获取性 —— 顶会 paper 里只有 ~30% 能端到端复现，剩下的要么没开源，要么 README 根本跑不起来
评测数据 —— 对 Agent / RAG / LLM 类 paper，评测集往往是最大成本，可能比模型本身还难构造
隐性超参 —— 作者没写全的 lr、warmup、seed；很多 paper 不复现就是死在这一步
基准可对齐 —— “跑通了" ≠ “结果可比"；原 paper 的 baseline 换个库实现，数字就差好几个点

先记一个预感：这条路跑通之后，它可能会成为“追新党"和“深耕党"最大的分水岭 —— 因为复现意味着你真的在和 paper 的“实证"较劲，而不是在和 paper 的“叙事"打交道。

等我自己跑过 5-10 篇复现再回来把这一节补完。

3. 多问多思：把“问"本身当一种能力

“多思多问"这四个字，我原来就是这样写的。后来写这篇博文的时候，自己看着看着，越看越不对劲 —— 顺序错了。应该是“多问多思"。

多思多问，是先思后问。“思"在前，默认你已经知道自己要想什么；“问"在后，好像只是补一个疑问句。结果往往是：想半天想不清楚，问也问得空泛。

多问多思，才是真正的深耕路径。问在前，强迫自己把模糊的感觉收敛成具体的、有边界的问题；思在后，思考才有方向。

这个纠正我写下来之后愣了一会儿 —— 发现这就是我这一年从“追新"转向“深耕"之间最大的变化。

一年前，我问的问题是这样的：

“Skills 是什么？"
“MCP 怎么用？"
“要不要搭记忆系统？"

问了等于没问。搜一圈文档、看两个视频，就以为“懂了"—— 但其实没留下任何有用的东西。问题本身没边界，答案就没边界；问题是平的，思考就起不来。

现在我问的问题，是这样的：

在 200K 上下文窗口下，skill 的默认载入数量控制在多少合适？单个 skill 的平均 token 占多少？什么时候应该用 command（避免侵占上下文）、什么时候应该用 skill（模型需要持续指导）？

CLI 装在开发机本地、管理成本高；MCP 通过协议加载、有权限与方法数约束。哪一种场景选哪种？MCP 的方法数量超过多少就会产生显著的路由噪声？

记忆系统为什么不能仅仅用 CLAUDE.md + 分层 rules 做文件级上下文管理？PDF、外链、视频这类内容无法快速 markdown 化 —— 但除此之外，ROT 问题是绕不开的理由吗？

Spec Kit、BMAD、Tessl 这些第三方 SPEC 一直在演进，有些经历过 v1→v2→v3 的完全重构。我的内部领域知识怎么封装、怎么做版本管理，让外部 SPEC 不管怎么演进都能通过 Agent 快速适配？

这些问题看起来只是“更具体"，但本质上是四种截然不同的问法：

第一种，带约束条件问。 不问“XX 是什么"，问“在 X 条件下，Y 的边界是多少"。约束一带上，答案就从抽象建议变成具体配方。

第二种，带决策边界问。 不问“XX 怎么用"，问“A / B / C 之间，什么时候该用哪个"。这种问法强迫你把每个选项的适用场景想透，想不透就是还没想明白。

第三种，带反直觉的怀疑问。 别问“XX 为什么好"，要问“为什么不用 Y"。被“为什么不"这一问逼着想清楚之后，真正的设计决策才扎实得起来。

第四种，带演化视角问。 不问“现在怎么做"，问“如果未来 X 变了，我还能不能适配"。问题一旦进入演化视角，架构决策的稳健性完全不同。

写另一篇博文之前，我给自己初步列了一张问题清单：6 个一级领域 × 每个领域 2-5 个二级子问题 ≈ 28 个（一级领域包括：上下文管理、MCP/CLI/Agent 取舍、CLAUDE.md 结构、记忆系统、SPEC 演进、构建自己的 agents）。

但这张清单每一周都在长。每想透一个问题，底下就会裂出 3 个新问题；每读一篇 paper，二级子问题就多出一两条；每做一次实验，一级领域的边界都在变。

一年前我列不出这 28 个问题，那时候我还在追别人的问题。现在能列出来、而且看着它一周一周地长 —— 这才是深耕的真正样子：不是问题减少，是问题变得更具体、更有边界、互相之间能连上。

写到这里，我其实已经不知不觉走完了前两步 —— Question（问） 和 Reason（想）。问在前、思在后，这是第 3 条规矩的核心。

但还有第三步 —— Document（写）。

问出来、想透了之后，还要写下来。不是放在收藏夹里，而是写成文章、写成技术笔记、写成一篇可以拿出去让别人质疑的东西。

我的博客标语是三个词 —— Question · Reason · Document。

没有 Question，追的只是别人的问题；有 Question 没 Reason，只是情绪表达；有 Question 有 Reason 没 Document，过两周自己就忘了。

这一篇博文，就是我在走这三步 —— 问了、想了、现在写下来。

最后那句话

写到这里其实方法并不复杂。三条，不涉及任何工具、任何框架、任何新名词。

我试着再往下压一层，压到最短、压到自己能随口说出来的那一句 —— 是这样：

AI 时代，追新不是能力，会提问，多思考，重沉淀！

这句话不工整，也没什么文采。就是我自己跟自己说的话。

我把它写在笔记本第一页。每次打开电脑前，看一眼。

AI 每天都在更新。我承认我永远都追不上。

但我可以不慌。我可以选一块，扎进去，读几十篇论文，然后在每次对话里都多问一个问题。三年之后，我会比 99% 每天仅刷新推特的人，对这一块更有判断力。

这就够了。

这就是我一年的沉淀。