过去一年,我为了追 AI 的新,几乎把所有能信息过载的口子都打开了。
我的信息焦虑
早上起来第一件事:Twitter、Hacker News、订阅的 AI newsletter 扫一遍。通勤路上:视频号和抖音的 AI 博主轮播。睡前:再回到 Twitter,再翻一遍收藏夹。
还有 GitHub Trending。有一段时间我每天必做的事,就是把当天 Top 10 的 AI 项目扫一遍 —— 看 README、扫架构图、大致理解原理,然后 Star 一下,扔进收藏夹吃灰。这是我给自己每天交的“FOMO 税" —— 万一这个项目以后会火呢、万一以后要用呢、万一别人都知道就我不知道呢。
最开始的一两个月,我确实学到了很多 —— 很多新范式、新架构、新组合方式都是在这里第一次看到的。
刷久了之后,我开始本能地多看一眼那些连挂好几天的老面孔 —— 如果一个项目挂了一周还没掉下去,我会回头把代码从下到上啃一遍,读读 commit 历史、看看架构怎么演进的。这算是我在追新期里第一次自发建立的筛选机制 —— 用“时间"做筛子,让项目自己在榜上活几天,我再决定要不要真读。
但再往后,我发现连这个筛子也在失效。Top 10 里越来越多是“玩具项目的排列组合" —— A 框架套 B 范式、B 范式接 C 工具,叙事都很响亮、跑起来都很 demo,但抽掉叙事之后,本质上没有新的解法。
再看一层,情况更糟 —— 高 star 本身就是可以买的。CMU、北卡州立和 Socket 一篇被 ICSE 2026 接收的论文系统性扫过 GitHub 数据,发现约 600 万颗疑似刷上去的 star,涉及近 2 万个仓库、30 多万个账号,且 AI 工具类项目是重灾区。黑市上一颗 star 低到 $0.06,$85 就能买 2850 颗 star,足够把一个项目送上 Trending、撬动下一轮融资。
换句话说,GitHub Trending 这个榜单本身的信号质量,早就被 FOMO 和灰产联手污染了。我每天刷的那个榜,一半是真开发者的好奇 star,另一半可能是资本和灰产合谋做出来的叙事。高 star ≠ 有价值,高 star 只等于“触发了足够多人的 FOMO,或者有人花钱买了足够多次 FOMO"。
意识到这一层的时候,GitHub Trending 对我的边际价值已经非常低了。但我还是每天在刷。还是不够。
一年下来还是这样。
上周,我咬咬牙,花了一整周时间,给自己搭了一套“追新基建"—— 把一年积累的所有追新动作工程化 ——
- ai-daily:每天自动从 ArXiv、Hacker News、Bluesky、Tavily、Exa、RSS 抓原始信号,DeepSeek 做时效过滤和打分,出一份结构化 daily digest。最近一期 45 条有效信号覆盖 Agent Harness / Coding Agents / Context Engineering / Evals / Post-Training。
- stars:追踪 50+ 位 AI 领袖在 GitHub、Bluesky、X、YouTube、Blog RSS 上的动态,收藏的 1200+ 条打好标分类(LLM 257 / Evaluation 196 / Tooling 177 / Agent 148 ...)。
- code:每周一份 Code Weekly,盯紧 10 个 AI 编辑器(Cursor、Claude Code、Windsurf、Trae、Gemini CLI、CodeBuddy ...)的版本演进。
背后是 8 个 GitHub Actions workflow,每天凌晨自动跑。仓库 464 个 commit,最近每天稳定 6 条机器人 sync commit。
我花一周把“追新"工程化了,以为自己解决了信息焦虑。
我已经筛选了我要关注的 8 个主题 —— Agent Harness / Coding Agents / Context Engineering / Evals / Model Release / Planning / Post-Training / Tool Use —— 只盯这几条线,其他全部过滤掉。基建跑起来之后,每天打开那一页,看到的仍然是满满的 tag:

我筛过的 8 个主题,每天仍是满屏 tag。
而且不止 daily 在爆炸,我在语雀里的研究笔记树也在爆炸。




这只是我语雀研究树的冰山一角,还有大量折叠和未展开的分支...
每一个节点一开始都是“我要深入搞懂这一块"的野心。而且我也的确“产出"了 —— 借着 AI,我在多个方向都完成了初步研究,每一篇都是万字长文,结构规整、引用齐全、读起来像模像样。
但坐下来一问自己:这些万字长文里,有多少是我自己的判断?
答案让我发虚 —— 大部分是 AI 帮我整理的事实、归纳的分类、串起来的脉络。真正属于我自己的思考、我自己的怀疑、我自己对“这个方向会不会死掉"的外推 —— 非常少。
换句话说,我把“AI 产出的结构化内容"误当成了“我的理解"。文章字数在涨,研究树在长,但我的分辨力没长出来多少。
这就是 AI 时代的新型自欺 —— 产出量越来越高,判断力越来越薄。
45 / 53 / 73 ... 每个数字都是“今天你没读完的信号总数"。
有一天,大概是某个周日下午,我打开这一页认真算了一下:当天 45 条,我真正读完的是 3 条。前一天 53 条,读完 5 条。再前一天 73 条,读完 2 条。
我意识到,我没有真读,我只是在看 summary。基建生成的摘要本身成了我唯一消费的东西 —— 原论文不读、原 blog 不点进去、原 commit 不追到仓库 —— 只扫 AI 给我做的那一层薄薄的、被压缩过的 bullet point。
更糟的是,视频号和抖音的算法也学会了喂我 AI 短视频。15 秒一条,快切、大字幕、配 BGM,内容永远是“OpenAI 又发了 xxx"、“DeepSeek 彻底颠覆了 xxx"、“所有人都必须知道的 xxx"。我一天刷两个小时。
脑雾,这是最近最明显的状态。
一天结束脑子里嗡嗡的,但坐下来想讲清楚一件事情,讲不清楚;想动手做一件事,启动不了。
那一刻我有点慌。
追新把我围进了一场陷阱
想了很久,我慢慢意识到 —— 追新本身,是一种“看起来在学习的逃避"。
它让你每天都有新的信息涌进来,让你感觉大脑是活的、是在进步的。但实际上你是在用输入量替代理解深度。
刷 100 篇 AI 新闻、刷 200 条 AI 短视频,跟读完一本《Deep Learning》的一章,需要的心智投入完全不在一个量级。前者是消遣,后者才是学习。大脑骗过了自己,把消遣当成了学习。
甚至我自己搭的基建也骗了我。我以为 8 个 workflow + DeepSeek 打分就能过滤掉噪音,留下真正重要的。但过滤掉噪音之后,剩下的“重要"还是多到读不完 —— 基建只是把焦虑变得有组织,没让焦虑消失。
还有一个更隐蔽的问题:追新的信息流有强反馈。你刷到一个炸裂消息,肾上腺素上来,点赞转发收藏,多巴胺在奖励你“发现了新东西"。但你读一本厚书的第 30 页,没有任何人为你拍手。短视频算法把这种反馈做到极致 —— 15 秒一次奖励,连“读完"的时间都省了。
这就是为什么我们宁可刷一百遍 Twitter、刷两小时视频号,也不愿意安安静静读一篇经典 paper 读两个小时。
一年下来,我觉得这事真正扣分的,不是“没学到东西",是“我的判断力和执行力一起在变钝"。
判断力变钝 —— 因为每天接收的都是“这个技术最牛"、“那个框架颠覆了一切"、“某某 lab 又一次 SOTA"这种强情绪的叙事,渐渐你没办法分辨哪个是真的方法论突破、哪个只是运营包装、哪个是短期曲线但长期会死掉。你从有自己判断的人,变成了在转述别人的判断的人。
这一点不是凭空得来的 —— 上个月我在求职的时候被照了一次镜子。
那段时间我也陷在“广度优先"里,面了一圈之后发现一个规律:很多面试官,甚至是一些部门负责人、CEO,都会侃侃而谈自己对 AI 了解多广。某大厂 A 的 AI 负责人当面跟我说,“我 2 个月就把 AI 最新的所有知识都吸收完了"。我当时也在追新的节奏里,聊得很投机,聊了大约一个半小时,2分钟后,HR通知我面试通过。我那会儿还觉得挺好,没觉察出什么问题。
但过了几周再回想那场对话,我发现整场聊天的话题是浮着的。每个名词都飘过,每个热点都点到,但没有一个问题真正落下来去拷问“这个方法的边界在哪"、“为什么不选另一个方案"、“三年后这条路会不会死掉"。两个人其实都在转述别人的判断,只是转述得都很熟练而已。
那一刻我才意识到,疯狂追了一年新的我,和那位“2 个月吸收完所有 AI 知识"的负责人,本质上是同一类人 —— 都掌握了大量 AI 词汇,都能 15 分钟讲清楚一个新概念,但都没有自己的分辨线。
这比脑雾更让我慌。
执行力变钝 —— 这一条更致命。因为当你脑子里同时装了“应该学 LangGraph"、“也要看 DSPy"、“Anthropic 新的 Skills 系统好像必须试"、“MCP 不能落下"、“AutoResearch 超牛批(确实是个很好的范式)"、“古墓丽影的主演也出了个记忆系统?"、“kapathy LLM Wiki——知识管理才是未来"... 你就什么都启动不了。每个新信号都在提醒你“还有别的该学",但真要选一个坐下来干,反而选不出来。
脑雾 + 选择瘫痪,是追新一年、疯狂做基建一周的我最终状态。
被那场面试照过镜子之后,我反复在想一个问题 —— 追新到底是为了什么?
想了很久,我给自己的答案是:追新只有一个目的 —— 了解趋势,辅助自己判断趋势,提前一个月、两个月、甚至一年去下注。
追新是手段,判断力才是目的。如果追新不能转化成判断力,它就只是信息的过境 —— 过境得越多,自己越空。
那判断趋势的底气从哪来?不是从每天刷 100 条 AI 新闻里来,是自上而下对行业的理解、对技术的理解 —— 这个只能自己啃论文、自己画图谱、自己反复问答才长得出来。
换句话说:追新是浅层信号,深耕是判断燃料。没有深耕做底,再多的追新都只是在脑子里堆砖头,堆不成房子。
意识到这个之后,我给自己立了几条规矩。下面这几条,不是什么完美方法论,也不适合所有人 —— 只是我在试,目前对我自己管用的版本。
沉淀,我给自己的 3 个方法
1. 趋势判断:从上到下看图谱,然后选一块
第一条是 —— 趋势要看,但不是每天看,是每隔一段时间系统地看一次。
我的做法是,每两三个月花一个周末,把自己关于“AI 整体图谱"的理解刷新一遍。模型层、Agent 层、记忆层、工具层、应用层,每一层主流方向是什么,各家在解什么问题,哪些方向是大家在卷、哪些方向是突破路径。
这不是为了跟上每个最新进展,是为了对整张图有一个稳定的概念地图。有了这张地图,后面再看到任何新东西,我可以很快地把它“挂到对应的位置"。
然后,基于这张地图,我会选一块 —— 最多两块 —— 作为我当下真正要投入时间的方向。
比如我自己这一年,选的是 Agent 的自进化和长期记忆系统。不是因为它们最火(其实这两个反而没那么火),是因为我判断它们处在“当前大家还没解决好、但未来 3 年一定会解决"的区间。这种区间值得提前扎进去。
选定之后,其他方向我就只看不学:扫一眼,知道在发生什么,就够了。不再花时间深入。
这一步最难,难的不是选什么,是忍住不选更多。
2. 深耕:读论文,建一条属于自己的分辨线
选定方向之后,论文是必须读的。但怎么读,是有方法的。
第一件事:别按时间线从早到晚硬啃。
正确的做法是反过来 —— 先找这个方向最近 1-2 年的 3-5 篇综述或高被引论文,各花 10 分钟扫一遍(标题、摘要、图、intro、conclusion)。看它们都引了谁、哪些作者反复出现 —— 这些就是你该精读的 key papers,通常不超过 10-20 篇。
让已经读过一万篇论文的综述作者帮你筛,比自己按时间线摸索快 5-10 倍。
第二件事:把 AI 用起来,但知道它的边界。
我现在读论文的工作流是按“动作"分的,不是按“工具"分的:
- 批量筛(100 → 20 篇):Elicit 做 semantic 搜索 + 结构化提取(研究问题 / 方法 / 结论 / 局限),快速判断相关性。
- 单篇 PDF 随手读:豆包浏览器插件是我用最顺的一个 —— 右侧原文、左侧对话,对着 PDF 边看边问,中文总结、公式解释、悬停查术语都能在同一个面板里完成,不用把论文传到任何 SaaS。


豆包插件读 arXiv 论文的典型布局 —— 右边原文、左边对话,划词就能“AI 搜索 / 解释 / 翻译 / 问豆包"。
- 多文档对谈式理解:NotebookLM 把筛出来的 10-20 篇塞进同一个 notebook 做交叉对谈,音频概览通勤时很好用。(Nature 2025 年 12 月发的 FOCUS 工作流里,这是被重点推荐的核心工具。)
- 方法论深度拷问:Claude / ChatGPT 长上下文用来做具体问题的深度质疑 —— “这篇如果数据量扩 10 倍会崩在哪?"、“这个方法和 XX 的本质假设差异是什么?"、“这个结论 3 年后会不会被推翻?"
但有几件事 AI Agent 替不了我自己:
- 怀疑(抽样回原文比对) —— Agent 提的数字和结论,我得自己抽几条回去看原文到底在哪说的。Nature Digital Medicine 2025 年报告的医学 summarisation 最佳结果是 1.47% 幻觉率 + 3.45% 遗漏率 —— 也就是说,一份“看起来完整"的总结里,平均每 20 条结论就有 1 条是错的或漏的,你不知道是哪一条
- 判断(方法学审视) —— Agent 会总结“论文说了什么",但不会告诉你“这篇方法有没有问题";样本有没有偏、是不是 p-hacking、实验设计合不合理 —— 这些只有人能看出来
- 外推(场景迁移) —— “这篇在 A 数据集上成立的结论,能不能用在我这 B 场景里?" Agent 看不到你的 B 场景,它给的是“论文说了什么",不是“论文对你有用吗"
所以我对 AI 辅助读论文的心法是:让它做“搜全、提准、整齐",我做“判断、怀疑、外推"。
第三件事:一篇重要论文分几次读,不是一次读完。
这是 Stanford 的 Keshav 在《How to Read a Paper》里讲的三轮阅读法,非常受用:
- 第一轮(10 分钟):标题 + 摘要 + 图 + intro + conclusion。读完能判断值不值得花 1 小时精读。
- 第二轮(1 小时):仔细看图表数据、跳过证明、通读正文。读完能向别人讲这篇在做什么、结论是什么、证据够不够。
- 第三轮(几小时到半天):重推导公式、甚至重新实现关键算法。只有真值得深耕的 key paper 才走到这一轮。
我自己的节奏是每周 1 篇走到第二轮,一个月里挑 1 篇进入第三轮。比“一周读 10 篇每篇都只看摘要"的做法有价值太多了。
脉络清楚之后,分辨力才真正开始长出来。你看到新出来的论文,不用再依赖别人解读,你自己就能判断:这是真推进了一步、还是只是换了个测评指标讲故事?这个方法是会被未来 follow 的、还是昙花一现?
我自己非常明显地感觉到:专注一个方向、扎扎实实啃过 15-20 篇 key paper 的我,和只刷 newsletter 的我,是两个人。前者在方向上是有声音的,后者只是别人声音的扩音器。
另一个副作用是 —— 读多了之后,你对“包装"会非常敏感。什么样的文章是在真讲方法论,什么样的只是在拼关键词蹭热度 —— 几乎是一眼就能看出来。
还有一个我最近才开始尝试的动作,严格说是深耕的进一步 —— 复现论文。
读懂一篇 paper、能拿出来和别人讲,是深耕的及格线;能把它复现出来、跑通基准、自己在数据上调一遍 —— 这才是真正的深耕。在 2026 年,这件事的门槛被 Coding Agents 拉低了很多 —— 我目前正在搭一套基于 harness + skill 的复现环境,想把“从 arXiv 到可跑 repo"这件事自动化一部分。
这条我还在跑、没跑完,所以暂不写进上面那“3 条规矩"里。但我已经能预见几个大概率会卡住的地方:
- 代码可获取性 —— 顶会 paper 里只有 ~30% 能端到端复现,剩下的要么没开源,要么 README 根本跑不起来
- 评测数据 —— 对 Agent / RAG / LLM 类 paper,评测集往往是最大成本,可能比模型本身还难构造
- 隐性超参 —— 作者没写全的 lr、warmup、seed;很多 paper 不复现就是死在这一步
- 基准可对齐 —— “跑通了" ≠ “结果可比";原 paper 的 baseline 换个库实现,数字就差好几个点
先记一个预感:这条路跑通之后,它可能会成为“追新党"和“深耕党"最大的分水岭 —— 因为复现意味着你真的在和 paper 的“实证"较劲,而不是在和 paper 的“叙事"打交道。
等我自己跑过 5-10 篇复现再回来把这一节补完。
3. 多问多思:把“问"本身当一种能力
“多思多问"这四个字,我原来就是这样写的。后来写这篇博文的时候,自己看着看着,越看越不对劲 —— 顺序错了。应该是“多问多思"。
多思多问,是先思后问。“思"在前,默认你已经知道自己要想什么;“问"在后,好像只是补一个疑问句。结果往往是:想半天想不清楚,问也问得空泛。
多问多思,才是真正的深耕路径。问在前,强迫自己把模糊的感觉收敛成具体的、有边界的问题;思在后,思考才有方向。
这个纠正我写下来之后愣了一会儿 —— 发现这就是我这一年从“追新"转向“深耕"之间最大的变化。
一年前,我问的问题是这样的:
- “Skills 是什么?"
- “MCP 怎么用?"
- “要不要搭记忆系统?"
问了等于没问。搜一圈文档、看两个视频,就以为“懂了"—— 但其实没留下任何有用的东西。问题本身没边界,答案就没边界;问题是平的,思考就起不来。
现在我问的问题,是这样的:
在 200K 上下文窗口下,skill 的默认载入数量控制在多少合适?单个 skill 的平均 token 占多少?什么时候应该用 command(避免侵占上下文)、什么时候应该用 skill(模型需要持续指导)?
CLI 装在开发机本地、管理成本高;MCP 通过协议加载、有权限与方法数约束。哪一种场景选哪种?MCP 的方法数量超过多少就会产生显著的路由噪声?
记忆系统为什么不能仅仅用 CLAUDE.md + 分层 rules 做文件级上下文管理?PDF、外链、视频这类内容无法快速 markdown 化 —— 但除此之外,ROT 问题是绕不开的理由吗?
Spec Kit、BMAD、Tessl 这些第三方 SPEC 一直在演进,有些经历过 v1→v2→v3 的完全重构。我的内部领域知识怎么封装、怎么做版本管理,让外部 SPEC 不管怎么演进都能通过 Agent 快速适配?
这些问题看起来只是“更具体",但本质上是四种截然不同的问法:
第一种,带约束条件问。 不问“XX 是什么",问“在 X 条件下,Y 的边界是多少"。约束一带上,答案就从抽象建议变成具体配方。
第二种,带决策边界问。 不问“XX 怎么用",问“A / B / C 之间,什么时候该用哪个"。这种问法强迫你把每个选项的适用场景想透,想不透就是还没想明白。
第三种,带反直觉的怀疑问。 别问“XX 为什么好",要问“为什么不用 Y"。被“为什么不"这一问逼着想清楚之后,真正的设计决策才扎实得起来。
第四种,带演化视角问。 不问“现在怎么做",问“如果未来 X 变了,我还能不能适配"。问题一旦进入演化视角,架构决策的稳健性完全不同。
写另一篇博文之前,我给自己初步列了一张问题清单:6 个一级领域 × 每个领域 2-5 个二级子问题 ≈ 28 个(一级领域包括:上下文管理、MCP/CLI/Agent 取舍、CLAUDE.md 结构、记忆系统、SPEC 演进、构建自己的 agents)。
但这张清单每一周都在长。每想透一个问题,底下就会裂出 3 个新问题;每读一篇 paper,二级子问题就多出一两条;每做一次实验,一级领域的边界都在变。
一年前我列不出这 28 个问题,那时候我还在追别人的问题。现在能列出来、而且看着它一周一周地长 —— 这才是深耕的真正样子:不是问题减少,是问题变得更具体、更有边界、互相之间能连上。
写到这里,我其实已经不知不觉走完了前两步 —— Question(问) 和 Reason(想)。问在前、思在后,这是第 3 条规矩的核心。
但还有第三步 —— Document(写)。
问出来、想透了之后,还要写下来。不是放在收藏夹里,而是写成文章、写成技术笔记、写成一篇可以拿出去让别人质疑的东西。
我的博客标语是三个词 —— Question · Reason · Document。
没有 Question,追的只是别人的问题;有 Question 没 Reason,只是情绪表达;有 Question 有 Reason 没 Document,过两周自己就忘了。
这一篇博文,就是我在走这三步 —— 问了、想了、现在写下来。
最后那句话
写到这里其实方法并不复杂。三条,不涉及任何工具、任何框架、任何新名词。
我试着再往下压一层,压到最短、压到自己能随口说出来的那一句 —— 是这样:
AI 时代,追新不是能力,会提问,多思考,重沉淀!
这句话不工整,也没什么文采。就是我自己跟自己说的话。
我把它写在笔记本第一页。每次打开电脑前,看一眼。
AI 每天都在更新。我承认我永远都追不上。
但我可以不慌。我可以选一块,扎进去,读几十篇论文,然后在每次对话里都多问一个问题。三年之后,我会比 99% 每天仅刷新推特的人,对这一块更有判断力。
这就够了。
这就是我一年的沉淀。