System.Pensieve
Handpicked Insights
draft-NEGA有感
作者分享了对NEGA和pingo-ai的个人思考与见解。文章内容深入浅出,探讨了技术背后的理念与个人反思;值得关注其对新兴AI概念的独特视角;整体思考富有启发性,展现了技术探讨的人文温度。
当AI开始说日语:从一次语言崩坏,到“Cogent”的诞生
文章通过一个AI助手意外输出日语的案例,生动揭示了LLM推理中注意力机制的微妙影响。作者通过严谨的对照实验,排除了随机性,将原因指向项目名“nega”在上下文中的高权重;深入浅出地结合注意力机制的U型分布和边界效应,解释了这一“语言崩坏”现象;案例虽小,却为理解AI的“黑箱”决策提供了极具启发性的视角。
draft-Leverage agents, own the risk
文章探讨了在生产环境中负责任地部署AI Agent代码所面临的挑战。作者指出Agent代码生成量与人工审查量之间存在巨大鸿沟,即使CI全绿也无法保证代码质量;强调了在追求自动化效率的同时,必须建立有效的风险管控机制。
chunk 中的内容怎么影响 Embedding 空间的分布?
本文介绍了一个交互式教学网站,旨在系统讲解Embedding技术的核心知识点与应用。网站涵盖了从基础概念、分片策略、检索范式到模型训练、生产落地的全流程,并通过可视化工具(如UMAP)和预设实验(如不同分片策略对比)来演示chunk内容如何影响Embedding空间分布及检索效果。
Am i losing my ability? My Answer: Yes! But ...
文章探讨了AI时代程序员能力变迁的问题。作者认为,随着编程语言不断向自然语言靠拢和AI代码生成工具的普及,对底层代码实现的关注正在被对“意图与约束”的把握所取代。每一次技术抽象都会淘汰旧技能,但也会创造更高层次的角色,如驾驭新工具、重写规则的“Harness Engineer”。真正的职业生命力在于敏锐识别哪些技能即将贬值,并主动转向掌握定义未来的新能力。
LLM-utils
本文介绍了三个用于评估大语言模型(LLM)性能的在线竞技场或排行榜网站,主要聚焦于代码生成和软件工程任务(如SWE-bench)的模型能力评测。这些平台提供了不同模型在特定基准测试中的排名和表现对比。
Polanyi-we know more wo can tell
文章探讨了哲学家迈克尔·波兰尼的“缄默知识”理论及其在当今大语言模型领域的意外应用。作者分析了“我们知道的比能说出的更多”等核心观点,并指出LLM中编码的隐性知识与波兰尼的理论高度相似。文章进一步讨论了当前提示工程实践(如思维链)可能因过度形式化而导致知识失真,并警示随意使用“Michael Polanyi”这类强语义提示词可能干扰模型任务,强调理解原理比盲目套用更重要。
AI-Native Corp
“AI Native公司的本质是用Agent网络重写组织架构,实现人效的极致提升。其核心在于将AI Agent作为组织底层设计基础,而非简单工具;通过Agent处理信息对齐,将沟通成本聚焦于决策;构建”单人+Agent”闭环功能单元,大幅降低跨人协调成本;并以Agent优先原则设计内部系统,支持自愈与协同。”
Karpathy"知识编辑"有感——这么巧,我也在做。
作者受Karpathy关于知识库应具备自进化能力的观点启发,分享了自己正在开发的个人知识库项目BookAnything。该项目旨在解决AI时代知识更新过快、传统工具跟不上的困境,目前已实现知识结构化整理,并正致力于实现知识的自进化与自探索能力,以自动生成新知识库并应用于实际业务场景。
为什么 Harness?
本文探讨了软件工程范式从提示词工程、上下文工程到脚手架工程的演进。文章指出,随着大模型智力成为公共品,未来的核心竞争力在于构建名为“Harness Engineering”的治理系统,即一套包含约束、反馈和可观测性的运行时环境,以确保AI Agent在复杂任务中行为可控、可靠且高效。
近日阅读
文章记录了作者近期的阅读内容,主要涉及一份关于深度学习的PDF教程和一本名为《LLM Transformer: From Zero to One》的在线书籍。作者评价后者知识点通俗易懂,但认为其在算法深度探讨上有所不足,并推荐了“苏神”的科学空间博客作为对比参考。
Page Agent 深度技术分析报告
本文是一份关于阿里巴巴开源项目 Page Agent 的深度技术分析报告。报告详细剖析了其整体架构、基于 Re-act 循环的核心执行流程、DOM 提取与简化、内置工具系统、LLM 客户端设计、视觉反馈系统以及 Prompt 设计策略等关键技术模块。分析旨在评估其与 atoms-plus 项目集成的可行性,并总结了关键设计决策和可能的集成方向。