最近在做提升召回率的工作,对于 Embedding 中各阶段很感兴趣,于是做了一个交互教学网站,来讲解 Embedding 涉及的大部分知识点。
功能模块
| 模块 | 内容 |
|---|---|
| 概念讲解 | Embedding 原理、余弦相似度、QKV 注意力机制、Q2Q/Q2A/A2A 检索范式图文讲解 |
| Playground | 自由输入文本,实时生成 Embedding 并在 UMAP 2D 空间中可视化 |
| 分片实验室 | 5 个预设实验对比不同分片策略的效果(单主题/多主题、转折词、序号列表等) |
| 检索范式 | Q2Q / Q2A / A2A 三种检索模式的并排对比演示 |
| 模型训练 | Bi-Encoder 架构、训练三元组、对比学习动画、难负例与数据质量 |
| 检索失败 | 三种常见失败模式:语义稀释、语义鸿沟、否定陷阱 |
| Top-K 与阈值 | 相似度分布可视化、Precision/Recall 权衡、交互式阈值调节 |
| Reranker 原理 | Bi-Encoder vs Cross-Encoder 对比,两阶段检索排序演示 |
| HyDE 原理 | 假想文档 Embedding 的向量空间可视化与相似度提升对比 |
| 稀疏 vs 稠密 | BM25 vs Embedding 排序对比、RRF 混合检索、分数分布对比 |
| Chunk 构建 | 6 类噪声源(格式/元数据/符号/样板/提取残留/冗余)对 Embedding 的量化影响 |
| 向量索引 | 暴力检索 vs ANN、HNSW/IVF/PQ 对比、efSearch 调参、Recall-延迟权衡、索引选型决策 |
| 数据与微调 | 训练数据来源(FAQ/日志/LLM 合成/人工标注)、负样本策略、微调决策树与检查清单 |
| 生产落地 | 索引生命周期管理、模型版本迁移、线上监控指标、常见故障排查指南 |
embedding-lab-embedding.html
Loading...