文档切片
一句话:把长文档拆成适合AI检索和回答的小片段,是RAG和知识库问答的关键步骤。
它是什么
文档切片是把PDF、Word、网页、说明书等长内容按段落、标题、语义或固定长度拆成小块。AI检索时不是直接读完整文档,而是先找出相关片段,再基于片段回答。切得太碎会丢上下文,切得太大又会降低检索精度。
适合干什么
- 做RAG知识库的人
- 处理PDF、手册、合同、产品文档的人
- 需要让AI基于长文档问答的项目
- 搭建企业内部搜索的人
不适合干什么
- 只有几百字的小文本
- 不需要检索的简单摘要任务
- 文档结构混乱且没有清洗
- 希望切一次永久不用维护的项目
普通人怎么用
- 先按标题和段落拆分
- 保留每个片段所属文档和章节
- 让每个片段尽量表达完整意思
- 为片段加入标题、来源和页码
- 用真实问题测试能否检索到正确片段
进阶用户怎么用
- 使用递归切分保留层级结构
- 为表格、代码、FAQ使用不同切片策略
- 给相邻片段设置重叠内容
- 针对召回失败的问题调整切片大小
常见误区
- 按固定字数硬切,句子和表格被切断
- 切片没有来源信息,答案无法追溯
- 所有文档都用同一种切法
- 只看切片数量,不看检索命中率
和相似工具的区别
- 文档切片 vs 文档摘要:切片是为了检索和问答,摘要是为了压缩内容给人阅读。
- 文档切片 vs 向量化:切片是拆内容,向量化是把每个片段变成可检索的向量。
入门步骤
- 选一份代表性文档
- 按标题拆成片段
- 给每段加来源信息
- 生成向量或索引
- 用10个真实问题测试
- 根据失败案例调整切法
推荐工具(第三方)
LangChain、LlamaIndex、Dify、Unstructured、Python