← AI 百科

文档切片

AI编程 · AI编程基础
一句话:把长文档拆成适合AI检索和回答的小片段,是RAG和知识库问答的关键步骤。

它是什么

文档切片是把PDF、Word、网页、说明书等长内容按段落、标题、语义或固定长度拆成小块。AI检索时不是直接读完整文档,而是先找出相关片段,再基于片段回答。切得太碎会丢上下文,切得太大又会降低检索精度。

适合干什么

  • 做RAG知识库的人
  • 处理PDF、手册、合同、产品文档的人
  • 需要让AI基于长文档问答的项目
  • 搭建企业内部搜索的人

不适合干什么

  • 只有几百字的小文本
  • 不需要检索的简单摘要任务
  • 文档结构混乱且没有清洗
  • 希望切一次永久不用维护的项目

普通人怎么用

  • 先按标题和段落拆分
  • 保留每个片段所属文档和章节
  • 让每个片段尽量表达完整意思
  • 为片段加入标题、来源和页码
  • 用真实问题测试能否检索到正确片段

进阶用户怎么用

  • 使用递归切分保留层级结构
  • 为表格、代码、FAQ使用不同切片策略
  • 给相邻片段设置重叠内容
  • 针对召回失败的问题调整切片大小

常见误区

  • 按固定字数硬切,句子和表格被切断
  • 切片没有来源信息,答案无法追溯
  • 所有文档都用同一种切法
  • 只看切片数量,不看检索命中率

和相似工具的区别

  • 文档切片 vs 文档摘要:切片是为了检索和问答,摘要是为了压缩内容给人阅读。
  • 文档切片 vs 向量化:切片是拆内容,向量化是把每个片段变成可检索的向量。

入门步骤

  • 选一份代表性文档
  • 按标题拆成片段
  • 给每段加来源信息
  • 生成向量或索引
  • 用10个真实问题测试
  • 根据失败案例调整切法

推荐工具(第三方)

LangChain、LlamaIndex、Dify、Unstructured、Python