文档分块功能就是将文章按照一定规则进行分文档块,其主要目的是优化AI的学习过程,提高信息处理的效率和质量。

文本分块配置

在文档列表操作中可点击“分块”进入分块界面,分块前进行分块配置:

文本预处理

勾选了选项后会在分块前删除对应内容。例如:文章中有连续两个空格,预处理后便变成一个空格。选项如下:
1)替换掉连续的空格
2)替换掉连续的制表符
3)替换掉连续的换行符
4)删除所有 URL 和电子邮件地址

分块配置

  • 分块模式:
    1)智能切分:按照智能识别标记进行切分
    2)按长度切分:按照内容长度进行切分
    3)按一级标题切分:按照内容中“#”进行切分
    4)按二级标题切分:按照内容中“#”、“##”进行切分
    5)按自定义级别切分:可自己输入的标记进行切分,支持输入正则表达式
  • 分隔符:文章优先以分隔符进行较小切分
  • 最大长度:最终分块后一块的最大字符长度
  • 分段重叠长度:分隔符内,相关联的两块内容,第二块包含第一块最后内容的长度

AI学习配置

  • 生成领域树,用于AI学习:开启后,分块时自动生成领域树。生成后支持自行增加以及标签。

    注意:文档需要ai自动学习时,必须有领域树

实例

原文

分块配置


按照配置分块步骤如下:

  • 初步分块
    首先根据文章中的一些特殊标记,如“#”、“**”、“一二三”、“第”等,将文章进行初步的分割,形成较大的块。
  • 判断长度
    检查初步分块后的每个块的长度。
  • 细致分块
    如果某个块的长度超过了设定的最大长度,那么就需要对这个块进行更细致的分割。这个步骤会使用分隔符(此时配置的是换行符)来进一步分割。
  • 拼接结果
    将细致分块后的结果进行拼接,目标是使每个块的长度尽可能接近最大长度600,并且块的数量尽可能多。也就是说,优先考虑块的数量,其次才是接近最大长度。
  • 添加重叠内容
    对于细致分块的部分,每块直接需要按照分段重叠长度加上一块最后对应内容在开头。

    分块结果

    未超出长度按照智能识别内容标记进行分块,超出长度的再次进行分块

作者:敏  创建时间:2025-05-19 17:53
最后编辑:xlj  更新时间:2025-05-28 19:59