文档分块功能就是将文章按照一定规则进行分文档块,其主要目的是优化AI的学习过程,提高信息处理的效率和质量。
文本分块配置
在文档列表操作中可点击“分块”进入分块界面,分块前进行分块配置:
文本预处理
勾选了选项后会在分块前删除对应内容。例如:文章中有连续两个空格,预处理后便变成一个空格。选项如下:
1)替换掉连续的空格
2)替换掉连续的制表符
3)替换掉连续的换行符
4)删除所有 URL 和电子邮件地址
分块配置
- 分块模式:
1)智能切分:按照智能识别标记进行切分
2)按长度切分:按照内容长度进行切分
3)按一级标题切分:按照内容中“#”进行切分
4)按二级标题切分:按照内容中“#”、“##”进行切分
5)按自定义级别切分:可自己输入的标记进行切分,支持输入正则表达式 - 分隔符:文章优先以分隔符进行较小切分
- 最大长度:最终分块后一块的最大字符长度
- 分段重叠长度:分隔符内,相关联的两块内容,第二块包含第一块最后内容的长度
AI学习配置
- 生成领域树,用于AI学习:开启后,分块时自动生成领域树。生成后支持自行增加以及标签。
注意:文档需要ai自动学习时,必须有领域树
实例
原文
分块配置
按照配置分块步骤如下:
- 初步分块
首先根据文章中的一些特殊标记,如“#”、“**”、“一二三”、“第”等,将文章进行初步的分割,形成较大的块。 - 判断长度
检查初步分块后的每个块的长度。 - 细致分块
如果某个块的长度超过了设定的最大长度,那么就需要对这个块进行更细致的分割。这个步骤会使用分隔符(此时配置的是换行符)来进一步分割。 - 拼接结果
将细致分块后的结果进行拼接,目标是使每个块的长度尽可能接近最大长度600,并且块的数量尽可能多。也就是说,优先考虑块的数量,其次才是接近最大长度。 - 添加重叠内容
对于细致分块的部分,每块直接需要按照分段重叠长度加上一块最后对应内容在开头。分块结果
未超出长度按照智能识别内容标记进行分块,超出长度的再次进行分块
作者:敏 创建时间:2025-05-19 17:53
最后编辑:xlj 更新时间:2025-05-28 19:59
最后编辑:xlj 更新时间:2025-05-28 19:59
