RAGFlow 各切分方法的含义如下,结合文档结构、场景特点等设计,以适配不同类型的知识源:
1. General(通用分块)
- 逻辑:结合文本排版、格式、语义关联等因素确定分割点,再根据“建议文本块大小(Token 数)”,将文本切分为合适的块。
- 支持格式:DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML 等多格式。
- 过程:先用视觉检测模型把连续文本分割成多个片段,再将片段合并成 Token 数不超过设定值的块。
2. Q&A(问答分块)
- 逻辑:专为“问答对”类数据设计,每行“问题 - 答案”作为独立块。
- 支持格式:Excel、CSV/TXT。
- Excel:需包含两列(无标题),第一列是问题、第二列是答案。
- CSV/TXT:需用
UTF-8
编码,且以 TAB 作为问题与答案的分隔符;不符合规则的行会被忽略。
3. Resume(简历分块)
- 逻辑:不做“分块”,而是将简历解析为结构化数据(如提取学历、工作经历等字段)。
- 支持格式:DOCX、PDF、TXT。
- 价值:方便 HR 等场景下,通过自然语言交互快速筛选符合条件的候选人。