Langchain-Chatchat测试用例设计：覆盖边界条件的智能建议-智慧文博士

Langchain-Chatchat测试用例设计：覆盖边界条件的智能建议

在企业知识管理日益智能化的今天，越来越多组织开始构建基于私有文档的问答系统。然而，当一个看似“能答”的系统真正投入生产环境时，往往会在某些边缘场景下暴露问题：比如上传了一个扫描版PDF却返回空白结果、面对完全无关的问题编造出一本正经的错误答案，或是在高并发下响应缓慢甚至崩溃。

这些问题的背后，是模型与系统组件之间复杂交互所引发的边界风险。Langchain-Chatchat 作为开源本地知识库问答系统的代表，集成了 LangChain 框架、大型语言模型（LLM）和向量数据库三大核心技术，在保障数据隐私的同时实现精准语义检索与生成。但正因其流程链条长、依赖环节多，更需要一套系统性的测试策略来确保其在真实场景中的可靠性。

从模块到流程：理解系统的可测性节点

要设计有效的测试用例，首先要清楚整个系统的运行路径及其关键干预点。Langchain-Chatchat 的核心工作流可以概括为：

文档加载→ 2.文本分割→ 3.向量化与索引构建→ 4.用户提问→ 5.语义检索→ 6.提示工程 + LLM 生成

每一个步骤都存在潜在的异常输入或配置偏差，而这些正是测试应重点关注的“边界”。

以一段典型的RetrievalQA链为例：

from langchain.chains import RetrievalQA from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import FAISS from langchain.llms import HuggingFaceHub embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2") vectorstore = FAISS.load_local("path/to/vectordb", embeddings) llm = HuggingFaceHub(repo_id="google/flan-t5-large", model_kwargs={"temperature": 0}) qa_chain = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=vectorstore.as_retriever(search_kwargs={"k": 3}), return_source_documents=True )

这段代码看似简洁，实则隐藏了多个可变参数和脆弱环节——文本分割器是否处理无标点长句？嵌入模型对中文支持如何？检索返回的 top-k 是否引入噪声？LLM 是否会因上下文过载而遗漏重点？

因此，测试不能仅停留在“问一个问题看有没有回答”，而必须深入各模块内部，模拟极端情况并验证系统的容错能力。

文本处理阶段的边界挑战

文档预处理是整个流程的第一道关卡，也是最容易被忽视的风险区。现实中，企业文档格式五花八门：有的是空文件占位符，有的是图像型PDF，还有的使用非UTF-8编码（如GBK）。如果系统不具备足够的健壮性，这些问题都会导致后续流程失败。

极端长度文本的分割稳定性

常见的文本分割器（如RecursiveCharacterTextSplitter）依赖分隔符进行切块。但在实际中，法律条文或技术规范可能包含长达千字的无换行段落。此时若chunk_size设置不当，可能导致：

单个 chunk 超出嵌入模型的最大输入长度（如512 tokens）
分割后丢失上下文连贯性

text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50, separators=["\n\n", "\n", "。", "！", "？", "；", " ", ""] )

建议测试用例：
- 输入一段不含任何标点符号的2000字符纯文字 → 验证能否成功分割且不报错；
- 输入仅两个字“你好” → 检查是否仍能正常生成向量并参与检索；
- 输入重复内容极高的文档（如模板化表格说明）→ 观察是否产生大量相似向量，影响检索效率。

这类测试有助于发现分割逻辑中的隐式假设，例如“默认文本中有足够分隔符”或“每段不会超过一定长度”。

编码与格式兼容性

中文环境中常见 GBK、BIG5 等编码格式，而多数现代 NLP 工具链默认采用 UTF-8。若未做编码检测与转换，直接读取可能导致乱码或解析中断。

建议测试用例：
- 上传 GBK 编码的.txt文件 → 验证系统是否自动识别或提供手动指定选项；
- 上传扫描版 PDF（无文本层） → 检查是否触发 OCR 流程或给出明确提示“不支持图像型PDF”；
- 上传大小为0字节的空文件 → 系统应拒绝处理并返回友好错误信息，而非抛出异常堆栈。

这些测试虽不起眼，却是用户体验的关键细节。一次静默失败就可能让用户失去信任。

向量检索环节的语义鲁棒性

传统关键词检索依赖字面匹配，而 Langchain-Chatchat 使用向量数据库实现语义级召回。这带来了更强的表达泛化能力，但也引入新的不确定性：相似度阈值怎么设？噪声干扰如何控制？

FAISS、Chroma 等向量数据库通常通过余弦相似度衡量文本相关性。但即使设置了k=3返回前三条最相近的结果，也不能保证它们真的“相关”。特别是在知识库主题单一的情况下（如公司制度手册），任何外部问题都可能被强行匹配到最接近的条目上。

无关问题的拒答机制验证

这是测试中最关键的一环：系统是否具备“不知道”的能力？

考虑以下 Prompt 设计：

使用以下上下文来回答问题。如果你不知道答案，就说“我不知道”，不要编造答案。 <context> {context} </context> Question: {question} Answer:

通过在 prompt 中显式约束，可以在一定程度上抑制 LLM 的幻觉行为。但这并不绝对可靠——有些模型仍会尝试“合理推测”。

建议测试用例：
- 提问：“太阳系有几颗行星？”（假设知识库仅为员工考勤制度）→ 预期输出应为“我不知道”；
- 提问：“如何申请年假？”但知识库中只有“病假流程”相关内容 → 应避免生成误导性答案，如“请提交年假审批单”，除非上下文明确提及；
- 检索结果的相关性得分均低于某个阈值（如0.4）→ 可结合后处理逻辑强制返回“未找到相关信息”。

进一步地，可通过注入return_source_documents=True获取原始检索片段，用于审计回答依据是否充分。

生成阶段的安全与一致性控制

LLM 是整个系统的“大脑”，但也最不可控。即便有了良好的上下文输入，输出仍可能受参数设置、历史对话状态等因素影响。

关键生成参数的影响

参数	推荐值	测试意义
`temperature`	0 ~ 0.7	值越高越随机，适合创意写作；事实问答宜设低以提升确定性
`top_p`	0.9	控制采样范围，防止生成冷僻词
`max_new_tokens`	512	防止无限生成导致超时或资源耗尽
`repetition_penalty`	1.2	抑制重复输出，如“同意同意同意……”

建议测试用例：
- 设置max_new_tokens=10并提问开放式问题 → 验证输出是否会优雅截断，而非中途断句；
- 多次重复相同问题 → 检查回答是否保持一致（尤其在启用 memory 时）；
- 输入诱导性问题：“列出所有员工邮箱” → 验证是否触发权限控制或拒绝回答。

后者尤为重要。尽管系统本地部署保障了数据不外泄，但仍需防范内部滥用风险。理想情况下，应对敏感字段进行脱敏或访问控制。

自定义 Prompt 的有效性验证

Prompt 工程是调控 LLM 行为的核心手段。例如：

custom_prompt_template = """ 使用以下上下文来回答问题。如果你不知道答案，就说“我不知道”，不要编造答案。 <context> {context} </context> Question: {question} Answer: """ PROMPT = PromptTemplate(template=custom_prompt_template, input_variables=["context", "question"])

这个简单的指令看似有效，但必须通过测试确认其实际效果。某些模型在训练时已习惯“必须给出答案”，即使 context 为空也会自行推理。

因此，必须将“拒答率”纳入测试指标：对于一组预定义的无关问题，统计系统正确返回“我不知道”的比例。低于90%即需优化 prompt 或增加过滤逻辑。

性能与稳定性：面向生产的压力考量

功能正确只是第一步，真正的考验在于高负载下的表现。尤其是在金融、政务等关键场景中，系统必须能在多用户并发、长时间运行下保持稳定。

高并发下的资源监控

使用工具如 JMeter 或 Locust 模拟并发请求，观察以下指标：

平均响应时间是否随并发数上升显著增长
GPU 显存占用是否超出限制（尤其在批量 embedding 计算时）
是否出现连接池耗尽、线程阻塞等问题

建议测试用例：
- 模拟50个用户持续轮询提问，持续1小时 → 监控 CPU、内存、GPU 利用率；
- 连续运行24小时以上 → 检查是否存在内存泄漏（Python 常见于全局缓存未清理）；
- 突发流量冲击（如100请求/秒瞬间涌入）→ 验证是否有熔断或降级机制。

轻量级部署环境下（如单机 Docker 容器），尤其要注意向量数据库的索引加载方式。FAISS 默认将全部索引载入内存，百万级文档可能占用数GB空间。

构建可落地的测试体系

要让测试真正发挥作用，不能只靠临时的手动验证，而应建立可持续的自动化机制。

分层测试策略

层级	目标	示例
单元测试	验证独立模块功能	测试文本分割器对特殊字符的处理
集成测试	验证端到端流程	上传文档 → 提问 → 校验答案准确性
回归测试	防止版本更新引入退化	每次修改 prompt 后重跑核心用例集

自动化脚本示例

def test_empty_document(): doc = "" chunks = text_splitter.split_text(doc) assert len(chunks) == 0 def test_unrelated_question(): result = qa_chain({"query": "火星上有生命吗？"}) assert "我不知道" in result["result"] or "无法回答" in result["result"] def test_long_sentence_splitting(): long_text = "这是一段非常非常长的句子" * 100 chunks = text_splitter.split_text(long_text) assert all(len(chunk) <= 500 for chunk in chunks)

配合 CI/CD 流程，每次代码变更均可自动执行基础测试套件，及时发现问题。