Langchain-Chatchat多实例负载测试：JMeter压测结果分析-智慧文博士

Langchain-Chatchat多实例负载测试：JMeter压测结果分析

在企业对数据安全与知识资产管控日益重视的今天，将大型语言模型（LLM）能力本地化部署已成为金融、医疗、政务等高敏感行业的重要选择。然而，当我们将智能问答系统从单机演示推向生产环境时，一个核心问题浮出水面：这个看似流畅的本地AI助手，能否扛住真实业务场景下的并发冲击？

这正是我们聚焦Langchain-Chatchat 多实例负载测试的出发点。它不仅是技术验证，更是一次从“能用”到“可用”的关键跃迁。

Langchain-Chatchat 作为当前最受欢迎的开源本地知识库问答系统之一，其价值不言而喻——文档解析、向量检索、答案生成全流程闭环于本地，彻底规避了云服务带来的数据外泄风险。但随之而来的是性能瓶颈：LLM 推理本身资源消耗巨大，一次问答动辄数百毫秒甚至数秒，在多用户同时访问时极易出现排队、超时甚至服务崩溃。

如何破局？横向扩展——通过部署多个服务实例并配合负载均衡，将流量分散处理。这一思路看似简单，但在实际落地中却充满细节陷阱：向量库是否一致？GPU 显存如何分配？负载策略选轮询还是最少连接？更重要的是，我们如何科学评估这套架构的真实承载能力？

答案是压测。而 Apache JMeter，正是那把最锋利的性能解剖刀。

系统是如何跑起来的？

让我们先看看整个链路是怎么协同工作的。

用户提出一个问题，比如“公司报销流程是什么？”请求首先打到 Nginx，它像一位经验丰富的调度员，根据预设规则把任务分发给后端某个 Langchain-Chatchat 实例。该实例接收到请求后，立即启动 RAG（检索增强生成）流程：

使用 BGE 或类似 Embedding 模型将问题编码为向量；
在本地 FAISS 向量数据库中进行相似度搜索，找出最相关的几段文本；
将这些文本片段拼接成上下文，连同原始问题一起输入本地 LLM（如 Qwen、ChatGLM3-6B-GGUF）；
LLM 基于上下文生成自然语言回答，并返回给前端。

每个实例都拥有独立的推理进程和内存空间，彼此之间互不干扰。这种“复制+分流”的模式，理论上可以随着实例数量线性提升整体吞吐量。

upstream chatchat_backend { least_conn; server 127.0.0.1:8001; server 127.0.0.1:8002; server 127.0.0.1:8003; } server { listen 80; location /chat { proxy_pass http://chatchat_backend; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; } }

这里选用least_conn而非默认的轮询，是因为 LLM 请求耗时不均，采用“最少连接”策略能有效避免某些实例积压过多长尾请求，从而提升整体响应效率。

压测不是“砸流量”，而是有节奏的压力实验

很多人误以为压力测试就是“尽可能多地发起请求”，实则不然。无节制的洪峰只会让系统瞬间崩塌，得不到任何有价值的性能拐点数据。

我们在 JMeter 中这样设计测试计划：

线程组配置：
初始设置 50 个线程（虚拟用户），ramp-up 时间设为 60 秒，即每 1.2 秒新增一个用户；
循环次数不限，持续运行 5 分钟以上；
配合 CSV Data Set Config 加载不同问题，模拟真实多样输入。
HTTP 请求采样器：
```json
POST /chat
Content-Type: application/json

{“query”: “什么是Langchain-Chatchat？”}
```

监听器组合使用：
“聚合报告”看吞吐量、平均响应时间、错误率；
“响应时间图”观察随时间变化的趋势波动；
“活动线程数”监控并发增长是否符合预期。

⚠️ 特别提醒：JMeter 自身也是资源消耗大户。若在同一台机器上运行压测客户端和服务端，测试结果会严重失真。务必确保 JMeter 客户端独立部署。

当数据开始说话：我们看到了什么？

经过多轮测试，一组典型数据逐渐清晰：

并发用户数	吞吐量 (req/sec)	平均响应时间 (ms)	P95 响应时间 (ms)	错误率
20	8.2	240	380	0%
50	14.7	510	820	0%
100	16.3	1,020	1,650	1.2%
150	15.1	1,840	2,900	6.8%

趋势非常明显：
- 从 20 到 50 并发，系统仍处于弹性区间，吞吐量稳步上升；
- 达到 100 并发时，响应时间翻倍，P95 已接近 1.6 秒，用户体验明显下降；
- 超过 100 后，吞吐量不再增长反而略有回落，错误率陡增——这是典型的资源饱和信号。

结合服务器监控发现，此时三台实例中有两台 CPU 使用率持续高于 95%，内存接近上限，部分请求因超时被 Nginx 主动断开。

这意味着：当前硬件配置下，系统的稳定承载极限约为 80~100 并发请求。再多就属于“过载运行”，得不偿失。

性能瓶颈藏在哪一层？

很多人第一反应是“肯定是 LLM 推理太慢”。没错，但它不是唯一瓶颈。

我们逐层拆解：

1.Embedding 向量化阶段

虽然比推理轻量，但在高并发下也会形成微小延迟累积。若使用 CPU 进行 BGE-small 推理，每批次处理 32 句话约需 80~120ms。可通过批量合并请求优化，但 Langchain-Chatchat 默认并未开启批处理。

2.FAISS 检索性能

FAISS 本身极为高效，百万级向量检索通常在 10ms 内完成。但如果索引未持久化或每次重启重建，加载时间可达数十秒，严重影响首次响应。建议将.faiss和.pkl文件固化，并确保所有实例共享同一份副本。

3.LLM 推理引擎

这才是真正的“重量级选手”。以 6B 模型为例，在消费级显卡（如 RTX 3090）上生成 200 token 约需 1.5~3 秒。关键是显存占用高达 10GB+。如果多个实例共用同一 GPU 而未做隔离，极易发生 OOM。

解决方案也很直接：
- 使用CUDA_VISIBLE_DEVICES=0启动第一个实例；
-CUDA_VISIBLE_DEVICES=1启动第二个；
- 或者干脆用 CPU + llama.cpp 的 GGUF 模式降低依赖。

4.网络与序列化开销

别忘了，每一次/chat请求都要传输 JSON payload，返回几百到上千字的回答。在千人并发场景下，即使单次仅 1KB，总带宽也达 MB/s 级别。Nginx 层面启用 Gzip 压缩可显著缓解。

架构之外的设计权衡

除了技术实现，还有一些工程层面的考量往往决定成败：

✅ 共享 vs 独立向量库？

理想情况下，所有实例应加载相同的向量索引文件。否则会出现“问A实例知道，问B实例不知道”的诡异现象。推荐做法是构建完成后通过 NFS 挂载，或打包进 Docker 镜像统一发布。

✅ 是否引入缓存？

对于高频问题（如“入职流程”、“年假规定”），完全可以用 Redis 缓存问答对，TTL 设为 1 小时。实测显示，命中缓存的请求响应可压缩至 10ms 以内，极大减轻后端压力。

✅ 日志与可观测性

多实例意味着日志分散。必须建立集中式日志收集机制（ELK 或 Loki），否则排查问题如同大海捞针。尤其要关注以下日志关键词：
-"CUDA out of memory"
-"Read timed out"
-"Connection refused"

✅ 健康检查不能少

Nginx 可配置简单的健康探测：

server 127.0.0.1:8001 max_fails=3 fail_timeout=30s;

当某实例连续三次失败后自动摘除，待恢复后再重新纳入流量池，实现基本的自愈能力。

我们真正学会了什么？

这次压测的意义远不止拿到几个数字那么简单。它教会我们用工程思维去对待 AI 应用——它们不再是实验室里的玩具，而是需要被精心调校的生产系统。

你可能会惊讶地发现，LangChain 提供的强大抽象，在高并发下也可能成为负担。例如RetrievalQA.from_chain_type(chain_type="stuff")会将所有检索结果拼接到一条 prompt 中，一旦文本过长，不仅增加 token 消耗，还可能导致模型截断或推理变慢。在真实场景中，“map-rerank” 或自定义 chain 往往更合适。

同样，你以为部署了三个实例就能承受三倍流量？不一定。如果共享同一块 SSD 存储，IO 可能成为新瓶颈；如果都在一台主机上跑，CPU 缓存争抢会让性能低于预期。

所以，没有银弹，只有持续迭代。

最终我们得出的结论很朴素：
Langchain-Chatchat 完全具备支撑企业级知识服务的能力，但前提是必须经过严谨的负载测试与资源配置规划。

它的优势依然鲜明——数据不出内网、可深度定制、无持续调用成本；而通过多实例 + 负载均衡 + JMeter 验证的技术路径，我们成功将其从“演示系统”升级为“可用系统”。

未来，随着量化模型、推理加速框架（如 vLLM）、动态批处理等技术的成熟，这类本地 AI 系统的性价比还将进一步提升。而现在，正是打好基础的时候。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考