模型吞吐量低？HY-MT1.5-1.8B batch_size调优实战-智慧文博士

模型吞吐量低？HY-MT1.5-1.8B batch_size调优实战

你是不是也遇到过这样的情况：明明部署了轻量级的HY-MT1.5-1.8B翻译模型，用vLLM跑起来后，Chainlit前端一并发几个请求，响应就明显变慢，吞吐量上不去，GPU显存却没吃满？别急，这不是模型不行，大概率是batch_size没调对——它就像高速公路上的车道数，设少了车流堵成一团，设多了反而引发调度混乱。这篇文章不讲抽象理论，不堆参数公式，只带你从零开始，用真实部署环境一步步试出最适合HY-MT1.5-1.8B的batch_size值，让每一分显存都跑出实打实的翻译吞吐。

1. 先搞清楚：HY-MT1.5-1.8B到底是个什么模型

HY-MT1.5-1.8B不是普通的小模型，它是混元翻译系列里一个“小身材、大能耐”的代表作。整个HY-MT1.5版本包含两个主力模型：一个是18亿参数的HY-MT1.5-1.8B，另一个是70亿参数的HY-MT1.5-7B。它们共同支持33种语言互译，还特别照顾了5种民族语言和方言变体，比如藏语安多方言、维吾尔语伊犁话这些在通用模型里容易被忽略的语言点。

很多人第一反应是：“1.8B？那肯定比7B差一大截。”但实际测试下来，HY-MT1.5-1.8B在多数标准翻译评测集上，质量几乎追平7B模型，差距不到2个BLEU分。真正拉开体验差距的是速度——它推理快、显存占用低、启动快。量化后，连RTX 4090这样的单卡都能轻松扛起实时翻译服务，甚至能塞进边缘盒子，在展会现场、跨境直播、多语种会议系统里直接跑起来。换句话说，它不是“缩水版”，而是“精简优化版”：把资源花在刀刃上，不为冗余能力买单。

2. 为什么batch_size成了性能瓶颈？

在vLLM部署环境下，batch_size不是简单的“一次处理几句话”，它背后牵扯三个关键环节：

Prefill阶段：模型要把整段输入文本一次性编码，这个过程显存吃得多、计算密度高；
Decode阶段：逐个token生成译文，显存压力小但对调度延迟敏感；
KV Cache管理：vLLM靠PagedAttention高效复用历史缓存，但batch_size设得太大，会导致页面碎片化，反而拖慢新请求入队。

我们实测发现，HY-MT1.5-1.8B在A10G（24GB显存）上，用默认配置启动时，vLLM常把max_num_seqs设成256，看起来很“豪气”，结果一压测就露馅：QPS卡在8以下，平均延迟飙到1200ms，GPU利用率却只有65%。问题就出在这里——模型等数据，数据等调度，调度等显存腾出页块，形成隐形等待链。

更关键的是，HY-MT1.5-1.8B本身结构做了轻量化设计：层数少、FFN维度压缩、注意力头数精简。这意味着它Prefill阶段的计算并行度不如大模型高，盲目拉高batch_size，不会线性提升吞吐，反而让decode阶段的token生成排队更长。

3. 实战调优：四步法找出最优batch_size

我们不用玄学猜测，也不依赖理论峰值，而是用一套可复现、可验证的四步法，在真实Chainlit调用链路中跑出结果。所有操作都在标准vLLM+Chainlit部署栈下完成，无需改模型、不重训权重。

3.1 基准环境与压测准备

先确认你的部署基础：

vLLM版本：0.6.3（已验证兼容HY-MT1.5-1.8B的HuggingFace格式）
GPU：A10G（24GB）或同级显卡（RTX 4090/3090均可参考）
Chainlit前端：v1.2.200，通过HTTP API对接vLLM的OpenAI兼容端口
测试脚本：用locust模拟并发用户，固定请求内容（中文→英文翻译，长度控制在32~64字）

重点检查vLLM启动命令中的关键参数：

python -m vllm.entrypoints.api_server \ --model Qwen/HY-MT1.5-1.8B \ --tensor-parallel-size 1 \ --dtype bfloat16 \ --max-model-len 2048 \ --enforce-eager \ --port 8000

注意这里没设--max-num-seqs和--max-num-batched-tokens——这正是我们要调优的变量。

3.2 第一轮试探：从保守值开始（batch_size=8）

先设一个安全起点：--max-num-seqs=8。这是很多轻量模型的默认推荐值，也是Chainlit单次对话最常触发的并发量。

压测结果（10用户并发，持续2分钟）：

平均延迟：312ms
P95延迟：486ms
QPS：26.4
GPU显存占用：14.2GB（59%）
vLLM调度成功率：100%

看起来很稳，但QPS还有提升空间。观察nvidia-smi输出，GPU计算利用率（Volatile GPU-Util）平均只有52%，说明计算单元没吃饱。

3.3 第二轮突破：逐步放大，找到拐点（batch_size=16→32）

我们跳过中间值，直接试--max-num-seqs=16和--max-num-seqs=32，因为HY-MT1.5-1.8B的上下文窗口足够宽（2048），16句中短句并行Prefill仍能塞进显存。

batch_size	QPS	平均延迟	P95延迟	显存占用	调度失败率
16	41.7	385ms	592ms	17.8GB	0%
32	48.2	473ms	721ms	21.3GB	0.3%

QPS提升了近84%，但延迟也开始明显上扬。尤其当batch_size=32时，P95延迟突破700ms，对交互式翻译来说，用户已经能感知到“卡顿”。再往上涨到64？实测失败率飙升至12%，大量请求超时返回空结果——显存页碎片化问题彻底暴露。

3.4 第三轮精调：微调+组合策略（batch_size=24 + max_batched_tokens=1280）

既然32是临界点，我们试试非整数倍的24，并配合--max-num-batched-tokens限流，避免长文本拖垮整批。

启动命令改为：

python -m vllm.entrypoints.api_server \ --model Qwen/HY-MT1.5-1.8B \ --max-num-seqs 24 \ --max-num-batched-tokens 1280 \ --tensor-parallel-size 1 \ --dtype bfloat16 \ --max-model-len 2048 \ --enforce-eager \ --port 8000

效果立竿见影：

QPS：47.9（逼近32的峰值）
平均延迟：418ms（比32低55ms）
P95延迟：613ms（比32低108ms）
显存占用：19.6GB（82%）
调度失败率：0%

关键进步在于稳定性——即使突发15用户并发，延迟波动范围控制在±15%，而batch_size=32时波动达±42%。这说明24+1280的组合，既压榨了显存带宽，又给vLLM调度器留出了缓冲余地。

4. Chainlit调用链路的协同优化

光调vLLM还不够。Chainlit作为前端入口，它的请求组织方式会反向影响vLLM的batch效率。默认情况下，Chainlit每次用户发送消息，都发起一个独立HTTP POST请求，vLLM很难把多个用户的请求自动合并进同一个batch。

我们做了两处轻量改造：

4.1 后端代理层加批处理（Python FastAPI示例）

在Chainlit和vLLM之间加一层薄代理，把100ms窗口内的请求攒批转发：

# batch_proxy.py from fastapi import FastAPI, HTTPException from pydantic import BaseModel import httpx import asyncio from collections import defaultdict app = FastAPI() batch_queue = defaultdict(list) batch_lock = asyncio.Lock() class TranslationRequest(BaseModel): text: str source_lang: str = "zh" target_lang: str = "en" @app.post("/v1/batch-translate") async def batch_translate(request: TranslationRequest): async with batch_lock: # 将请求加入批次队列 batch_queue[request.source_lang + "_" + request.target_lang].append(request) # 等待100ms或积满8个请求 await asyncio.sleep(0.1) async with batch_lock: batch = batch_queue[request.source_lang + "_" + request.target_lang] if len(batch) == 0: return {"error": "no batch"} batch_queue[request.source_lang + "_" + request.target_lang] = [] # 批量调用vLLM async with httpx.AsyncClient() as client: try: resp = await client.post( "http://localhost:8000/v1/completions", json={ "model": "HY-MT1.5-1.8B", "prompt": [f"Translate from {request.source_lang} to {request.target_lang}: {r.text}" for r in batch], "max_tokens": 512, "temperature": 0.1 } ) return resp.json() except Exception as e: raise HTTPException(status_code=500, detail=str(e))

这样，原本分散的用户请求被聚合成batch，vLLM的max-num-seqs=24才能真正跑满。

4.2 Chainlit前端适配：启用streaming + 缓存提示

在chainlit.py里，把翻译调用从同步改成流式，并加本地缓存：

import chainlit as cl from chainlit.input_widget import TextInput from langchain_community.llms import VLLMOpenAI # 启用流式响应，降低用户感知延迟 @cl.on_message async def main(message: cl.Message): llm = VLLMOpenAI( openai_api_base="http://localhost:8000/v1", model_name="HY-MT1.5-1.8B", max_tokens=512, temperature=0.1, streaming=True # 关键：开启流式 ) # 简单的短语缓存（避免重复翻译常见问候） cache = { "我爱你": "I love you", "谢谢": "Thank you", "你好吗？": "How are you?" } if message.content in cache: await cl.Message(content=cache[message.content]).send() return # 正常调用 res = await llm.agenerate([f"Translate to English: {message.content}"]) await cl.Message(content=res.generations[0][0].text).send()

实测显示，开启streaming后，首token延迟从312ms降到186ms，用户感觉“一发即回”，心理等待时间大幅缩短。

5. 效果对比：调优前后的硬指标变化

我们用同一套压测脚本，在相同硬件上跑三组对照实验，结果非常直观：

指标	默认配置（batch=256）	保守配置（batch=8）	最优配置（batch=24 + tokens=1280）
QPS（每秒请求数）	7.2	26.4	47.9
平均延迟	1218ms	312ms	418ms
P95延迟	1892ms	486ms	613ms
GPU显存占用	22.1GB（92%）	14.2GB（59%）	19.6GB（82%）
GPU计算利用率	41%	52%	78%
调度失败率	8.7%	0%	0%

最值得强调的是：QPS翻了6.6倍，但平均延迟只增加了34%，P95延迟控制在600ms内——这对一个需要实时反馈的翻译服务来说，是质的飞跃。用户不再盯着转圈图标等结果，而是像用成熟API一样自然流畅。

6. 给不同场景的落地建议

batch_size没有万能解，要根据你的实际业务来选。我们总结了三类典型场景的推荐配置：

6.1 高并发API服务（如SaaS平台集成）

目标：支撑100+ TPS，容忍少量延迟上升
推荐：--max-num-seqs=32+--max-num-batched-tokens=1536
配套：必须加FastAPI批处理代理，前端做请求节流
注意：监控P99延迟，超过1s需告警扩容

6.2 边缘设备部署（如展会翻译盒子、车载系统）

目标：稳定运行，功耗优先，延迟敏感
推荐：--max-num-seqs=12+--max-num-batched-tokens=768+--dtype float16
配套：关闭--enforce-eager，启用vLLM的--gpu-memory-utilization 0.8防爆显存
注意：实测RTX 3060（12GB）在此配置下温度稳定在72℃以内

6.3 低延迟交互应用（如Chainlit聊天界面、会议同传）

目标：首token<200ms，整体响应<500ms
推荐：--max-num-seqs=16+--max-num-batched-tokens=1024+--enable-chunked-prefill
配套：前端强制streaming，服务端启用--disable-log-requests减少IO开销
注意：关闭所有非必要日志，vLLM启动加--disable-log-stats

最后提醒一句：别迷信“越大越好”。HY-MT1.5-1.8B的设计哲学就是“够用就好”，它的优势不在参数堆砌，而在结构精巧与工程友好。batch_size调优的本质，是让这个精巧设计在你的硬件上真正舒展拳脚——不是压榨极限，而是找到那个刚刚好的平衡点。