Qwen All-in-One上线 checklist：正式环境部署清单-智慧文博士

Qwen All-in-One上线 checklist：正式环境部署清单

1. 为什么需要一份正式环境部署清单？

你有没有遇到过这样的情况：本地跑得好好的模型服务，一上正式环境就报错？不是缺依赖，就是显存爆了；不是端口冲突，就是权限不够；好不容易调通了，第二天又因为某个配置没固化而失效……这些问题在轻量级AI服务部署中尤其常见。

Qwen All-in-One 虽然主打“轻”和“简”，但正式环境不比开发实验台——它要稳定、可复现、可监控、可交接。一份靠谱的上线 checklist，不是为了走流程，而是帮你把“能跑”变成“稳跑”，把“临时能用”变成“长期可靠”。

这份清单不讲原理，不堆参数，只列你在真实服务器上必须确认、必须执行、必须验证的12个关键动作。每一条都来自真实踩坑记录，覆盖从系统准备到服务守护的全链路。

2. 系统与环境准备 checklist

正式环境不是你的笔记本，它需要更严谨的基座。以下检查项请逐条确认，建议用打钩记录：

2.1 基础系统要求

确认操作系统为Ubuntu 22.04 LTS 或 CentOS 7.9+（其他发行版需额外验证 glibc 版本兼容性）
确认 Python 版本为3.9 或 3.10（3.11+ 存在部分 Transformers 兼容问题，3.8 已逐步弃用）
确认pip已升级至最新稳定版：pip install --upgrade pip

2.2 硬件资源底线

CPU：至少4 核 / 8 线程（Qwen1.5-0.5B 在 FP32 下单次推理约占用 2–3 核持续计算）
内存：≥ 6GB 可用 RAM（模型加载约占用 1.8GB，加上 Web 框架、缓存与系统开销，低于此值易触发 OOM）
磁盘：≥ 2GB 可用空间（含模型权重、日志、临时文件；模型本身仅 1.1GB）

2.3 关键依赖预检

运行python -c "import torch; print(torch.__version__)，确认输出为≥ 2.0.1（低于此版本可能无法正确加载 Qwen 的 RoPE 配置）
运行python -c "import transformers; print(transformers.__version__)"，确认输出为≥ 4.36.0（旧版对 Qwen1.5 的 chat template 支持不完整）
检查是否已安装sentencepiece：pip show sentencepiece—— 若未安装，立即执行pip install sentencepiece（Qwen tokenizer 强依赖，漏装会导致 tokenizer 初始化失败）

** 注意**：不要使用conda安装 PyTorch + Transformers 组合。实测 conda-forge 渠道的 transformers 4.36.x 与 PyTorch 2.0.1 存在 tokenization 行为差异，导致 prompt 模板解析错位。坚持 pip 安装原生 wheel 包。

3. 模型与代码部署 checklist

Qwen All-in-One 的“零下载”是相对的——它不下载 BERT、不下载 spaCy，但 Qwen1.5-0.5B 权重仍需首次拉取。这一环节最容易卡在防火墙、网络超时或缓存污染上。

3.1 模型获取方式选择（二选一）

推荐：离线模型包部署
提前在有网环境下载完整模型包：

git clone https://huggingface.co/Qwen/Qwen1.5-0.5B # 删除 .git 目录，压缩为 qwen1.5-0.5b-offline.tar.gz tar -czf qwen1.5-0.5b-offline.tar.gz Qwen1.5-0.5B/

将压缩包拷贝至目标服务器，解压后，在代码中指定model_path="./Qwen1.5-0.5B"。这是最可控、最可审计的方式。

备选：在线自动加载（仅限内网可信环境）
确保服务器能直连 Hugging Face（检查curl -I https://huggingface.co是否返回 200），并设置超时与重试：

from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen1.5-0.5B", trust_remote_code=True, local_files_only=False, # 允许远程加载 resume_download=True, # 断点续传 etag_timeout=120 # 加长超时，避免因网络抖动中断 )

3.2 代码结构与路径固化

确认项目根目录下存在且仅存在一个app.py（主服务入口）和config.py（配置中心）

config.py中必须明确定义以下三项，禁止硬编码在 app.py 中：

MODEL_PATH = "./Qwen1.5-0.5B" # 绝对路径或相对于 app.py 的相对路径 DEVICE = "cpu" # 强制设为 cpu，禁用 cuda 自动探测 MAX_NEW_TOKENS = 64 # 情感分析严格限制，对话任务可放宽至 128

检查app.py开头是否包含if __name__ == "__main__":守卫，并通过uvicorn启动（非python app.py直接运行）：
```
uvicorn app:app --host 0.0.0.0 --port 8000 --workers 1 --log-level warning
```

3.3 Prompt 模板校验（极易被忽略！）

Qwen All-in-One 的双任务能力完全依赖 prompt 工程。请打开prompts.py（或等效模板文件），确认以下两段 system prompt 存在且未被注释：

# 情感分析专用 prompt（输出必须为 "正面" 或 "负面"，无任何额外字符） SYSTEM_PROMPT_SENTIMENT = "你是一个冷酷的情感分析师。请严格根据用户输入内容，判断其整体情感倾向。只输出两个字：'正面' 或 '负面'。不要解释，不要加标点，不要换行。" # 对话任务 prompt（启用标准 Qwen chat template） SYSTEM_PROMPT_CHAT = "你是通义千问，一个乐于助人、富有同理心的 AI 助手。请用自然、简洁、有温度的语言回复用户。"

** 验证方法**：手动用transformers加载模型后，打印tokenizer.apply_chat_template输出，确认 sentiment prompt 被正确包裹在<|im_start|>标签内，且无多余空格或换行。

4. 服务启动与稳定性 checklist

能启动 ≠ 能服务。正式环境必须验证服务在真实负载下的行为。

4.1 启动命令标准化

使用systemd或supervisord管理进程，禁止后台 nohup & 启动

systemd示例（/etc/systemd/system/qwen-allinone.service）：

[Unit] Description=Qwen All-in-One Service After=network.target [Service] Type=simple User=aiuser WorkingDirectory=/opt/qwen-allinone ExecStart=/usr/bin/uvicorn app:app --host 0.0.0.0 --port 8000 --workers 1 --log-level warning Restart=always RestartSec=10 Environment=PYTHONPATH=/opt/qwen-allinone [Install] WantedBy=multi-user.target

执行sudo systemctl daemon-reload && sudo systemctl enable qwen-allinone && sudo systemctl start qwen-allinone

4.2 端口与防火墙确认

检查端口是否真正监听：sudo ss -tuln | grep :8000

若服务器启用了 ufw/firewalld，放行端口：

sudo ufw allow 8000 # 或 sudo firewall-cmd --permanent --add-port=8000/tcp && sudo firewall-cmd --reload

禁止绑定到 127.0.0.1：Web 界面需外部访问，--host 0.0.0.0是必须项。

4.3 健康检查与基础连通性

启动后立即验证：

curl -X POST http://localhost:8000/predict \ -H "Content-Type: application/json" \ -d '{"text": "今天天气真好"}'

正常响应应为 JSON，含sentiment和response字段，例如：

{"sentiment": "正面", "response": "是啊，阳光明媚，让人心情愉悦！"}

若返回 500 或超时，立即查看日志：journalctl -u qwen-allinone -n 50 -f

5. 上线后必做验证 checklist

服务跑起来只是开始。上线后 5 分钟内，必须完成这 4 项快速验证，否则不建议对外暴露：

5.1 双任务逻辑隔离验证

发送同一句含歧义文本（如："这个功能做得太差了，但文档写得很清楚"）
观察响应：sentiment应为"负面"（情感分析聚焦整体倾向），response应为一段中立、建设性的对话回复（如："感谢反馈！关于功能体验，能否具体说说哪些环节让您觉得不便？我们马上优化。"）
通过标志：两个字段输出稳定、互不干扰、符合预期语义。

5.2 CPU 负载与响应延迟基线

使用ab或wrk模拟 10 并发请求：

wrk -t2 -c10 -d30s http://localhost:8000/predict --latency -s post.lua

关键指标达标线：
- 平均延迟 ≤ 1800ms（CPU 环境合理预期）
- 99% 延迟 ≤ 3500ms
- CPU 使用率峰值 ≤ 85%（留出余量应对突发）
❌ 若平均延迟 > 2500ms，检查是否误启用了torch.compile（Qwen1.5-0.5B 在 CPU 上启用会严重拖慢）。

5.3 日志与错误捕获完备性

确认app.py中所有try/except块均包含日志记录：

except Exception as e: logger.error(f"Predict error for text '{text[:20]}...': {str(e)}", exc_info=True) raise HTTPException(status_code=500, detail="Internal server error")

检查/var/log/qwen-allinone/（或你设定的日志目录）下是否有实时滚动日志文件，且包含 INFO 级别请求记录。

5.4 故障自愈能力验证

手动杀死进程：sudo systemctl kill -s SIGTERM qwen-allinone
等待 15 秒，执行sudo systemctl status qwen-allinone
应显示active (running)，且journalctl中可见重启日志。若未自动恢复，检查Restart=配置及RestartSec=是否生效。

6. 总结：一份清单，三种价值

这份 checklist 不是冷冰冰的操作步骤，它背后承载着三层实际价值：

对开发者：把“我本地能跑”转化为“客户服务器上也能稳跑”，减少 70% 交付后的救火时间；
对运维同学：提供可审计、可脚本化的部署基线，告别“凭经验”和“试出来”；
对模型本身：用最小侵入方式释放 Qwen1.5-0.5B 的工程潜力——它不需要 GPU，不需要多卡，甚至不需要 Docker，只要一个干净的 Linux 环境，就能成为边缘智能的可靠支点。

记住：All-in-One 的“一”，不仅是模型数量的精简，更是部署心智负担的归零。而这份清单，就是帮你把那个“零”真正落地的锚点。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen All-in-One上线 checklist：正式环境部署清单