news 2026/4/3 6:13:53

modelscope 上PaddleOCR-VL 部署(2026年1月17日亲测可用)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
modelscope 上PaddleOCR-VL 部署(2026年1月17日亲测可用)

PaddleOCR-VL 部署

创建时间: 2026-01-16
环境: ModelScope PAI-DSW 免费实例


环境配置

组件版本
系统Ubuntu 22.04
CUDA12.4.0
Python3.11.11
PyTorch2.9.1
cuDNN1.33.0
CPU8核
内存32GB
显存24GB
剩余额度13小时30分钟

虚拟环境

wgethttp://qiniu.dywlkj.com/uv_for_linux_x86/install.sh -O -|sh

uv 安装信息

  • uv 版本:0.8.22
  • 已安装命令:uvuvx

会话管理命令(推荐使用 screen 或 tmux 后台运行)

功能screen 命令tmux 命令
新建命名会话screen -S 名字tmux new -s 名字
列出所有会话screen -lstmux ls
重新连接会话screen -r 名字tmux attach -t 名字
detach(后台运行)Ctrl+A → DCtrl+B → D
退出并关闭会话exit或 Ctrl+Dexit或 Ctrl+D

更换国内镜像源(加速下载)

方法1:临时环境变量(单次生效)
# 使用阿里云镜像源exportUV_INDEX_URL=https://mirrors.aliyun.com/pypi/simple/ uv pipinstall[包名]
常用镜像源列表
来源镜像源
阿里云https://mirrors.aliyun.com/pypi/simple/
清华大学https://pypi.tuna.tsinghua.edu.cn/simple/
豆瓣https://pypi.doubanio.com/simple/
华为云https://repo.huaweicloud.com/repository/pypi/simple/
示例
wgethttp://qiniu.dywlkj.com/uv_for_linux_x86/install.sh -O -|shexportUV_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple/

or

cat<<'EOF'>uv.toml[[index]] name = "aliyun" url = "https://mirrors.aliyun.com/pypi/simple/" default = true EOFuv pipinstallmodelscope

uv 常用命令

  • uv—— 快速创建虚拟环境、安装包
  • uvx—— 直接运行 Python 工具(如uvx black

虚拟环境操作

# 路径/mnt/workspace/paddleocr-vl/.venv# 创建命令mkdir-p /mnt/workspace/paddleocr-vlcd/mnt/workspace/paddleocr-vl uv venv --python3.11# 激活命令source.venv/bin/activate

PaddleOCR vs PaddleOCR-VL

核心区别

特性PaddleOCRPaddleOCR-VL
定位传统 OCR 工具库多模态文档理解框架
能力文本检测+识别视觉+语言多模态理解
输出纯文本结构化数据+问答+理解
架构CNN + CRNNMultimodal Transformer (ViT + LLM)
模型PP-OCR, PP-StructureNaViT + ERNIE-4.5-0.3B
资源需求轻量级,CPU可用需要GPU,较大显存
速度相对较慢
理解能力文本提取文档语义理解

联系

PaddleOCR (基础层) ↓ └─> 文本检测/识别能力 ↓ PaddleOCR-VL (增强层) ↓ └─> 基于PaddleOCR + 多模态大模型 └─> 文档理解、问答、推理

PaddleOCR-VL 核心信息

模型规格

组件规格
模型名称PaddleOCR-VL-0.9B
视觉编码器NaViT 风格动态分辨率
语言模型ERNIE-4.5-0.3B
多语言支持109 种语言
识别能力文本、表格、公式、图表

GitHub & 文档

  • GitHub: https://github.com/PaddlePaddle/PaddleOCR-VL
  • ModelScope: https://modelscope.cn/models/PaddlePaddle/PaddleOCR-VL

安装方案

推荐方案

# 激活环境source.venv/bin/activate# 安装 PaddlePaddle-GPU 3.2.0UV_HTTP_TIMEOUT=3600uv pipinstallpaddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/# 安装 PaddleOCR-VLUV_HTTP_TIMEOUT=3600uv pipinstall-U"paddleocr[doc-parser]"

备选方案(cu126 失败时)

# 使用 cu124 版本UV_HTTP_TIMEOUT=3600uv pipinstallpaddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu124/UV_HTTP_TIMEOUT=3600uv pipinstall-U"paddleocr[doc-parser]"

验证安装

# 检查 PaddlePaddle 版本和 CUDA 支持python -c"import paddle; print(paddle.__version__); print(paddle.device.cuda.device_count())"# 检查 PaddleOCR-VLpython -c"from paddleocr import PaddleOCRVL; print('PaddleOCR-VL installed successfully')"

使用 ModelScope 下载 PaddleOCR-VL 模型

frommodelscopeimportsnapshot_download MODEL_NAME="PaddlePaddle/PaddleOCR-VL"MODEL_ID="PaddleOCR-VL"SAVE_DIR=f"/mnt/workspace/models/{MODEL_ID}"if__name__=="__main__":print(f"正在从 ModelScope 下载模型:{MODEL_NAME}")print(f"保存目录:{SAVE_DIR}")print("-"*50)model_dir=snapshot_download(MODEL_NAME,cache_dir=SAVE_DIR,revision="master",)print("-"*50)print(f"模型下载完成!")print(f"模型路径:{model_dir}")

使用 ModelScope 下载 PP-DocLayoutV2 模型

frommodelscopeimportsnapshot_download MODEL_NAME="PaddlePaddle/PP-DocLayoutV2"MODEL_ID="PP-DocLayoutV2"SAVE_DIR=f"/mnt/workspace/models/{MODEL_ID}"if__name__=="__main__":print(f"正在从 ModelScope 下载模型:{MODEL_NAME}")print(f"保存目录:{SAVE_DIR}")print("-"*50)model_dir=snapshot_download(MODEL_NAME,cache_dir=SAVE_DIR,revision="master",)print("-"*50)print(f"模型下载完成!")print(f"模型路径:{model_dir}")

Key Installation Commands

# Install PaddlePaddle-GPU with CUDA 12.6 supportUV_HTTP_TIMEOUT=3600uv pipinstallpaddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/# Install PaddleOCR-VL with document parser capabilitiesUV_HTTP_TIMEOUT=3600uv pipinstall-U"paddleocr[doc-parser]"# Install vLLM server dependencies (for production deployment)paddleocr install_genai_server_deps vllm# Install flash-attention for GPU acceleration (from pre-built wheel)# Check CUDA version first: nvidia-smi | grep "CUDA Version"pipinstallhttps://github.com/Dao-AILab/flash-attention/releases/download/v2.7.3/flash_attn-2.7.3+cu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl# Or compile from source (if wheel doesn't match your environment)pip uninstall -y flash_attn pipinstallpackaging ninja pipinstallflash-attn --no-build-isolation

Production Deployment Workflow

Complete Setup Flow (Verified Working)

Step 1: Environment Activation

source.venv/bin/activate

Step 2: Install Dependencies

# Core packagespaddleocr install_genai_server_deps vllm# Flash-attention (GPU acceleration)# Download wheel locally first, then installwgethttp://qiniu.dywlkj.com/deepseek-ocr-vllm/flash_attn-2.7.3%2Bcu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl pipinstall./flash_attn-2.7.3+cu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl# Verify installationpython -c"import flash_attn; print(flash_attn.__version__)"# Expected output: 2.7.3

Step 3: Start vLLM Server

paddlex_genai_server\--model_name PaddleOCR-VL-0.9B\--model_dir /mnt/workspace/models/PaddleOCR-VL/PaddlePaddle/PaddleOCR-VL\--backend vllm\--host0.0.0.0\--port8118

Step 4: Verify Server Status

# Check server healthcurlhttp://127.0.0.1:8118/health# List available modelscurlhttp://127.0.0.1:8118/v1/models# Expected response:# {"data":[{"id":"PaddleOCR-VL-0.9B","object":"model",...}],"object":"list"}

PaddleX Layout Parsing API

paddlex --serve\--pipeline ./config/PaddleOCR-VL.yaml\--host0.0.0.0\--port10800\--paddle_model_dir /mnt/workspace/paddleocr-vl
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 6:04:18

计算机Java毕设实战-基于springboot的城市图书馆自修室管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/3/19 6:32:09

Java毕设选题推荐:基于springboot+vue的智慧城市化自修室管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/4/2 5:46:59

【计算机毕业设计案例】基于springboot的学车驾校线上学习理论学习考试管理系统的设计与实现(程序+文档+讲解+定制)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/4/2 12:43:50

集体好奇心如何提升团队适应能力

集体好奇心如何提升团队适应能力 关键词:集体好奇心、团队适应能力、知识共享、创新思维、团队凝聚力 摘要:本文聚焦于集体好奇心与团队适应能力之间的关系。首先介绍了研究的背景、目的、预期读者等基本信息。接着阐述了集体好奇心和团队适应能力的核心概念及二者的联系,通…

作者头像 李华
网站建设 2026/4/3 4:33:23

java-ssm324医院预约挂号系统vue问诊 失信 投诉-springboot

目录具体实现截图系统概述技术架构核心功能创新亮点应用价值系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;具体实现截图 系统概述 Java-SSM324医院预约挂号系统结合Vue前端与SpringBoot后端技术&#xff0c…

作者头像 李华
网站建设 2026/3/23 0:02:36

大数据领域数据共享的未来发展趋势

大数据领域数据共享的未来发展趋势&#xff1a;从“数据孤岛”到“数字共生”的进化之旅关键词&#xff1a;数据共享、隐私计算、联邦学习、区块链、数据要素市场、数据治理、数字经济摘要&#xff1a;在数字经济时代&#xff0c;数据已成为“新型石油”&#xff0c;但数据孤岛…

作者头像 李华