腾讯混元POINTS-Reader：30亿参数重构文档智能处理范式，EMNLP 2025入选成果开源-智慧文博士

导语

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader：端到端文档转换视觉语言模型，结构精简无需后处理。支持中英双语提取，OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量，已支持SGLang部署，vLLM支持即将推出。EMNLP 2025主会收录，开源两阶段数据增强策略，轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

腾讯混元实验室发布端到端文档转换视觉语言模型POINTS-Reader，以30亿轻量化参数实现中英文文档0.133/0.212的OmniDocBench高分，通过SGLang部署实现企业级吞吐量，EMNLP 2025主会收录技术方案全面开源。

行业现状：智能文档处理的爆发式增长与技术瓶颈

全球智能文档处理市场正以24.7%的年复合增长率扩张，2024年规模已达23亿美元，预计2034年将突破210亿美元。这一增长主要源于企业对非结构化数据处理需求的激增——金融行业每周人均浪费8小时在文档录入，医疗系统CT报告结构化提取耗时长达15分钟，而传统OCR工具在复杂表格、公式识别场景错误率高达15%-30%。

市场呈现显著"技术断层"：大型企业可负担千万美元级定制系统，占市场主体的中小企业却面临"手动录入效率低下"与"商业软件成本高昂（单用户年费超1500元）"的两难选择。行业亟需兼具高精度、轻量化与部署友好的突破性解决方案。

核心亮点：四大技术突破重新定义文档智能处理

1. 极简架构实现端到端处理

POINTS-Reader采用高度精简的模型结构，仅替换POINTS1.5中的Qwen2.5-7B-Instruct为3B版本，即可实现从文档图片到文本的直接输出，无需任何后处理步骤。输入仅需固定提示词与文档图像，输出即为可直接使用的结构化文本，彻底简化传统OCR的多步骤处理流程。

2. 中英双语高精度识别能力

在OmniDocBench评测中，模型英文任务取得0.133分，中文任务0.212分，尤其在表格提取任务上表现突出：英文表格TEDS指标达83.7，中文达85.0，超越PaddleOCR PP-StructureV3等专业工具。支持HTML表格与Markdown文本输出，完美适配企业级文档管理系统需求。

3. 两阶段数据增强策略开源

创新性提出的两阶段数据增强技术，通过自动化数据构建基础能力，再通过模型自进化提升数据质量。该方法具有高度扩展性，已被证实可应用于各类视觉语言模型优化，相关代码与训练策略已随模型完全开源。

4. 企业级部署效率优化

采用600M NaViT视觉编码器平衡性能与效率，结合SGLang部署支持实现高吞吐量处理。实测显示，在消费级GPU上单页A4文档处理仅需0.8秒，批处理吞吐量达48FPS，较传统transformers后端提升20-30倍。vLLM支持即将上线，进一步扩展部署选项。

行业影响与应用场景

金融领域：合规前提下的效率革命

金融机构审批流程中，传统人工录入需3分钟/份的支票信息，采用POINTS-Reader可压缩至15秒，错误率从0.8%降至0.15%，年节省人工成本约120万元。完全本地化部署架构满足《个人信息保护法》对金融数据的监管要求，实现"合规+效率"双重目标。

医疗系统：临床文档处理加速

针对医生处方连笔字优化后，手写体识别准确率达87.3%，较通用工具提升23个百分点。三甲医院放射科应用显示，CT报告结构化提取时间从15分钟压缩至2分钟，支持DICOM影像与文字报告关联存储，助力AI辅助诊断系统构建。

学术研究：文献处理全流程自动化

支持跨页表格/段落合并的特性，解决学术论文处理重大痛点。在100页PDF测试中，自动识别合并准确率达91.3%，较现有工具减少82%人工修正工作量，完美适配科研机构文献分析pipeline构建需求。

部署指南与资源获取

快速开始

# 克隆仓库 git clone https://gitcode.com/tencent_hunyuan/POINTS-Reader cd POINTS-Reader # 安装依赖 conda create -n points-reader python=3.10 && conda activate points-reader pip install -r requirements.txt # 单文件处理示例 python examples/single_image_process.py --image_path demo.pdf --output_format markdown

SGLang部署

python3 -m sglang.launch_server \ --model-path tencent/POINTS-Reader \ --tp-size 1 \ --dp-size 1 \ --chat-template points-v15-chat \ --trust-remote-code \ --port 8081