腾讯POINTS-Reader：端到端文档转文本新工具-智慧文博士

腾讯POINTS-Reader：端到端文档转文本新工具

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader：端到端文档转换视觉语言模型，结构精简无需后处理。支持中英双语提取，OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量，已支持SGLang部署，vLLM支持即将推出。EMNLP 2025主会收录，开源两阶段数据增强策略，轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

导语：腾讯混元团队推出POINTS-Reader视觉语言模型，以端到端架构实现文档图片到文本的直接转换，无需复杂后处理，在中英文文档提取任务中表现优异，同时兼顾高吞吐量部署需求。

行业现状：文档理解技术迎来范式转变

随着数字化办公的深入，文档信息提取已成为企业和个人的核心需求。传统文档处理工具多采用"OCR识别-布局分析-内容提取"的多阶段流水线架构，不仅系统复杂，还存在误差累积问题。近年来，基于视觉语言模型（VLM）的端到端解决方案逐渐成为趋势，这类模型能直接处理文档图片并输出结构化文本，大幅简化处理流程。

据OmniDocBench等权威评测显示，当前主流工具在复杂文档（如包含公式、表格的学术论文）处理上仍存在挑战，尤其在中文场景下，因字符复杂性和排版多样性，错误率普遍高于英文处理。同时，企业级应用对模型吞吐量和部署成本的要求，也推动着轻量级高性能模型的研发。

POINTS-Reader核心亮点解析

1. 极简架构实现端到端转换

POINTS-Reader采用高度精简的模型结构，基于POINTS1.5架构优化而来，将大语言模型组件替换为更轻量的Qwen2.5-3B-Instruct。模型输入仅需固定提示词与文档图片，输出即为最终文本结果，彻底消除传统流水线所需的后处理环节。这种"输入即图片，输出即文本"的设计，显著降低了集成难度，开发者可直接调用API获取结果。

2. 中英双语提取性能领先

在OmniDocBench评测中，POINTS-Reader展现出强劲性能：英文文档总体编辑距离（Edit↓）达到0.133，中文达到0.212，尤其在表格提取任务上表现突出，英文表格TEDS指标（↑）达83.7，中文达85.0，超过多数专业OCR工具和通用视觉语言模型。这一成绩得益于针对中英文混合排版的专项优化，能有效处理竖排文字、复杂公式和多语言混排场景。

3. 轻量化设计实现高吞吐量

模型选用600M参数的NaViT视觉编码器，在保证性能的同时控制计算资源消耗。目前已支持SGLang部署框架，并即将推出vLLM支持，通过高效的推理优化，实现了令人满意的吞吐量表现。这种轻量化特性使POINTS-Reader可部署于边缘设备或云端服务器，满足不同场景的实时处理需求。

4. 开源创新数据增强策略

腾讯团队在EMNLP 2025主会收录的论文中，详细阐述了POINTS-Reader采用的两阶段数据增强策略：第一阶段利用自动化数据构建基础提取能力，第二阶段通过模型自进化持续提升生成数据质量。这一方法具有高度可扩展性，已作为开源技术方案对外分享，助力行业解决文档理解的数据稀缺问题。

行业影响：重新定义文档处理效率

POINTS-Reader的推出将对多个领域产生深远影响。在企业服务领域，金融、法律等行业的合同解析、报表处理效率有望提升40%以上；在教育领域，学术论文的公式和图表提取将不再依赖人工校对；在数字化转型中，历史文档的批量电子化成本可降低30%-50%。

相较于传统OCR工具，POINTS-Reader的端到端架构减少了系统集成复杂度；与通用大模型（如GPT-4o、Gemini）相比，其专项优化的文档理解能力和更低的部署成本，使其在垂直场景更具竞争力。随着vLLM支持的上线，预计该模型将在企业级文档处理API市场占据重要地位。

结论与前瞻

POINTS-Reader通过架构创新和工程优化，在文档理解领域树立了新标杆。其"结构精简、性能优异、部署灵活"的特性，不仅解决了当前文档处理的痛点，更展示了视觉语言模型在垂直任务上的巨大潜力。未来，随着多语言支持的完善和复杂布局处理能力的提升，POINTS-Reader有望成为文档数字化的基础设施，推动更多行业实现智能化升级。

腾讯混元团队开源的技术方案，也将加速文档理解领域的技术迭代，预计未来1-2年内，端到端文档转换将成为行业标配，彻底改变传统OCR工具的市场格局。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考