腾讯POINTS-Reader:端到端文档转文本新工具
【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader
导语:腾讯混元团队推出POINTS-Reader视觉语言模型,以端到端架构实现文档图片到文本的直接转换,无需复杂后处理,在中英文文档提取任务中表现优异,同时兼顾高吞吐量部署需求。
行业现状:文档理解技术迎来范式转变
随着数字化办公的深入,文档信息提取已成为企业和个人的核心需求。传统文档处理工具多采用"OCR识别-布局分析-内容提取"的多阶段流水线架构,不仅系统复杂,还存在误差累积问题。近年来,基于视觉语言模型(VLM)的端到端解决方案逐渐成为趋势,这类模型能直接处理文档图片并输出结构化文本,大幅简化处理流程。
据OmniDocBench等权威评测显示,当前主流工具在复杂文档(如包含公式、表格的学术论文)处理上仍存在挑战,尤其在中文场景下,因字符复杂性和排版多样性,错误率普遍高于英文处理。同时,企业级应用对模型吞吐量和部署成本的要求,也推动着轻量级高性能模型的研发。
POINTS-Reader核心亮点解析
1. 极简架构实现端到端转换
POINTS-Reader采用高度精简的模型结构,基于POINTS1.5架构优化而来,将大语言模型组件替换为更轻量的Qwen2.5-3B-Instruct。模型输入仅需固定提示词与文档图片,输出即为最终文本结果,彻底消除传统流水线所需的后处理环节。这种"输入即图片,输出即文本"的设计,显著降低了集成难度,开发者可直接调用API获取结果。
2. 中英双语提取性能领先
在OmniDocBench评测中,POINTS-Reader展现出强劲性能:英文文档总体编辑距离(Edit↓)达到0.133,中文达到0.212,尤其在表格提取任务上表现突出,英文表格TEDS指标(↑)达83.7,中文达85.0,超过多数专业OCR工具和通用视觉语言模型。这一成绩得益于针对中英文混合排版的专项优化,能有效处理竖排文字、复杂公式和多语言混排场景。
3. 轻量化设计实现高吞吐量
模型选用600M参数的NaViT视觉编码器,在保证性能的同时控制计算资源消耗。目前已支持SGLang部署框架,并即将推出vLLM支持,通过高效的推理优化,实现了令人满意的吞吐量表现。这种轻量化特性使POINTS-Reader可部署于边缘设备或云端服务器,满足不同场景的实时处理需求。
4. 开源创新数据增强策略
腾讯团队在EMNLP 2025主会收录的论文中,详细阐述了POINTS-Reader采用的两阶段数据增强策略:第一阶段利用自动化数据构建基础提取能力,第二阶段通过模型自进化持续提升生成数据质量。这一方法具有高度可扩展性,已作为开源技术方案对外分享,助力行业解决文档理解的数据稀缺问题。
行业影响:重新定义文档处理效率
POINTS-Reader的推出将对多个领域产生深远影响。在企业服务领域,金融、法律等行业的合同解析、报表处理效率有望提升40%以上;在教育领域,学术论文的公式和图表提取将不再依赖人工校对;在数字化转型中,历史文档的批量电子化成本可降低30%-50%。
相较于传统OCR工具,POINTS-Reader的端到端架构减少了系统集成复杂度;与通用大模型(如GPT-4o、Gemini)相比,其专项优化的文档理解能力和更低的部署成本,使其在垂直场景更具竞争力。随着vLLM支持的上线,预计该模型将在企业级文档处理API市场占据重要地位。
结论与前瞻
POINTS-Reader通过架构创新和工程优化,在文档理解领域树立了新标杆。其"结构精简、性能优异、部署灵活"的特性,不仅解决了当前文档处理的痛点,更展示了视觉语言模型在垂直任务上的巨大潜力。未来,随着多语言支持的完善和复杂布局处理能力的提升,POINTS-Reader有望成为文档数字化的基础设施,推动更多行业实现智能化升级。
腾讯混元团队开源的技术方案,也将加速文档理解领域的技术迭代,预计未来1-2年内,端到端文档转换将成为行业标配,彻底改变传统OCR工具的市场格局。
【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考