news 2026/4/3 4:15:41

ChartCap:利用大型数据集和新的评估指标抑制图表标题幻觉

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ChartCap:利用大型数据集和新的评估指标抑制图表标题幻觉

概述

该研究旨在确保整合视觉和语言的模型能够生成 “准确且信息丰富的图表说明(标题)”。
现有的图表标题数据集面临两大挑战。

首先,从论文和报告中提取的标题包含无法从图表图像中读取的无关信息。
其次,标题不能充分体现重要的见解,如坐标轴、图例和其他结构、最大值和趋势。

这些问题在模型中造成了 “幻觉”(halucinations),导致了错误的表述。
因此,作者构建了一个新的数据集–ChartCap,该数据集包含 56 万多张真实世界的图表,这些图表具有高质量的标题,对结构元素和重要见解没有过多或过少的表述,也没有无关信息。

我们还提出了一种新的衡量标准–视觉一致性得分,它可以根据生成的标题复制图表,并通过与原始图像进行比较来对其进行评估。
这样就能客观地衡量模型忠实、准确地描述实际图表的能力。

建议的方法

作者设计了一个四阶段自动生成管道来构建 ChartCap 数据集。

首先,只从数百万张图片中提取数据驱动的图表,不包括图表以外的图表(如概念图和示意图)。

然后,使用 GPT-4o 和其他工具识别图表类型和标题。

然后,根据为每种图表类型定义的模式,提取图例、坐标轴、极值和趋势等结构元素和见解。

在这一过程中,GPT-4o 和 Claude 3.5 Sonnet 分工合作,前者负责粗略的趋势识别,后者负责需要数字精确度的处理。

提取结果被编译成半结构化格式,最后转换成自然语言说明。

为了进一步保证质量,还引入了基于周期一致性的验证,即 “根据标题生成 Python 代码,并将重建的图表与原始图像进行比较”,而不是由人工直接检查所有内容。

这不仅简化了人工视觉检查,还能以低成本构建兼具准确性和全面性的大型数据集。

实验

实验将在 ChartCap 上训练的模型与现有的开源模型和商业模型进行了比较。

除了传统的 BLEU 和 ROUGE 外,还使用了建议的视觉一致性得分(VCS)和 OCRScore 作为评估指标。

结果显示,与传统模型相比,使用 ChartCap 微调的模型生成的字幕更准确、更翔实、更不虚假。

其中,Phi3.5-Vision-4B 和 InternVL2.5-8B 等开源模型在使用 ChartCap 进行微调后,甚至超过了商业 Claude 3.5 Sonnet。

它们还在 VisText 和 Chart-to-Text 等其他人工验证数据集上实现了零误差的高准确率,证明了它们的泛化能力。
此外,对人类评分的比较表明,在许多情况下,使用 ChartCap 训练的模型的输出结果比现有的人类撰写的标题更受欢迎。

这表明,ChartCap 比传统数据集更有效,可以为理解和解释真实世界的图表做出重大贡献。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/19 10:43:50

KitchenOwl:跨平台智能购物清单的终极解决方案

KitchenOwl:跨平台智能购物清单的终极解决方案 【免费下载链接】kitchenowl KitchenOwl is a self-hosted grocery list and recipe manager. The backend is made with Flask and the frontend with Flutter. Easily add items to your shopping list before you g…

作者头像 李华
网站建设 2026/3/13 19:07:07

《Python 责任链模式实战指南:从设计思想到工程落地》

《Python 责任链模式实战指南:从设计思想到工程落地》 一、开篇引入:为什么要学习责任链模式? 在软件开发中,我们常常需要处理一系列请求:日志系统要根据不同级别输出信息;Web 框架要根据请求类型选择合适的…

作者头像 李华
网站建设 2026/4/2 2:09:23

永久免费的win系统垃圾清理软件 释放磁盘空间

软件简介→软件下载地址← Glary Disk Cleaner是一款永久免费的 Windows 磁盘清理工具,由 Glarysoft Ltd. 开发,专注于释放磁盘空间、提升系统性能和保护用户隐私。它通过快速扫描技术自动识别并清理系统垃圾文件,界面直观易用,无…

作者头像 李华
网站建设 2026/4/2 21:37:35

Webfunny性能监控系统架构设计与高效实施指南

Webfunny性能监控系统架构设计与高效实施指南 【免费下载链接】webfunny_monitor webfunny是一款轻量级的前端性能监控系统,也是一款埋点系统,私有化部署,简单易用。Webfunny is a lightweight front-end performance monitoring system and …

作者头像 李华
网站建设 2026/4/1 10:23:40

3大内存优化实战:让漏洞扫描性能提升80%的终极指南

3大内存优化实战:让漏洞扫描性能提升80%的终极指南 【免费下载链接】vuls Agent-less vulnerability scanner for Linux, FreeBSD, Container, WordPress, Programming language libraries, Network devices 项目地址: https://gitcode.com/gh_mirrors/vu/vuls …

作者头像 李华
网站建设 2026/3/21 8:18:21

FITC-Labeled NKG2D/CD314 Fc Chimera:固有免疫监视的“通用哨兵探针“

FITC-Labeled NKG2D/CD314 Fc Chimera 是一种用于研究固有免疫关键激活通路的核心工具蛋白。自然杀伤细胞2族成员D受体是表达于自然杀伤细胞、CD8⁺ αβ T细胞、γδ T细胞及部分巨噬细胞上的主要激活性受体,其功能在于识别细胞应激或恶性转化所诱导表达的一系列配…

作者头像 李华