news 2026/4/2 6:41:26

简单易行地提高你的回归模型信任度

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
简单易行地提高你的回归模型信任度

原文:towardsdatascience.com/increase-trust-in-your-regression-model-the-easy-way-3349ee5f194c

我们必须知道我们的模型对其预测有多确定,才能做出明智的决策。因此,仅仅返回一个点预测是不够的。它没有告诉我们是否可以信任我们的模型。如果你想知道为什么,请查看以下文章。

不确定性量化及其为何你应该关心

在这篇文章中,我使用一个分类问题作为例子。然而,许多现实世界的问题都是回归问题。例如,我们想知道模型在预测明天的温度时有多确定。

由于温度是一个连续变量,我们想知道真实温度将落在哪个区间内。

区间越宽,模型的不确定性就越大。因此,在做出决策时,我们应该对其信任度更低。


但是我们如何得到这样的预测区间呢?

有两种方法可以想到。要么我们使用一组预测区间的模型,要么我们将点预测转换为预测区间。

让我们从第一种方法开始,也称为分位数回归。

我们在数据上拟合了两个模型,一个是低分位数回归器,另一个是高分位数回归器。每个回归器估计目标变量的条件分位数。结合这两个回归器,我们得到我们的预测区间。

主要优势在于,我们可以通过使用 Pinball 损失函数,使用任何模型架构进行分位数回归。但是,主要缺点是预测区间没有校准。不能保证真实值将以预定义的概率落在区间内。因此,由于区间不可靠,我们不应过度依赖区间。特别是对于关键的下游决策。

让我们看看第二种方法是否更好。

在之前的文章中,我描述了如何将同构预测将点预测转换为预测集,并保证分类问题的覆盖范围。

你需要的只是同构预测

正确校准分类概率的方法

幸运的是,同构预测并没有止步于此。同构预测是一个可以围绕任何预测模型包装的框架。因此,我们可以应用同构预测,并使用与分类问题相同的步骤。唯一的区别是非一致性分数。因此,如果你已经阅读了我的其他文章,你应该熟悉这个过程。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b742c431b918ff0e93d6db6d3fbfbf81.png

使用符合预测将点预测转换为预测区间的过程(图片由作者提供)。

首先,我们选择一个显著性水平 alpha 和一个非一致性分数。作为非一致性分数,我们使用预测误差,即 y_true – y_pred。其次,我们将数据集分为训练、校准和测试子集。第三,我们在数据集的训练子集上训练模型。第四,我们在数据的校准子集上校准模型。为此,我们计算非一致性分数,即预测误差。根据非一致性分数的分布,我们确定覆盖 1-alpha 值的阈值。为了形成未见数据的预测区间,我们从预测值中添加和减去阈值。

就这样。我们将点预测转换成了一个校准的预测区间。

虽然这种方法很简单,但它有一个很大的缺点。预测区间不是自适应的。预测区间始终具有相同的宽度。它不会适应特征空间的不同区域。因此,它不会说明哪些数据点更难以预测。


那么,现在怎么办?

我们有两种方法。一种方法是自适应的但未校准(分位数回归)。另一种方法是非自适应的但已校准(符合预测)。我们能否将它们结合起来,以获得具有保证覆盖率的自适应预测区间?

这正是符合化分位数回归所做的事情。这种方法最初于 2019 年发表。

符合化分位数回归是如何工作的?

这相当简单。我们将符合预测应用于分位数回归,调整区间。通过这种方式,我们校准(或符合化)了分位数回归的预测区间。为了校准分位数回归模型,我们确定一个因子,通过该因子扩展或缩小区间。

为了做到这一点,我们采取与之前相同的步骤。再次强调,唯一的区别是我们选择的非一致性分数。我们现在处理的是一个区间而不是点预测。因此,我们将非一致性分数定义为真实值与其最近的预测分位数之间的差异,即 max(lb-y, y-ub)。

如果真实值位于预测的分位数之间,则非一致性分数为负。如果真实值落在预测区间之外,则非一致性分数为正。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1f737133acd630851d638f424401b557.png

符合化分位数回归实现(图片由作者提供)。

我们随后构建了非一致性分数的分布,并确定覆盖 1 – alpha 值的阈值。如果阈值值为正,我们需要扩大预测区间;如果值为负,我们需要缩小预测区间。我们通过将值加到上分位数并从下分位数中减去它来实现这一点。

就这么简单。我们现在有一个自适应预测区间,它保证了回归问题的覆盖。


结论

在这篇文章中,我向你展示了一种量化回归问题不确定性的方法。

如果你一直读到这儿,你现在应该…

  • 理解如何使用 Conformal Prediction 来解决回归问题。

  • 能够在实际中应用 Conformalized Quantile Regression。

如果你想深入了解 Conformalized Quantile Regression,请查看论文。否则,请评论和/或期待我在下一篇文章中见到你。

显然,对于回归任务和特别是时间序列预测,还有许多更多的 Conformal Prediction 方法,例如 EnbPI,或者自适应 Conformal Inference (ACI)。所以,请期待我接下来的文章。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/1 11:45:13

多节点通信:I2C总线架构优化建议

多节点通信:如何让IC总线在复杂系统中稳定运行?你有没有遇到过这样的场景?一块主控板上密密麻麻挂了十几个IC传感器——温湿度、气压、光照、加速度计……一切看似井然有序。可一旦通电,通信时断时续,偶尔还卡死不动。…

作者头像 李华
网站建设 2026/4/2 16:04:13

基于Python+Django+SSM基于爬虫的网络小说热度分析(源码+LW+调试文档+讲解等)/网络小说发展趋势/网络小说市场分析/网络小说受众研究/网络小说热度变化/网络小说影响评估

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

作者头像 李华
网站建设 2026/3/5 14:38:30

YOLOv8能否识别古代建筑榫卯结构?营造技艺还原

YOLOv8能否识别古代建筑榫卯结构?营造技艺还原 在故宫修缮工地上,一位老师傅正蹲在梁架下,眯着眼比对一根残损的斗拱构件。他需要判断这根千年木头上隐藏的榫头类型——是燕尾榫还是透榫?这种依靠经验“看一眼就知”的技艺&#x…

作者头像 李华
网站建设 2026/4/3 4:25:40

G0 N-glycan-Asn —— 糖蛋白结构与功能的核心糖基化单元 68418-91-7

G0 N-glycan-Asn 是一种结构明确、高纯度的典型N-连接聚糖-天冬酰胺共轭物。作为糖蛋白中N-糖基化修饰的核心结构单元之一,它在蛋白质的正确折叠、稳定性、免疫识别及细胞通讯等众多生物学过程中扮演着不可替代的角色。该化合物是糖生物学、生物制药及诊断试剂开发领…

作者头像 李华
网站建设 2026/3/13 5:54:05

YOLOv8能否检测道路积水?智慧城市防汛系统

YOLOv8能否检测道路积水?智慧城市防汛系统的技术实践 在暴雨频发的夏季,城市内涝已成为困扰许多大中型城市的顽疾。一场短时强降雨就可能让主干道变成“河流”,立交桥下积水数米深,不仅造成交通瘫痪,还埋藏着触电、车辆…

作者头像 李华
网站建设 2026/2/25 4:34:36

YOLOv8能否检测干旱区域?农业灌溉决策支持

YOLOv8能否检测干旱区域?农业灌溉决策支持 在西北某大型灌区,无人机每日清晨升空巡航,拍摄上千张农田图像。不到十分钟,系统就标记出几处土壤颜色异常、植被稀疏的区域,并自动触发局部滴灌设备——这一切的背后&#x…

作者头像 李华