简单易行地提高你的回归模型信任度-智慧文博士

原文：towardsdatascience.com/increase-trust-in-your-regression-model-the-easy-way-3349ee5f194c

我们必须知道我们的模型对其预测有多确定，才能做出明智的决策。因此，仅仅返回一个点预测是不够的。它没有告诉我们是否可以信任我们的模型。如果你想知道为什么，请查看以下文章。

不确定性量化及其为何你应该关心

在这篇文章中，我使用一个分类问题作为例子。然而，许多现实世界的问题都是回归问题。例如，我们想知道模型在预测明天的温度时有多确定。

由于温度是一个连续变量，我们想知道真实温度将落在哪个区间内。

区间越宽，模型的不确定性就越大。因此，在做出决策时，我们应该对其信任度更低。

但是我们如何得到这样的预测区间呢？

有两种方法可以想到。要么我们使用一组预测区间的模型，要么我们将点预测转换为预测区间。

让我们从第一种方法开始，也称为分位数回归。

我们在数据上拟合了两个模型，一个是低分位数回归器，另一个是高分位数回归器。每个回归器估计目标变量的条件分位数。结合这两个回归器，我们得到我们的预测区间。

主要优势在于，我们可以通过使用 Pinball 损失函数，使用任何模型架构进行分位数回归。但是，主要缺点是预测区间没有校准。不能保证真实值将以预定义的概率落在区间内。因此，由于区间不可靠，我们不应过度依赖区间。特别是对于关键的下游决策。

让我们看看第二种方法是否更好。

在之前的文章中，我描述了如何将同构预测将点预测转换为预测集，并保证分类问题的覆盖范围。

你需要的只是同构预测
正确校准分类概率的方法

幸运的是，同构预测并没有止步于此。同构预测是一个可以围绕任何预测模型包装的框架。因此，我们可以应用同构预测，并使用与分类问题相同的步骤。唯一的区别是非一致性分数。因此，如果你已经阅读了我的其他文章，你应该熟悉这个过程。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b742c431b918ff0e93d6db6d3fbfbf81.png

使用符合预测将点预测转换为预测区间的过程（图片由作者提供）。

首先，我们选择一个显著性水平 alpha 和一个非一致性分数。作为非一致性分数，我们使用预测误差，即 y_true – y_pred。其次，我们将数据集分为训练、校准和测试子集。第三，我们在数据集的训练子集上训练模型。第四，我们在数据的校准子集上校准模型。为此，我们计算非一致性分数，即预测误差。根据非一致性分数的分布，我们确定覆盖 1-alpha 值的阈值。为了形成未见数据的预测区间，我们从预测值中添加和减去阈值。

就这样。我们将点预测转换成了一个校准的预测区间。

虽然这种方法很简单，但它有一个很大的缺点。预测区间不是自适应的。预测区间始终具有相同的宽度。它不会适应特征空间的不同区域。因此，它不会说明哪些数据点更难以预测。

那么，现在怎么办？

我们有两种方法。一种方法是自适应的但未校准（分位数回归）。另一种方法是非自适应的但已校准（符合预测）。我们能否将它们结合起来，以获得具有保证覆盖率的自适应预测区间？

这正是符合化分位数回归所做的事情。这种方法最初于 2019 年发表。

符合化分位数回归是如何工作的？

这相当简单。我们将符合预测应用于分位数回归，调整区间。通过这种方式，我们校准（或符合化）了分位数回归的预测区间。为了校准分位数回归模型，我们确定一个因子，通过该因子扩展或缩小区间。

为了做到这一点，我们采取与之前相同的步骤。再次强调，唯一的区别是我们选择的非一致性分数。我们现在处理的是一个区间而不是点预测。因此，我们将非一致性分数定义为真实值与其最近的预测分位数之间的差异，即 max(lb-y, y-ub)。

如果真实值位于预测的分位数之间，则非一致性分数为负。如果真实值落在预测区间之外，则非一致性分数为正。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1f737133acd630851d638f424401b557.png

符合化分位数回归实现（图片由作者提供）。

我们随后构建了非一致性分数的分布，并确定覆盖 1 – alpha 值的阈值。如果阈值值为正，我们需要扩大预测区间；如果值为负，我们需要缩小预测区间。我们通过将值加到上分位数并从下分位数中减去它来实现这一点。

就这么简单。我们现在有一个自适应预测区间，它保证了回归问题的覆盖。

结论

在这篇文章中，我向你展示了一种量化回归问题不确定性的方法。

如果你一直读到这儿，你现在应该…

理解如何使用 Conformal Prediction 来解决回归问题。
能够在实际中应用 Conformalized Quantile Regression。

如果你想深入了解 Conformalized Quantile Regression，请查看论文。否则，请评论和/或期待我在下一篇文章中见到你。

显然，对于回归任务和特别是时间序列预测，还有许多更多的 Conformal Prediction 方法，例如 EnbPI，或者自适应 Conformal Inference (ACI)。所以，请期待我接下来的文章。

简单易行地提高你的回归模型信任度

但是我们如何得到这样的预测区间呢？

让我们从第一种方法开始，也称为分位数回归。

让我们看看第二种方法是否更好。

那么，现在怎么办？

符合化分位数回归是如何工作的？

结论

多节点通信：I2C总线架构优化建议

基于Python+Django+SSM基于爬虫的网络小说热度分析(源码+LW+调试文档+讲解等)/网络小说发展趋势/网络小说市场分析/网络小说受众研究/网络小说热度变化/网络小说影响评估

YOLOv8能否识别古代建筑榫卯结构？营造技艺还原

G0 N-glycan-Asn —— 糖蛋白结构与功能的核心糖基化单元 68418-91-7

YOLOv8能否检测道路积水？智慧城市防汛系统

YOLOv8能否检测干旱区域？农业灌溉决策支持