可解释的异常值检测：频繁模式异常值因子（FPOF）-智慧文博士

原文：towardsdatascience.com/interpretable-outlier-detection-frequent-patterns-outlier-factor-fpof-0d9cbf51b17a?source=collection_archive---------0-----------------------#2024-05-25

frommlxtend.frequent_patternsimportaprioriimportpandasaspdfromsklearn.datasetsimportfetch_openmlimportwarnings warnings.filterwarnings(action='ignore',category=DeprecationWarning)data=fetch_openml('SpeedDating',version=1,parser='auto')data_df=pd.DataFrame(data.data,columns=data.feature_names)data_df=data_df[['d_pref_o_attractive','d_pref_o_sincere','d_pref_o_intelligence','d_pref_o_funny','d_pref_o_ambitious','d_pref_o_shared_interests']]data_df=pd.get_dummies(data_df)forcol_nameindata_df.columns:data_df[col_name]=data_df[col_name].map({0:False,1:True})frequent_itemsets=apriori(data_df,min_support=0.3,use_colnames=True)data_df['FPOF_Score']=0forfis_idxinfrequent_itemsets.index:fis=frequent_itemsets.loc[fis_idx,'itemsets']support=frequent_itemsets.loc[fis_idx,'support']col_list=(list(fis))cond=Trueforcol_nameincol_list:cond=cond&(data_df[col_name])data_df.loc[data_df[cond].index,'FPOF_Score']+=support min_score=data_df['FPOF_Score'].min()max_score=data_df['FPOF_Score'].max()data_df['FPOF_Score']=[(max_score-x)/(max_score-min_score)forxindata_df['FPOF_Score']]

apriori 算法要求所有特征都必须进行独热编码。为此，我们使用 pandas 的 get_dummies() 方法。

然后，我们调用 apriori 方法来确定频繁项集。在这个过程中，我们需要指定最小支持度，即频繁项集出现的最小行数比例。我们不希望这个值太高，否则记录，即使是强内点，也会包含很少的频繁项集，从而难以与异常值区分开。我们也不希望这个值太低，否则频繁项集可能没有意义，而且异常值和内点可能包含相同数量的频繁项集。较低的最小支持度也可能导致 apriori 生成大量的频繁项集，导致执行变慢并降低可解释性。在这个例子中，我们使用 0.3。

也可以，且有时会，设置 FIS 的大小限制，要求它们与某些最小和最大列数相关，这有助于缩小你最感兴趣的异常值形式。

然后，频繁项集以 pandas 数据框的形式返回，其中包含支持度和列值列表（以独热编码列的形式，指示原始列和值）。

为了解释结果，我们可以首先查看频繁项集，下面展示了这一部分。为了包括每个频繁项集的长度，我们添加了：

frequent_itemsets['length']=\ frequent_itemsets['itemsets'].apply(lambdax:len(x))

找到了 24 个频繁项集，最长的涵盖了三个特征。下表展示了前十行，按支持度排序。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0bef8be40f6bb2f89b2fac3967a29d57.png

然后，我们遍历每个频繁项集，并通过支持度为每一行中包含该频繁项集的记录增加得分。这个过程可以选择性地调整，以偏向更长的频繁项集（因为支持度为 0.4 且覆盖 5 列的频繁项集，相较于支持度为 0.4 且覆盖 2 列的频繁项集，在其他条件相同的情况下，更具相关性），但在此我们仅使用每行中频繁项集的数量和支持度。

这实际上产生了一个关于正常性而非异常性的得分，因此当我们将得分标准化为介于 0.0 和 1.0 之间时，我们会反转顺序。得分最高的行现在是最强的异常值：那些包含最少和最少常见频繁项集的行。

将得分列添加到原始数据框并按得分排序后，我们可以看到最正常的行：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/cd5b92569ca1a82ec11831d8bfc66202.png

我们可以看到这一行的值与 FIS 匹配得很好。d_pref_o_attractive的值是 [21–100]，这是一个 FIS（支持度 0.36）；d_pref_o_ambitious和d_pref_o_shared_interests的值分别是 [0–15] 和 [0–15]，这也是一个 FIS（支持度 0.59）。其他值也倾向于匹配 FIS。

接下来展示的是最不寻常的行。该行与任何已识别的 FIS 都不匹配。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/205f2f8164d00c184faec829190df103.png

由于频繁项集本身非常易于理解，这种方法具有产生合理可解释结果的优势，尽管当使用多个频繁项集时这一点的适用性较差。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2c12b426d1fa6cdee6a4eae3d9713570.png

可解释性可能会降低，因为异常值是通过不包含 FIS 来识别的，而不是通过包含 FIS，这意味着解释一行的得分就等于列出它没有包含的所有 FIS。然而，解释每个异常值时，并不严格需要列出所有缺失的 FIS；列出一小组最常见的缺失 FIS 就足以为大多数目的提供合理的异常值解释。关于存在的 FIS 及其在行中出现的正常数值和频率的统计数据，能够为比较提供良好的背景。

这种方法的一种变体是使用不频繁的项集，而不是频繁的项集，通过每一行所包含的不频繁项集的数量和稀有度来对其进行评分。这也可以产生有用的结果，但计算开销要大得多，因为需要挖掘更多的项集，并且每一行都要与多个 FIS 进行测试。尽管如此，最终的得分可能更具可解释性，因为它们是基于每一行中找到的项集，而不是缺失的项集。

结论

除了这里的代码外，我不知道 Python 中有 FPOF 的实现，尽管 R 中有一些实现。FPOF 的主要工作是挖掘 FIS，而有许多 Python 工具可以用来进行这一操作，包括这里使用的 mlxtend 库。剩余的 FPOP 代码，如上所示，相对简单。

鉴于异常检测中可解释性的重要性，FPOF 很可能值得尝试。

在未来的文章中，我们还将介绍一些其他可解释的异常检测方法。

所有图像均由作者提供

虚拟游戏手柄驱动：让普通设备变身专业游戏外设

可解释的异常值检测：频繁模式异常值因子（FPOF）

一种支持分类数据并为标记为异常值的数据提供解释的异常值检测方法

异常值检测中的可解释性需求

频繁模式异常值因子（FPOF）

FPOF 算法

使用真实数据的示例

结论

嵌入式协程概念与应用详解

Unity游戏翻译神器：XUnity.AutoTranslator完全实战指南

jscope在智能仓储系统中的应用场景：快速理解

Windows Android子系统实战指南：从零到精通的高效玩法

利用DDS技术生成多频混合波形的发生器方案