使用多元高斯分布进行异常检测

人工智能领域优质创作者

博客专家认证

2023-07-09 06:02:23

使用多元高斯分布进行异常检测_无水先生的博客-CSDN博客

...全文

169 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

使用多元高斯分布的异常检测 使用多元高斯分布和Apache Spark MLlib 的异常检测示例描述这是使用多元高斯分布的异常检测算法的相当简单的示例。它从数据集中计算mu向量和sigma2矩阵，并将它们作为参数传递给 Spark MLlib MultivariateGaussian以获得每个数据向量的概率密度。然后使用交叉验证数据集，它尝试使用F1 score指标找到最佳epsilon值。具有最佳 epsilon 值，它会找出异常值并打印结果。应用程序需要四个参数：数据文件路径：包含m示例的mxn矩阵，其中每行是一个n维特征向量包含交叉验证数据集的文件路径，其中每一行是一个n维特征向量包含上述交叉验证数据集每一行显式分配结果的文件路径，其中0正常数据， 1表示异常输出目录路径输出：应用程序在输出目录下创建三个子目录（指定为输入参数）： /ps包含每个数据

N维数据中的半监督异常检测。概括使用半监督学习和Python，在给出具有大部分有效示例的数据集的情况下，我们使用高斯模型和多元高斯模型学习点的分布。然后，我们可以将点标记为异常或不使用经过训练的模型。该算法的监督部分是指定用于标记点的阈值。数字下面显示的图形代表高斯模型（顶部）和多元高斯模型（底部）。两种模型都使用相同的输入数据进行了训练。图例： x和y轴-2D空间中的数据点蓝点-用于构建模型的输入数据红点-二维空间中标记为异常的点黄点-二维空间中标记为有效的点 s Rados Jovanovic-初始工作执照此项目已获得MIT许可证的许可-有关详细信息，请参阅文件致谢向每个为科学做出贡献的人致谢！

Coursera机器学习斯坦福大学的吴安德（Andrew Ng）教授机器学习课程的课程设置，代码由MATLAB编写，并带有中文代码注释。总共八个部分。 ex1线性回归具有单变量的线性回归和双变量的线性回归。 ex2 Logistic回归包括正则化和映射功能。 ex3 Logistic回归-多分类 ex4神经网络建立了三层神经网络来解决分类问题。 ex5正则化线性回归和偏差方差分析偏差和方差。使用多项式回归。 ex6支持向量机高斯径向基函数用于非线性支持向量机。 ex7主成分分析和K均值聚类将SVD用于PCA。 ex8异常检测和协作过滤使用多元高斯分布进行异常检测。

PCA算法作为多元统计方法的一种，是通过线性空间变换求取主元变量，将高维数据空间投影到低维主元空间，从而消除观测数据之间的冗余信息，得到主元模型和统计控制限。新的映射空间由原始数据变量的线性组合构成。由于投影空间统计特征向量彼此正交，则消除了变量间的关联性，简化了原始过程数据特性分析的复杂程度。内容包括主元的定义和获取，以及通过主元的数据重构。 PCA算法适用于线性、高斯分布的数据，实现数据的降维。只涉及二阶统计特性，并没有考虑到数据高阶统计特性，因此变换后的数据可能仍有高阶冗余信息，只解除了数据之间的相关性，对非线性问题并没有进行相应分析。同时，也没有考虑到数据类之间的信息，只是对数据进行重构而不是分类。因此，对PCA算法的改进一直以来都被广为探索。 PCA假定变量服从高斯分布，则在此基础上计算得到的监控指标T2统计量和Q统计量分布服从一定的分布规律，可以很容易的利用确定的分布特性获得控制置信限。对非高斯分布的变量，不能按某种特定的分布规律推导出控制线。因此，对PCA算法的改进一直以来都被广为探索。

经典缺陷检测算法整理，包含PaDiM（2020ICPR）、PatchCore（2022CVPR）、SimpleNet（2023CVPR）、EfficientAD（2023） PaDiM 问题 异常检测：实际应用中缺乏异常样本，并且异常可能会有意想不到的模式，不能使用完全监督的方法训练模型，即训练数据集仅包含正常类的图像。目前的单类别学习模式的异常检测模型要么需要训练深度神经网络，非常麻烦。要么测试阶段在整个训练集上使用K最近邻算法，KNN算法线性复杂度的特点导致随着训练集的增大，其时间和空间复杂度也随之增大。创新 PaDiM利用预训练好的CNN进行embedding提取，并且具有以下两个特点：（1）每个patch位置都用一个多元高斯分布来描述。（2）PaDiM考虑到了CNN不同语义层之间的关联。此外，在测试阶段，它的时间和空间复杂度都比较小，且独立于训练集的大小，这非常有利于工业部署应用。对于异常检测和定位任务，在MVTec AD和ShanghaiTec Campus两个数据集上，PaDiM超越了现有SOTA方法（2020年本文提出时）。

hacker社区(带你学Python)

121,937

社区成员

30,245

社区内容

发帖

与我相关

我的任务

后端python 个人社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

人生苦短，我用Python

试试用AI创作助手写篇文章吧

+ 用AI写文章