小优智能科技有限公司成立于2015年底,是一家专注于高精度3D机器视觉模组研发、生产及销售的高科技企业。
公司自主研发的3D机器视觉模组采用激光/DLP白光编码光栅结构光+双工业相机方案,还原物体三维信息,广泛应用于消费电子领域、工业领域和安防领域,具有精度高、速度快、成本低的优势。
离群点主要表示在特定时间序列内,与序列平均值差距较大的极端大、小值,在实际应用中也将其称作为野值。在研究中发现,离群点的出现与多种因素有关,其中系统外部影响是一种重要的因素,然而与之相关的系统外部干扰并不是相同的,而是存在不同类型的问题。例如有数据记录和计算的错误,此外其他偶然因素也会引起极端大值、极端小值的出现。所以在离群点分析过程中应该综合考虑到各个影响因素。
基于之前的分析已经明确了离群点产生的原因,其会对时间序列分析产生直接的影响,特别是会降低模型的拟合精度,因此在实际应用中分析人员并不期望序列中含有离群点,从这个角度来看很多分析人员为了改善模型的精度,往往会采取不同的方法将离群点去除。但是从相反的角度来看,离群点携带了有价值的信息,其能够为采样中错误分析提供依据,如果是由于外部干扰引起的离群点,则能够提示系统灵敏性等相关的信息。
随着对离群点研究的增多,很多学者提出了不同的处理方法,目前在应用中一般将离群点划分为四种不同的类型,主要包括加性离群点、树水平位移离群点、暂时变更离群点以及更新离群点,各种离群点的特征存在一定的差异性,具体的介绍如下所示:
(1)加性离群点:这种类型的干扰仅仅对干扰出现时刻T的序列值产生影响,与之后的序列值无关。
(2)树水平位移离群点:引起这种离群点的干扰会从影响的开始时刻T持续产生影响,具体表现为T时刻前后的序列均值出现的水平位移。
(3)暂时变更离群点:干扰在T时刻出现时会体现出一定的初始效应,在之后时刻的影响会呈现指数衰减。
(4)更新离群点:干扰除了影响XT外,会持续影响到之后时刻的值,它的其中系统动态模型是影响其作用方式的主要因素。
综上所述,离群点与传统的数据对象不同,可以认为是一种特殊的数据对象, 离群点检验就是通过多种检测方法找出其行为不同于预期对象的数据点的过程。根据正常数据和离群点的假定分类,可以分为以下5种方法,具体的分析如下文所示:
(1)基于分布的方法
基于分布的检测方法原理比较简单,实施的难度较小,其在构建合适的数据分布模型后通过不和谐校验(Discordancy Test)提取与模型分布规律不相符的数据,由此可以得到对应的离群点。但是这种方法的准确性较低,并且在数据维度较大时提取离散点的难度更大。
(2)基于深度的方法
基于深度的检测方法需要对各个数据对象设置一个方初始的深度值,由此建立与多层数据空间的对应关系,然后提取外层的对象即为离群点。这种方法应用到数据维度较小的情况时效果较好,但是对于多维数据的处理效果不佳。
(3)基于聚类的方法
先前人们只是根据经验来对事物进行分类,但是随着分类目标的复杂度增加,数据量的增大,分类的要求逐步增大,如果只依赖于传统的分类方法难以获得较好的分类效果。很多学者进行了研究并提出了更先进的聚类技术,聚类分析的基本思想是根据样本间的相似性来获取数据的潜在规律,将对象分组成由相似对象构成的多个类别。总体判断的依据是数据的相似度,如果相似度基本一致时则划分为一类,相似度差距较大时则属于不同的类。在实际聚类中则主要是将关联性高的数据样本归为同一类,关联性低的样本归为不同的类。因此结合聚类的原理可以进行检测,由此能够有效地获得簇和离群点。
基于聚类技术来发现离群点可能是高度有效的。常用的模型有K-means等,基于聚类的离群点检测思路如下:首先用聚类算法做聚类;然后对各个点与聚类中心的距离以及平均距离L进行计算;第三步用户设定一个spec参数;最后对类中心与各个点的距离s进行计算,由此可以判断出是否为离群点。这种方法存在一定的不足,即如果大、小聚集簇的距离非常小时,难以准确地识别离群点。此方法的示意图如图2所示。
图2基于聚类的方法
(4)基于距离的方法
基于距离的检测方法需要先设置一个固定的距离参数L,以此分析各个点与设置点的距离的关系,当这个距离高于L时,则对应的点即为离群点。常用的模型为KNN(k近邻),KNN算法的原理比较容易理解,用户可以直接从训练样本内获得K个最接近的样本,并对各个样本所属的类型进行划分,最后将样本最多的类别进行汇总,即可对待判定的样本类型进行确定。K最近邻分类算法的使用需要满足一定的条件。此算法的优势在于分类结果的准确性高等,然而这种准确性依赖于高质量的样本相似度计算结果,所以比较依赖于相似度的计算过程,不适合将其应用到大规模数据集的分类中。经过分析,当样本的数目比较大时使用这种方法往往能够获得更好地效果。根据这个原理,如果某样本的k个相似度最高的大部分样本都属于相同的类别,则该样本也属于这个类别,其中K通常是不大于20的整数。通常用来度量最相似程度的距离有欧式距离和曼哈顿距离。如果数据集的规模较大,并且分布不均衡,则会降低算法的性能,此方法的具体流程如下所示。
图3 基于距离的方法
(5)基于密度的方法
基于密度的检测方法在检测局部离群点时的应用效果较好,根据定点间的距离与点的数目进行分析,由此可以分析目标点与其他点的离群程度。在应用过程中需要先定义一个密度值,如果判断是离群点,则其密度值与周边正常点的密度相差很大。常用的模型有LOF,其原理如下所示:首先针对数据集内的各个点计算局部离群因子LOF,如果计算的LOF与1之间的差值较大,则说明属于离群点;如果与1之间的差值较小,则不属于离群点。这种方法在应用中存在一定的不足之处,主要体现在选择密度参数时的难度较大。
图4基于密度的方法
通过上文对这5类离群点过滤方法的分析,我们可以得出每种过滤方法的优缺点,如下表1所示。
表1 离群点过滤方法对比
离群点过滤方法 | 优点 | 缺点 |
基于分布的方法 | 操作简单 | 准确性低 |
基于深度的方法 | 二维数据过滤效果好 | 不适用于三维数据的过滤 |
基于聚类的方法 | 过滤效果好 | 需要对点云簇进行分类,操作繁琐 |
基于距离的方法 | 准确性高 | 对离表面较近的离群点效果较差 |
基于密度的方法 | 过滤速度快,操作简单 | 需要合适的密度参数 |