统计 - 离群功能
概率分布函数中的异常值是大于远离下四分位数或上四分位数的数据的长度的1.5倍的数。 具体来说,如果数字小于$ {Q_1 - 1.5 \\ times IQR} $或大于$ {Q_3 + 1.5 \\ times IQR} $,那么它是一个异常值。
异常值由以下概率函数定义和给出:
式
$ {Outlier \\ datas \\ are \\,\\ lt Q_1 - 1.5 \\ times IQR \\(or)\\ \\ gt Q_3 + 1.5 \\ times IQR} $
其中 -
$ {Q_1} $ =第一个四分位数
$ {Q_2} $ =第三个四分位数
$ {IQR} $ =四分位数范围
例子
问题陈述:
考虑一个表示8个不同学生周期性任务计数的数据集。 任务计数信息集为11,13,15,3,16,25,12和14.从学生周期性任务计数中发现异常值数据。
解决方案:
给定数据集为:
11 | 13 | 15 | 3 | 16 | 25 | 12 | 14 |
按升序排列:
3 | 11 | 12 | 13 | 14 | 15 | 16 | 25 |
第一四分位数值()$ {Q_1} $
$ {Q_1 = \\ frac {(11 + 12)} {2} \\\\ [7pt]
\\ = 11.5} $
第三四分位值()$ {Q_3} $
$ {Q_3 = \\ frac {(15 + 16)} {2} \\\\ [7pt]
\\ = 15.5} $
低离群值范围(L)
$ {Q_1 - 1.5 \\ times IQR \\\\ [7pt]
\\ = 11.5 - (1.5 \\ times 4)\\\\ [7pt]
\\ = 11.5 - 6 \\\\ [7pt]
\\ = 5.5} $
上方异常值范围(L)
$ {Q_3 + 1.5 \\ times IQR \\\\ [7pt]
\\ = 15.5 +(1.5 \\ times 4)\\\\ [7pt]
\\ = 15.5 + 6 \\\\ [7pt]
\\ = 21.5} $
在给定信息中,5.5和21.5比给定数据集中的其他值更大,即除了3和25以外,因为3大于5.5,25小于21.5。
这样,我们使用3和25作为异常值。