gggggraziegrazie

graizegrazieさんのやったこと、学んだことを記録する雑記帳です

外れ値・異常値の検出手法

外れ値と異常値

外れ値とは、原因が不明だけれども真値から大きく異なる値のことです。一方異常値とは、同じく真値から大きく値が異なるけれども、何故値が真値と異なるのか説明がつく(測定ミス、記入ミスなど)値を指します[4][5]。つまり、異常値 \subset 外れ値となります。

検定(仮説検定)

現在注目している値が、外れ値/異常値が真値ではないという仮説を統計学的に検証するための手法のことです。検定においては、棄却したい仮説を帰無仮説と言い、採択したい仮説を対立仮説と言います。対立仮説は、帰無仮説の対偶と言うことができます。

下記に今回調べた検定手法について列挙していきます。[6][7]

スミルノフ・グラブス検定[1][8]

正規分布に従うデータについて、外れ値を検出する手法の1つである。そのためデータが正規分布に従っていないと、真値すらも外れ値と見なしてしまうので注意が必要である。

帰無仮説:全データは同じ母集団から発生している
対立仮説:データ中の最大・最小値は外れ値である

ここで標本平均を\bar{X}、普遍分散を Uとしたとき、最大または最小の測定値X_iについて、
T_i \  = \  \frac{|X_i \  - \  \bar{X}|}{\sqrt{U}}
を求める。この値がt分布から求めた有意点tを下回るとき、帰無仮説は棄却され、測定値X_iは外れ値でないと判断される。

なお普遍分散とは、標本分散の期待値が母分散(母集団の分散[9])に一致するように \frac{n}{n-1}を掛けた値のことである。

なおt分布の自由度とは、標本サイズ - 1の値だそうです。つまり標本数が500の場合、自由度は499となります。[10]

Hampel Identifier

四分位範囲

DBSCAN

計算速度が遅いので、リアルタイム性が求められるアプリケーションに適さないそうです[2]

Isolation Forests [3]

Median Absolute Deviation