外れ値と異常値
外れ値とは、原因が不明だけれども真値から大きく異なる値のことです。一方異常値とは、同じく真値から大きく値が異なるけれども、何故値が真値と異なるのか説明がつく(測定ミス、記入ミスなど)値を指します[4][5]。つまり、異常値外れ値となります。
検定(仮説検定)
現在注目している値が、外れ値/異常値が真値ではないという仮説を統計学的に検証するための手法のことです。検定においては、棄却したい仮説を帰無仮説と言い、採択したい仮説を対立仮説と言います。対立仮説は、帰無仮説の対偶と言うことができます。
下記に今回調べた検定手法について列挙していきます。[6][7]
スミルノフ・グラブス検定[1][8]
正規分布に従うデータについて、外れ値を検出する手法の1つである。そのためデータが正規分布に従っていないと、真値すらも外れ値と見なしてしまうので注意が必要である。
帰無仮説:全データは同じ母集団から発生している
対立仮説:データ中の最大・最小値は外れ値である
ここで標本平均を、普遍分散をとしたとき、最大または最小の測定値について、
を求める。この値が分布から求めた有意点を下回るとき、帰無仮説は棄却され、測定値は外れ値でないと判断される。
なお普遍分散とは、標本分散の期待値が母分散(母集団の分散[9])に一致するようにを掛けた値のことである。
なおt分布の自由度とは、標本サイズ - 1の値だそうです。つまり標本数が500の場合、自由度は499となります。[10]
Hampel Identifier
四分位範囲
DBSCAN
計算速度が遅いので、リアルタイム性が求められるアプリケーションに適さないそうです[2]
Isolation Forests [3]
Median Absolute Deviation
参考文献
[1] 外れ値と異常値 | ブログ | 統計WEB
[2] DBSCAN実践とアルゴリズム - Qiita
[3] A Brief Overview of Outlier Detection Techniques – Towards Data Science
[4] 外れ値と異常値 | ブログ | 統計WEB
[5] 外れ値と異常値の違い
[6] 仮説検定とは?初心者にもわかりやすく解説! | 全人類がわかる統計学
[7] 統計学的仮説検定の考え方と手順 | 高校数学の美しい物語
[8] Smirnov-Grubbs の外れ値の検定
[9] 母分散 | 統計用語集 | 統計WEB
[10] 自由度と検定 - Qiita