異常 いじょう 検知 けんち における局所 きょくしょ 外 はず れ値 ち 因子 いんし 法 ほう (きょくしょはずれちいんしほう、英 えい : local outlier factor, LOF )は Markus M. Breunig、Hans-Peter Kriegel (英語 えいご 版 ばん ) 、Raymond T. Ng、Jörg Sander によって2000年 ねん に提案 ていあん されたアルゴリズムで、任意 にんい のデータ点 てん での、近傍 きんぼう 点 てん に対 たい する局所 きょくしょ 的 てき な変動 へんどう を測 はか ることによって異常 いじょう を発見 はっけん するものである[1] 。
局所 きょくしょ 外 はず れ値 ち 因子 いんし 法 ほう は、コア距離 きょり
(core distance)や到達 とうたつ 可能 かのう 性 せい 距離 きょり
(reachability distance)等 とう の概念 がいねん をDBSCAN やOPTICS (英語 えいご 版 ばん ) といったアルゴリズムと共有 きょうゆう しており、これらは局所 きょくしょ 密度 みつど の推定 すいてい に用 もち いられる[2] 。
LOFの基本 きほん 的 てき アイディア:ある点 てん の局所 きょくしょ 密度 みつど をその近傍 きんぼう のものと比較 ひかく する。点 てん A は近傍 きんぼう と比 くら べて局所 きょくしょ 密度 みつど がずっと小 ちい さい。
局所 きょくしょ 外 はず れ値 ち 因子 いんし 法 ほう は局所 きょくしょ 密度 みつど の概念 がいねん に基 もと づいている。ここでの「局所 きょくしょ (locality)」は
k
{\displaystyle k}
個 こ の最 さい 近傍 きんぼう で与 あた えられ、それらの距離 きょり によって密度 みつど が推定 すいてい される。あるオブジェクトの局所 きょくしょ 密度 みつど をその近傍 きんぼう 群 ぐん の局所 きょくしょ 密度 みつど と比較 ひかく することで、密度 みつど が同 どう 程度 ていど であるような領域 りょういき と、周囲 しゅうい と比 くら べて密度 みつど が有意 ゆうい に低 ひく い点 てん を特定 とくてい することができる。こうした点 てん が外 はず れ値 ち だと考 かんが えられる。
局所 きょくしょ 密度 みつど は、その近傍 きんぼう から「到達 とうたつ (reach)」するのにかかる標準 ひょうじゅん 的 てき 距離 きょり を使 つか って推定 すいてい される。局所 きょくしょ 外 はず れ値 ち 因子 いんし 法 ほう での「到達 とうたつ 可能 かのう 性 せい 距離 きょり (reachability distance)」は、クラスタ内 ない でより安定 あんてい 的 てき な値 ね が生 しょう じるよう追加 ついか 的 てき に定義 ていぎ された尺度 しゃくど である。
k-distance
(
A
)
{\displaystyle {\mbox{k-distance}}(A)}
を、オブジェクト
A
{\displaystyle A}
の k 番 ばん 目 め の近傍 きんぼう までの距離 きょり とする。ここで k 個 こ の最 さい 近傍 きんぼう とはこの距離 きょり 以下 いか の全 すべ てのオブジェクトの集合 しゅうごう で、「タイ」が存在 そんざい する場合 ばあい は個数 こすう が k より大 おお きくなり得 え ることに注意 ちゅうい する。k 最近 さいきん 傍 はた オブジェクトの集合 しゅうごう を
N
k
(
A
)
{\displaystyle N_{k}(A)}
と書 か く。
到達 とうたつ 可能 かのう 性 せい 距離 きょり の図示 ずし 。オブジェクト B と C は等 ひと しい到達 とうたつ 可能 かのう 性 せい 距離 きょり を持 も つ(k=3)。一方 いっぽう 、D は k 最近 さいきん 傍 はた ではない。
この距離 きょり は、到達 とうたつ 可能 かのう 性 せい 距離 きょり (reachability distance)と呼 よ ばれる値 ね を定義 ていぎ するのに用 もち いられる:
reachability-distance
k
(
A
,
B
)
=
max
{
k-distance
(
B
)
,
d
(
A
,
B
)
}
{\displaystyle {\mbox{reachability-distance}}_{k}(A,B)=\max\{{\mbox{k-distance}}(B),d(A,B)\}}
つまり、オブジェクト
A
{\displaystyle A}
の
B
{\displaystyle B}
からの「到達 とうたつ 可能 かのう 性 せい 距離 きょり 」は、それが
B
{\displaystyle B}
の
k-distance
{\displaystyle {\mbox{k-distance}}}
以上 いじょう である限 かぎ りは、2オブジェクト間 あいだ の真 しん の距離 きょり と一致 いっち する。
B
{\displaystyle B}
の k 最近 さいきん 傍 はた 集合 しゅうごう (
B
{\displaystyle B}
のコア(core)。DBSCANクラスタ解析 かいせき を参照 さんしょう )は全 すべ て等距離 とうきょり だと見 み なせる。このような距離 きょり を考 かんが えるのは、結果 けっか をより安定 あんてい 的 てき なものにするためである。これは対称 たいしょう 的 てき でないので、数学 すうがく 的 てき 定義 ていぎ 上 じょう の距離 きょり にはなっていないことに注意 ちゅうい する。 (常 つね に
k-distance
{\displaystyle {\mbox{k-distance}}}
の方 ほう を使 つか うのはよくある誤 あやま りで[3] 、そのような場合 ばあい は Simplified-LOF と呼 よ ばれるわずかに異 こと なる手法 しゅほう になる[3] 。)
オブジェクト
A
{\displaystyle A}
の局所 きょくしょ 到達 とうたつ 可能 かのう 性 せい 密度 みつど (local reachability density)は
lrd
k
(
A
)
:=
1
/
(
∑
B
∈
N
k
(
A
)
reachability-distance
k
(
A
,
B
)
|
N
k
(
A
)
|
)
{\displaystyle {\mbox{lrd}}_{k}(A):=1/\left({\frac {\sum _{B\in N_{k}(A)}{\mbox{reachability-distance}}_{k}(A,B)}{|N_{k}(A)|}}\right)}
と定義 ていぎ される。これはオブジェクト
A
{\displaystyle A}
の、その近傍 きんぼう 群 ぐん からの到達 とうたつ 可能 かのう 性 せい 距離 きょり の平均 へいきん の逆数 ぎゃくすう をとったものである。
A
{\displaystyle A}
から近傍 きんぼう へ到達 とうたつ する距離 きょり の平均 へいきん ではなく(これは定義 ていぎ 上 じょう
k-distance
(
A
)
{\displaystyle {\mbox{k-distance}}(A)}
に等 ひと しい)、近傍 きんぼう から
A
{\displaystyle A}
へ到達 とうたつ する距離 きょり の平均 へいきん であることに注意 ちゅうい する。オブジェクトが重 かさ なっている点 てん ではこの値 ね は無限 むげん 大 だい になり得 え る。
次 つぎ に以下 いか のようにして、近傍 きんぼう 群 ぐん と局所 きょくしょ 到達 とうたつ 可能 かのう 性 せい 密度 みつど が比較 ひかく される。
LOF
k
(
A
)
:=
∑
B
∈
N
k
(
A
)
lrd
(
B
)
lrd
(
A
)
|
N
k
(
A
)
|
=
∑
B
∈
N
k
(
A
)
lrd
(
B
)
|
N
k
(
A
)
|
/
lrd
(
A
)
{\displaystyle {\mbox{LOF}}_{k}(A):={\frac {\sum _{B\in N_{k}(A)}{\frac {{\mbox{lrd}}(B)}{{\mbox{lrd}}(A)}}}{|N_{k}(A)|}}={\frac {\sum _{B\in N_{k}(A)}{\mbox{lrd}}(B)}{|N_{k}(A)|}}/{\mbox{lrd}}(A)}
これは「近傍 きんぼう 群 ぐん の局所 きょくしょ 到達 とうたつ 可能 かのう 性 せい 密度 みつど の平均 へいきん 」を「オブジェクト自身 じしん の局所 きょくしょ 到達 とうたつ 可能 かのう 性 せい 密度 みつど 」で割 わ ったものである。これが
1
{\displaystyle 1}
に近 ちか い値 ね であるとき、オブジェクトはその近傍 きんぼう と同 どう 程度 ていど (similar)である(よって外 はず れ値 ち ではない)。
1
{\displaystyle 1}
を下回 したまわ るとき、その点 てん は密度 みつど が高 たか い領域 りょういき (内部 ないぶ 点 てん (inlier))に位置 いち する。
1
{\displaystyle 1}
を有意 ゆうい に上回 うわまわ るとき、外 はず れ値 ち である。
LOF(k) ~ 1 は、近傍 きんぼう と同 どう 程度 ていど の密度 みつど であることを意味 いみ する。
LOF(k) < 1 は、近傍 きんぼう よりも高密度 こうみつど であることを意味 いみ する。
LOF(k) > 1 は、近傍 きんぼう よりも低 てい 密度 みつど であることを意味 いみ する。
ELKI (英語 えいご 版 ばん ) によって可視 かし 化 か されたLOFスコア。上方 かみがた 右側 みぎがわ のクラスタ内 ない の局所 きょくしょ 密度 みつど は、下方 かほう 左側 ひだりがわ のクラスタに近接 きんせつ する外 はず れ値 ち における局所 きょくしょ 密度 みつど と同 どう 程度 ていど だが、これらの外 はず れ値 ち は正 まさ しく検知 けんち されている。
局所 きょくしょ 外 はず れ値 ち 因子 いんし 法 ほう は局所 きょくしょ 的 てき なアプローチであるため、データセットの別 べつ の領域 りょういき に位置 いち していれば外 はず れ値 ち とはなっていないであろう点 てん も、外 はず れ値 ち として検知 けんち できる。例 たと えば、かなり密度 みつど の高 たか いクラスタまでの距離 きょり が「小 ちい さい」点 てん は、(まばらなクラスタ内 ない の点 てん も近傍 きんぼう までの距離 きょり は同 どう 程度 ていど かもしれないが)外 はず れ値 ち になる。
局所 きょくしょ 外 はず れ値 ち 因子 いんし 法 ほう を幾何 きか 学 がく 的 てき な直観 ちょっかん で捉 とら えられるのは低 てい 次元 じげん ベクトル空間 くうかん の場合 ばあい に限 かぎ られるが、このアルゴリズムは非 ひ 類似 るいじ 度 ど 関数 かんすう (dissimilarity function)が定義 ていぎ できるような任意 にんい の状況 じょうきょう に対 たい し適用 てきよう できる。この手法 しゅほう は経験 けいけん 的 てき に、数 すう 多 おお くの設定 せってい 下 か で非常 ひじょう に上手 うま く働 はたら くことが示 しめ されており、例 たと えば侵入 しんにゅう 検知 けんち システム[4] や加工 かこう (processed)分類 ぶんるい ベンチマークデータ[5] に関 かん して、しばしば競合 きょうごう する手法 しゅほう より優 すぐ れた結果 けっか を出 だ す。
局所 きょくしょ 外 はず れ値 ち 因子 いんし 法 ほう や類似 るいじ する手法 しゅほう 群 ぐん は、他 た の様々 さまざま な問題 もんだい 、例 たと えば地理 ちり データ、動画 どうが ストリーミング、著者 ちょしゃ ネットワーク(authorship network)における外 はず れ値 ち の検知 けんち に対 たい しても容易 ようい に一般 いっぱん 化 か できる[3] 。
出力 しゅつりょく 値 ち が分数 ぶんすう であるため、解釈 かいしゃく が難 むずか しい。値 ね が 1 またはそれ以下 いか であれば明確 めいかく に外 はず れ値 ち でないと判断 はんだん できるが、外 はず れ値 ち であるかどうかに対 たい する明確 めいかく な規則 きそく は存在 そんざい しない。あるデータセットでは値 ね が 1.1 であれば外 はず れ値 ち とされる一方 いっぽう で、別 べつ のデータセットあるいは別 べつ の(局所 きょくしょ 的 てき な変動 へんどう の激 はげ しい)パラメータの下 した では値 ね が 2 であってもなお、外 はず れ値 ち とされないかもしれない。手法 しゅほう の局所 きょくしょ 性 せい のために、こうした相違 そうい は一 ひと つのデータセットの中 なか でも発生 はっせい し得 え る。これらの特質 とくしつ の改善 かいぜん を試 こころ みる、局所 きょくしょ 外 はず れ値 ち 因子 いんし 法 ほう の拡張 かくちょう が存在 そんざい している。
Feature Bagging for Outlier Detection (外 はず れ値 ち に対 たい する特徴 とくちょう バギング) [6] は、データの複数 ふくすう の射影 しゃえい に対 たい して局所 きょくしょ 外 はず れ値 ち 因子 いんし 法 ほう を実行 じっこう し、結果 けっか を結合 けつごう することで、高 こう 次元 じげん での検知 けんち の質 しつ を高 たか める。これは異常 いじょう 検知 けんち に対 たい するアンサンブル学習 がくしゅう アプローチの最初 さいしょ の例 れい であり、他 た の変種 へんしゅ については脚注 きゃくちゅう [7] を参照 さんしょう 。
Local Outlier Probability (LoOP)[8] (局所 きょくしょ 外 はず れ値 ち 確 かく 率 りつ )は局所 きょくしょ 外 はず れ値 ち 因子 いんし 法 ほう から派生 はせい した手法 しゅほう だが、あまり込 こ み入 い っていない(inexpensive)局所 きょくしょ 的 てき 統計 とうけい 量 りょう を用 もち いることで、結果 けっか がパラメータ k の選択 せんたく に鋭敏 えいびん に左右 さゆう されないようにしている。また出力 しゅつりょく 値 ち は
[
0
:
1
]
{\displaystyle [0:1]}
区間 くかん の値 ね に規格 きかく 化 か されている。
Interpreting and Unifying Outlier Scores [9] (外 はず れ値 ち スコアの解釈 かいしゃく および統合 とうごう )は、ユーザビリティ 向上 こうじょう のために統計 とうけい 的 てき スケーリングを用 もち いてLOFの外 はず れ値 ち スコアを区間 くかん
[
0
:
1
]
{\displaystyle [0:1]}
の値 ね へ規格 きかく 化 か することを提案 ていあん するもので、LoOPの改善 かいぜん 案 あん とみることができる。
On Evaluation of Outlier Rankings and Outlier Scores [10] (外 はず れ値 ち ランキングと外 はず れ値 ち スコアの評価 ひょうか )は、LOFの変種 へんしゅ や別 べつ のアルゴリズムを用 もち いた、高度 こうど な異常 いじょう 検知 けんち アンサンブル構築 こうちく 法 ほう 同士 どうし の類似 るいじ 度 ど および相違 そうい 度 ど を測 はか る手法 しゅほう を提案 ていあん する。上述 じょうじゅつ の Feature Bagging for Outlier Detection を改善 かいぜん したものである。
Local outlier detection reconsidered: a generalized view on locality with applications to spatial, video, and network outlier detection [3] (局所 きょくしょ 外 はず れ値 ち 検知 けんち 再考 さいこう :空間 くうかん ・映像 えいぞう ・ネットワークでの外 はず れ値 ち 検知 けんち を用 もち いた局所 きょくしょ 性 せい への一般 いっぱん 的 てき 視点 してん )は、様々 さまざま な局所 きょくしょ 外 はず れ値 ち 検知 けんち 手法 しゅほう (例 たと えば、LOF, simplified version of LOF, LoOP)における一般 いっぱん 的 てき なパターンを議論 ぎろん し、一般 いっぱん 的 てき なフレームワークを抽象 ちゅうしょう している。このフレームワークは続 つづ いて、地理 ちり データ、動画 どうが ストリーミング、著者 ちょしゃ ネットワーク等 とう における外 はず れ値 ち 検知 けんち に応用 おうよう される。
^ Breunig, M. M.; Kriegel, H.-P. ; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF) . Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data . SIGMOD . pp. 93–104. doi :10.1145/335191.335388 . ISBN 1-58113-217-4 。
^ Breunig, M. M.; Kriegel, H.-P. ; Ng, R. T.; Sander, J. R. (1999). “OPTICS-OF: Identifying Local Outliers” . Principles of Data Mining and Knowledge Discovery . Lecture Notes in Computer Science. 1704 . pp. 262. doi :10.1007/978-3-540-48247-5_28 . ISBN 978-3-540-66490-1 . http://www.dbs.ifi.lmu.de/Publikationen/Papers/PKDD99-Outlier.pdf
^ a b c d Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). “Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection”. Data Mining and Knowledge Discovery . doi :10.1007/s10618-012-0300-z .
^ Lazarevic, A.; Ozgur, A.; Ertoz, L.; Srivastava, J.; Kumar, V.; (2003). “A comparative study of anomaly detection schemes in network intrusion detection” . Proc. 3rd SIAM International Conference on Data Mining : 25–36. http://www.siam.org/proceedings/datamining/2003/dm03_03LazarevicA.pdf .
^ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). “On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study”. Data Mining and Knowledge Discovery . doi :10.1007/s10618-015-0444-8 . ISSN 1384-5810 .
^ Lazarevic, A.; Kumar, V. (2005). “Feature bagging for outlier detection”. Proc. 11th ACM SIGKDD international conference on Knowledge Discovery in Data Mining : 157–166. doi :10.1145/1081870.1081891 .
^ Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). “Ensembles for unsupervised outlier detection”. ACM SIGKDD Explorations Newsletter 15 : 11. doi :10.1145/2594473.2594476 .
^ Kriegel, H.-P. ; Kröger, P.; Schubert, E.; Zimek, A. (2009). LoOP: Local Outlier Probabilities (PDF) . Proceedings of the 18th ACM conference on Information and knowledge management . CIKM '09. pp. 1649–1652. doi :10.1145/1645953.1646195 . ISBN 978-1-60558-512-3 。
^ Kriegel, H. P. ; Kröger, P.; Schubert, E.; Zimek, A. (2011). Interpreting and Unifying Outlier Scores (PDF) . Proceedings of the 2011 SIAM International Conference on Data Mining. pp. 13–24. doi :10.1137/1.9781611972818.2 . ISBN 978-0-89871-992-5 。
^ Schubert, E.; Wojdanowski, R.; Zimek, A.; Kriegel, H. P. (2012). On Evaluation of Outlier Rankings and Outlier Scores (PDF) . Proceedings of the 2012 SIAM International Conference on Data Mining. pp. 1047–1058. CiteSeerX 10.1.1.300.7205 . doi :10.1137/1.9781611972825.90 . ISBN 978-1-61197-232-0 。