(Translated by https://www.hiragana.jp/)
局所外れ値因子法 - Wikipedia コンテンツにスキップ

局所きょくしょはず因子いんしほう

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

異常いじょう検知けんちにおける局所きょくしょはず因子いんしほう(きょくしょはずれちいんしほう、えい: local outlier factor, LOF)は Markus M. Breunig、Hans-Peter Kriegel英語えいごばん、Raymond T. Ng、Jörg Sander によって2000ねん提案ていあんされたアルゴリズムで、任意にんいのデータてんでの、近傍きんぼうてんたいする局所きょくしょてき変動へんどうはかることによって異常いじょう発見はっけんするものである[1]

局所きょくしょはず因子いんしほうは、コア距離きょり (core distance)や到達とうたつ可能かのうせい距離きょり (reachability distance)とう概念がいねんDBSCANOPTICS英語えいごばんといったアルゴリズムと共有きょうゆうしており、これらは局所きょくしょ密度みつど推定すいていもちいられる[2]

基本きほんてきなアイディア

[編集へんしゅう]
LOFの基本きほんてきアイディア:あるてん局所きょくしょ密度みつどをその近傍きんぼうのものと比較ひかくする。てん A は近傍きんぼうくらべて局所きょくしょ密度みつどがずっとちいさい。

局所きょくしょはず因子いんしほう局所きょくしょ密度みつど概念がいねんもとづいている。ここでの「局所きょくしょ(locality)」は さい近傍きんぼうあたえられ、それらの距離きょりによって密度みつど推定すいていされる。あるオブジェクトの局所きょくしょ密度みつどをその近傍きんぼうぐん局所きょくしょ密度みつど比較ひかくすることで、密度みつどどう程度ていどであるような領域りょういきと、周囲しゅういくらべて密度みつど有意ゆういひくてん特定とくていすることができる。こうしたてんはずだとかんがえられる。

局所きょくしょ密度みつどは、その近傍きんぼうから「到達とうたつ(reach)」するのにかかる標準ひょうじゅんてき距離きょり使つかって推定すいていされる。局所きょくしょはず因子いんしほうでの「到達とうたつ可能かのうせい距離きょり(reachability distance)」は、クラスタないでより安定あんていてきしょうじるよう追加ついかてき定義ていぎされた尺度しゃくどである。

正式せいしき定式ていしき

[編集へんしゅう]

を、オブジェクト k ばん近傍きんぼうまでの距離きょりとする。ここで k さい近傍きんぼうとはこの距離きょり以下いかすべてのオブジェクトの集合しゅうごうで、「タイ」が存在そんざいする場合ばあい個数こすうk よりおおきくなりることに注意ちゅういする。k 最近さいきんはたオブジェクトの集合しゅうごうく。

到達とうたつ可能かのうせい距離きょり図示ずし。オブジェクト BCひとしい到達とうたつ可能かのうせい距離きょりつ(k=3)。一方いっぽうDk 最近さいきんはたではない。

この距離きょりは、到達とうたつ可能かのうせい距離きょり(reachability distance)とばれる定義ていぎするのにもちいられる:

つまり、オブジェクト からの「到達とうたつ可能かのうせい距離きょり」は、それが 以上いじょうであるかぎりは、2オブジェクトあいだしん距離きょり一致いっちする。k 最近さいきんはた集合しゅうごう のコア(core)。DBSCANクラスタ解析かいせき参照さんしょう)はすべ等距離とうきょりだとなせる。このような距離きょりかんがえるのは、結果けっかをより安定あんていてきなものにするためである。これは対称たいしょうてきでないので、数学すうがくてき定義ていぎじょう距離きょりにはなっていないことに注意ちゅういする。 (つねほう使つかうのはよくあるあやまりで[3]、そのような場合ばあいは Simplified-LOF とばれるわずかにことなる手法しゅほうになる[3]。)

オブジェクト 局所きょくしょ到達とうたつ可能かのうせい密度みつど(local reachability density)は

定義ていぎされる。これはオブジェクト の、その近傍きんぼうぐんからの到達とうたつ可能かのうせい距離きょり平均へいきん逆数ぎゃくすうをとったものである。 から近傍きんぼう到達とうたつする距離きょり平均へいきんではなく(これは定義ていぎじょう ひとしい)、近傍きんぼうから 到達とうたつする距離きょり平均へいきんであることに注意ちゅういする。オブジェクトがかさなっているてんではこの無限むげんだいになりる。

つぎ以下いかのようにして、近傍きんぼうぐん局所きょくしょ到達とうたつ可能かのうせい密度みつど比較ひかくされる。

これは「近傍きんぼうぐん局所きょくしょ到達とうたつ可能かのうせい密度みつど平均へいきん」を「オブジェクト自身じしん局所きょくしょ到達とうたつ可能かのうせい密度みつど」でったものである。これが ちかであるとき、オブジェクトはその近傍きんぼうどう程度ていど(similar)である(よってはずではない)。下回したまわるとき、そのてん密度みつどたか領域りょういき内部ないぶてん(inlier))に位置いちする。有意ゆうい上回うわまわるとき、はずである。

LOF(k) ~ 1 は、近傍きんぼうどう程度ていど密度みつどであることを意味いみする。

LOF(k) < 1 は、近傍きんぼうよりも高密度こうみつどであることを意味いみする。

LOF(k) > 1 は、近傍きんぼうよりもてい密度みつどであることを意味いみする。

利点りてん

[編集へんしゅう]
ELKI英語えいごばんによって可視かしされたLOFスコア。上方かみがた右側みぎがわのクラスタない局所きょくしょ密度みつどは、下方かほう左側ひだりがわのクラスタに近接きんせつするはずにおける局所きょくしょ密度みつどどう程度ていどだが、これらのはずまさしく検知けんちされている。

局所きょくしょはず因子いんしほう局所きょくしょてきなアプローチであるため、データセットのべつ領域りょういき位置いちしていればはずとはなっていないであろうてんも、はずとして検知けんちできる。たとえば、かなり密度みつどたかいクラスタまでの距離きょりが「ちいさい」てんは、(まばらなクラスタないてん近傍きんぼうまでの距離きょりどう程度ていどかもしれないが)はずになる。

局所きょくしょはず因子いんしほう幾何きかがくてき直観ちょっかんとらえられるのはてい次元じげんベクトル空間くうかん場合ばあいかぎられるが、このアルゴリズムは類似るいじ関数かんすう(dissimilarity function)が定義ていぎできるような任意にんい状況じょうきょうたい適用てきようできる。この手法しゅほう経験けいけんてきに、すうおおくの設定せってい非常ひじょう上手うまはたらくことがしめされており、たとえば侵入しんにゅう検知けんちシステム[4]加工かこう(processed)分類ぶんるいベンチマークデータ[5]かんして、しばしば競合きょうごうする手法しゅほうよりすぐれた結果けっかす。

局所きょくしょはず因子いんしほう類似るいじする手法しゅほうぐんは、様々さまざま問題もんだいたとえば地理ちりデータ、動画どうがストリーミング、著者ちょしゃネットワーク(authorship network)におけるはず検知けんちたいしても容易ようい一般いっぱんできる[3]

欠点けってんおよび拡張かくちょう

[編集へんしゅう]

出力しゅつりょく分数ぶんすうであるため、解釈かいしゃくむずかしい。が 1 またはそれ以下いかであれば明確めいかくはずでないと判断はんだんできるが、はずであるかどうかにたいする明確めいかく規則きそく存在そんざいしない。あるデータセットではが 1.1 であればはずとされる一方いっぽうで、べつのデータセットあるいはべつの(局所きょくしょてき変動へんどうはげしい)パラメータのしたではが 2 であってもなお、はずとされないかもしれない。手法しゅほう局所きょくしょせいのために、こうした相違そういひとつのデータセットのなかでも発生はっせいる。これらの特質とくしつ改善かいぜんこころみる、局所きょくしょはず因子いんしほう拡張かくちょう存在そんざいしている。

  • Feature Bagging for Outlier Detectionはずたいする特徴とくちょうバギング) [6]は、データの複数ふくすう射影しゃえいたいして局所きょくしょはず因子いんしほう実行じっこうし、結果けっか結合けつごうすることで、こう次元じげんでの検知けんちしつたかめる。これは異常いじょう検知けんちたいするアンサンブル学習がくしゅうアプローチの最初さいしょれいであり、変種へんしゅについては脚注きゃくちゅう[7]参照さんしょう
  • Local Outlier Probability (LoOP)[8]局所きょくしょはずかくりつ)は局所きょくしょはず因子いんしほうから派生はせいした手法しゅほうだが、あまりっていない(inexpensive)局所きょくしょてき統計とうけいりょうもちいることで、結果けっかがパラメータ k選択せんたく鋭敏えいびん左右さゆうされないようにしている。また出力しゅつりょく 区間くかん規格きかくされている。
  • Interpreting and Unifying Outlier Scores [9]はずスコアの解釈かいしゃくおよび統合とうごう)は、ユーザビリティ向上こうじょうのために統計とうけいてきスケーリングをもちいてLOFのはずスコアを区間くかん 規格きかくすることを提案ていあんするもので、LoOPの改善かいぜんあんとみることができる。
  • On Evaluation of Outlier Rankings and Outlier Scores [10]はずランキングとはずスコアの評価ひょうか)は、LOFの変種へんしゅべつのアルゴリズムをもちいた、高度こうど異常いじょう検知けんちアンサンブル構築こうちくほう同士どうし類似るいじおよび相違そういはか手法しゅほう提案ていあんする。上述じょうじゅつFeature Bagging for Outlier Detection改善かいぜんしたものである。
  • Local outlier detection reconsidered: a generalized view on locality with applications to spatial, video, and network outlier detection[3]局所きょくしょはず検知けんち再考さいこう空間くうかん映像えいぞう・ネットワークでのはず検知けんちもちいた局所きょくしょせいへの一般いっぱんてき視点してん)は、様々さまざま局所きょくしょはず検知けんち手法しゅほうたとえば、LOF, simplified version of LOF, LoOP)における一般いっぱんてきなパターンを議論ぎろんし、一般いっぱんてきなフレームワークを抽象ちゅうしょうしている。このフレームワークはつづいて、地理ちりデータ、動画どうがストリーミング、著者ちょしゃネットワークとうにおけるはず検知けんち応用おうようされる。

脚注きゃくちゅう

[編集へんしゅう]
  1. ^ Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. pp. 93–104. doi:10.1145/335191.335388. ISBN 1-58113-217-4
  2. ^ Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. R. (1999). “OPTICS-OF: Identifying Local Outliers”. Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. 1704. pp. 262. doi:10.1007/978-3-540-48247-5_28. ISBN 978-3-540-66490-1. http://www.dbs.ifi.lmu.de/Publikationen/Papers/PKDD99-Outlier.pdf 
  3. ^ a b c d Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). “Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection”. Data Mining and Knowledge Discovery. doi:10.1007/s10618-012-0300-z. 
  4. ^ Lazarevic, A.; Ozgur, A.; Ertoz, L.; Srivastava, J.; Kumar, V.; (2003). “A comparative study of anomaly detection schemes in network intrusion detection”. Proc. 3rd SIAM International Conference on Data Mining: 25–36. http://www.siam.org/proceedings/datamining/2003/dm03_03LazarevicA.pdf. 
  5. ^ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). “On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study”. Data Mining and Knowledge Discovery. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. 
  6. ^ Lazarevic, A.; Kumar, V. (2005). “Feature bagging for outlier detection”. Proc. 11th ACM SIGKDD international conference on Knowledge Discovery in Data Mining: 157–166. doi:10.1145/1081870.1081891. 
  7. ^ Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). “Ensembles for unsupervised outlier detection”. ACM SIGKDD Explorations Newsletter 15: 11. doi:10.1145/2594473.2594476. 
  8. ^ Kriegel, H.-P.; Kröger, P.; Schubert, E.; Zimek, A. (2009). LoOP: Local Outlier Probabilities (PDF). Proceedings of the 18th ACM conference on Information and knowledge management. CIKM '09. pp. 1649–1652. doi:10.1145/1645953.1646195. ISBN 978-1-60558-512-3
  9. ^ Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2011). Interpreting and Unifying Outlier Scores (PDF). Proceedings of the 2011 SIAM International Conference on Data Mining. pp. 13–24. doi:10.1137/1.9781611972818.2. ISBN 978-0-89871-992-5
  10. ^ Schubert, E.; Wojdanowski, R.; Zimek, A.; Kriegel, H. P. (2012). On Evaluation of Outlier Rankings and Outlier Scores (PDF). Proceedings of the 2012 SIAM International Conference on Data Mining. pp. 1047–1058. CiteSeerX 10.1.1.300.7205. doi:10.1137/1.9781611972825.90. ISBN 978-1-61197-232-0