(Translated by https://www.hiragana.jp/)
t分布型確率的近傍埋め込み法 - Wikipedia コンテンツにスキップ

t分布ぶんぷがたかくりつてき近傍きんぼうほう

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

t分布ぶんぷがたかくりつてき近傍きんぼうほう(ティーぶんぷかくりつてききんぼううめこみほう、英語えいご: t-distributed Stochastic Neighbor Embedding略称りゃくしょう: t-SNE)は、高次こうじもとデータの個々ここのデータてんに2次元じげんまたは3次元じげんマップちゅう位置いちあたえることによって可視かしのための統計とうけいがくてき手法しゅほうである。サム・ロウェイスとジェフリー・ヒントンにより最初さいしょ開発かいはつされたかくりつてき近傍きんぼうほう[1]もとにしており、ラウレンス・ファン・デル・マーテンがt分布ぶんぷはん提唱ていしょうした[2]高次こうじもとデータの可視かしのため2次元じげんまたは3次元じげんてい次元じげん空間くうかんみに最適さいてき非線形ひせんけい次元じげん削減さくげん手法しゅほうである。具体ぐたいてきには、こう次元じげんのデータ集合しゅうごうを2次元じげんまたは3次元じげん配置はいちするさいに、たかかくりつ類似るいじした集合しゅうごう近傍きんぼうに、ことなる集合しゅうごう遠方えんぽうとなるように対応付たいおうづける。

t-SNEのアルゴリズムはおもに2つの段階だんかい構成こうせいされる。だいいちに、高次こうじもとデータのかくたいについて類似るいじする集合しゅうごう選択せんたくされる可能かのうせいたかく、一方いっぽうことなる集合しゅうごう選択せんたくされる可能かのうせいきわめてちいさくなるようにかくりつ分布ぶんぷ構築こうちくする。だいに、てい次元じげんマップじょう集合しゅうごうについて同様どうようかくりつ分布ぶんぷ定義ていぎし、2つの分布ぶんぷあいだカルバック・ライブラー情報じょうほうりょう最小さいしょうするてい次元じげんマップないてん位置いちもとめる。もとのアルゴリズムはてん類似るいじ指標しひょうユークリッド距離きょり使用しようしているが、これは必要ひつようおう適切てきせつ変更へんこうする必要ひつようがある。

t-SNEは、コンピュータセキュリティ研究けんきゅう[3]音楽おんがく分析ぶんせき[4]がん研究けんきゅう,[5]バイオインフォマティクス[6]、および生物せいぶつ医学いがく信号しんごう処理しょり[7]ふくむ、幅広はばひろ応用おうよう可視かし利用りようされている。人工じんこうニューラルネットワークによって学習がくしゅうされたこうレベルの表現ひょうげん可視かしにもよく使用しようされる[8]

おおくの場合ばあい、t-SNEで表示ひょうじされたではクラスターがえるが、可視かしされたクラスターは選択せんたくしたパラメータによりつよ影響えいきょうされる可能かのうせいがあるため、t-SNEのパラメータをよく理解りかいすることが必要ひつようである。そのような「クラスター」は、クラスターのデータにもあらわれることがあり[9]、したがってあやまった発見はっけんかもしれない。したがって、パラメータを選択せんたくして結果けっか検証けんしょうかえ探索たんさく必要ひつようとなる可能かのうせいがある[10][11]。t-SNEはよく分離ぶんりされたクラスターを復元ふくげんできることがおおく、特別とくべつなパラメーターを選択せんたくにより単純たんじゅんかたちスペクトルクラスター英語えいごばん形状けいじょう近似きんじすることが実証じっしょうされている。[12]

詳細しょうさい[編集へんしゅう]

こう次元じげんのデータ集合しゅうごうあたえられているとする。高次こうじもとデータ集合しゅうごう類似るいじ特徴とくちょう反映はんえいしたてい次元じげんじょう表現ひょうげんされたのデータ集合しゅうごう() をもとめるのが目的もくてきである。

t-SNEのパラメータとしてコスト関数かんすうのパラメータのパープレキシティ (perplexity) と最適さいてきのパラメーターの反復はんぷく計算けいさん回数かいすう学習がくしゅうりつ、モーメンタムをそれぞれあたえる。ファン・デル・マーテンによればt-SNEの性能せいのうことなるパープレキシティの設定せっていたいしてはかなり頑健がんけんで、最適さいてきなパープレキシティは使用しようするデータによりことなるが典型てんけいてきには5から50までのあいだもちいられる。

最初さいしょこう次元じげんのデータ集合しゅうごうについてかくたい類似るいじ計算けいさんする。ファン・デル・マーテンとヒントンは「データてんたいしてデータてん中心ちゅうしんとするガウス分布ぶんぷかくりつ密度みつど分布ぶんぷ比例ひれいしてえらばれるならば、類似るいじ条件じょうけんかくりつあらわされる」[2]説明せつめいした。

ただしどうてんたいたいしてはとなる。

はガウス分布ぶんぷ偏差へんさで、つぎのパープレキシティの関係かんけいしきたす偏差へんさ二分にぶんほうによりもとめる。

ここでシャノンエントロピーである。密集みっしゅうしていてデータ集合しゅうごう空間くうかんちいさければちいさいとなる。

つぎ同時どうじかくりつつぎしきもとめる。

ただし場合ばあいは0となる。

平均へいきん0のガウス分布ぶんぷ作為さくい標本ひょうほん初期しょきかいとする。

最後さいごにt=1からt=Tまで以下いか手順てじゅんをTかいかえしによりかいもとめる。

t-1番目ばんめかいたいするてい次元じげんじょう類似るいじ計算けいさんする。

自由じゆう1のt分布ぶんぷコーシー分布ぶんぷ)を利用りようした同時どうじかくりつ

ただしどうてんたいたいしては0とする。

分布ぶんぷPと分布ぶんぷQについてのカルバック・ライブラー情報じょうほうりょう目的もくてき関数かんすうとし、最小さいしょうとなるかいもとめる。

かくiについて目的もくてき関数かんすう勾配こうばい計算けいさんする。

目的もくてき関数かんすう勾配こうばい以前いぜんかいよりtばんかい計算けいさんする。

かい図示ずしすることでこう次元じげんのデータ集合しゅうごうのクラスターを把握はあくできる。

弱点じゃくてん[編集へんしゅう]

  • 一般いっぱんてき次元じげん削減さくげん課題かだいをどのように実行じっこうするかが明確めいかくである。
  • 比較的ひかくてき局所きょくしょてき性質せいしつによりデータの固有こゆう次元じげんのろいに敏感びんかんになる。
    • ガウス関数かんすうはユークリッド距離きょり 使用しようしているため、次元じげんのろ影響えいきょうけ、こう次元じげんでデータを距離きょりにより区別くべつする能力のうりょくうしなわれる。はほとんどおなとなる(こう次元じげん定数ていすう漸近ぜんきんする)。これを軽減けいげんするために、かくてん固有こゆう次元じげんもとづいて、べきじょう変換へんかんにより距離きょり調節ちょうせつする手法しゅほう提案ていあんされている。[13]
  • t目的もくてき関数かんすう大域たいいきてき最小さいしょうへの収束しゅうそく保証ほしょうされていない。
    • おなじアルゴリズムパラメータでもられるかいことなることがある。

脚注きゃくちゅう[編集へんしゅう]

  1. ^ Roweis, Sam; Hinton, Geoffrey (January 2002). Stochastic neighbor embedding (PDF). Neural Information Processing Systems.
  2. ^ a b van der Maaten, L.J.P.; Hinton, G.E. (Nov 2008). “Visualizing Data Using t-SNE”. Journal of Machine Learning Research 9: 2579–2605. http://jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf. 
  3. ^ Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). “An Experimental Study of Diversity with Off-the-shelf AntiVirus Engines”. Proceedings of the IEEE International Symposium on Network Computing and Applications: 4–11. 
  4. ^ Hamel, P.; Eck, D. (2010). “Learning Features from Music Audio with Deep Belief Networks”. Proceedings of the International Society for Music Information Retrieval Conference: 339–344. 
  5. ^ Jamieson, A.R.; Giger, M.L.; Drukker, K.; Lui, H.; Yuan, Y.; Bhooshan, N. (2010). “Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CADきゃどx with Laplacian Eigenmaps and t-SNE”. Medical Physics 37 (1): 339–351. doi:10.1118/1.3267037. PMC 2807447. PMID 20175497. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2807447/. 
  6. ^ Wallach, I.; Liliean, R. (2009). “The Protein-Small-Molecule Database, A Non-Redundant Structural Resource for the Analysis of Protein-Ligand Binding”. Bioinformatics 25 (5): 615–620. doi:10.1093/bioinformatics/btp035. PMID 19153135. 
  7. ^ Birjandtalab, J.; Pouyan, M. B.; Nourani, M. (2016-02-01). Nonlinear dimension reduction for EEG-based epileptic seizure detection. 595–598. doi:10.1109/BHI.2016.7455968. ISBN 978-1-5090-2455-1. http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=7455968 
  8. ^ Visualizing Representations: Deep Learning and Human Beings Christopher Olah's blog, 2015
  9. ^ K-means clustering on the output of t-SNE”. Cross Validated. 2019ねん4がつ6にち閲覧えつらん
  10. ^ Pezzotti, Nicola; Lelieveldt, Boudewijn P. F.; Maaten, Laurens van der; Hollt, Thomas; Eisemann, Elmar; Vilanova, Anna (2017-07-01). “Approximated and User Steerable tSNE for Progressive Visual Analytics” (英語えいご). IEEE Transactions on Visualization and Computer Graphics 23 (7): 1739–1752. doi:10.1109/tvcg.2016.2570755. ISSN 1077-2626. PMID 28113434. http://ieeexplore.ieee.org/document/7473883/. 
  11. ^ Wattenberg, Martin (2016ねん10がつ13にち). “How to Use t-SNE Effectively” (English). Distill. 2019ねん4がつ6にち閲覧えつらん
  12. ^ Linderman, George C.; Steinerberger, Stefan (8 June 2017). "Clustering with t-SNE, provably". arXiv:1706.02582 [cs.LG]。
  13. ^ Schubert, Erich; Gertz, Michael (4 October 2017). Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection. SISAP 2017 – 10th International Conference on Similarity Search and Applications. pp. 188–203. doi:10.1007/978-3-319-68474-1_13

外部がいぶリンク[編集へんしゅう]