t分布 ぶんぷ 型 がた 確 かく 率 りつ 的 てき 近傍 きんぼう 埋 う め込 こ み法 ほう (ティーぶんぷかくりつてききんぼううめこみほう、英語 えいご : t-distributed Stochastic Neighbor Embedding 、略称 りゃくしょう : t-SNE )は、高次 こうじ 元 もと データの個々 ここ のデータ点 てん に2次元 じげん または3次元 じげん マップ中 ちゅう の位置 いち を与 あた えることによって可視 かし 化 か のための統計 とうけい 学 がく 的 てき 手法 しゅほう である。サム・ロウェイスとジェフリー・ヒントン により最初 さいしょ に開発 かいはつ された確 かく 率 りつ 的 てき 近傍 きんぼう 埋 う め込 こ み法 ほう [1] を基 もと にしており、ラウレンス・ファン・デル・マーテンがt分布 ぶんぷ 版 はん を提唱 ていしょう した[2] 。高次 こうじ 元 もと データの可視 かし 化 か のため2次元 じげん または3次元 じげん の低 てい 次元 じげん 空間 くうかん へ埋 う め込 こ みに最適 さいてき な非線形 ひせんけい 次元 じげん 削減 さくげん 手法 しゅほう である。具体 ぐたい 的 てき には、高 こう 次元 じげん のデータ集合 しゅうごう を2次元 じげん または3次元 じげん へ配置 はいち する際 さい に、高 たか い確 かく 率 りつ で類似 るいじ した集合 しゅうごう が近傍 きんぼう に、異 こと なる集合 しゅうごう が遠方 えんぽう となるように対応付 たいおうづ ける。
t-SNEのアルゴリズムは主 おも に2つの段階 だんかい で構成 こうせい される。第 だい 一 いち に、高次 こうじ 元 もと データの各 かく 対 たい について類似 るいじ する集合 しゅうごう が選択 せんたく される可能 かのう 性 せい が高 たか く、一方 いっぽう で異 こと なる集合 しゅうごう が選択 せんたく される可能 かのう 性 せい が極 きわ めて小 ちい さくなるように確 かく 率 りつ 分布 ぶんぷ を構築 こうちく する。第 だい 二 に に、低 てい 次元 じげん マップ上 じょう の集合 しゅうごう について同様 どうよう な確 かく 率 りつ 分布 ぶんぷ を定義 ていぎ し、2つの分布 ぶんぷ 間 あいだ のカルバック・ライブラー情報 じょうほう 量 りょう を最小 さいしょう 化 か する低 てい 次元 じげん マップ内 ない の点 てん の位置 いち を求 もと める。元 もと のアルゴリズムは二 に 点 てん の類似 るいじ 度 ど の指標 しひょう にユークリッド距離 きょり を使用 しよう しているが、これは必要 ひつよう に応 おう じ適切 てきせつ に変更 へんこう する必要 ひつよう がある。
t-SNEは、コンピュータセキュリティ 研究 けんきゅう [3] 、音楽 おんがく 分析 ぶんせき [4] 、癌 がん 研究 けんきゅう ,[5] 、バイオインフォマティクス [6] 、および生物 せいぶつ 医学 いがく 信号 しんごう 処理 しょり [7] を含 ふく む、幅広 はばひろ い応用 おうよう の可視 かし 化 か に利用 りよう されている。人工 じんこう ニューラルネットワーク によって学習 がくしゅう された高 こう レベルの表現 ひょうげん の可視 かし 化 か にもよく使用 しよう される[8] 。
多 おお くの場合 ばあい 、t-SNEで表示 ひょうじ された図 ず ではクラスターが見 み えるが、可視 かし 化 か されたクラスターは選択 せんたく したパラメータにより強 つよ く影響 えいきょう される可能 かのう 性 せい があるため、t-SNEのパラメータをよく理解 りかい することが必要 ひつよう である。そのような「クラスター」は、非 ひ クラスターのデータにも現 あらわ れることがあり[9] 、したがって誤 あやま った発見 はっけん かもしれない。したがって、パラメータを選択 せんたく して結果 けっか を検証 けんしょう を繰 く り返 かえ す探索 たんさく が必要 ひつよう となる可能 かのう 性 せい がある[10] [11] 。t-SNEはよく分離 ぶんり されたクラスターを復元 ふくげん できることが多 おお く、特別 とくべつ なパラメーターを選択 せんたく により単純 たんじゅん な形 かたち のスペクトルクラスター (英語 えいご 版 ばん ) 形状 けいじょう を近似 きんじ することが実証 じっしょう されている。[12]
高 こう 次元 じげん の
N
{\displaystyle N}
個 こ のデータ集合 しゅうごう
x
1
,
…
,
x
N
{\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{N}}
与 あた えられているとする。高次 こうじ 元 もと データ集合 しゅうごう の類似 るいじ 度 ど の特徴 とくちょう を反映 はんえい した低 てい 次元 じげん 上 じょう に表現 ひょうげん された
N
{\displaystyle N}
個 こ のデータ集合 しゅうごう
Y
{\displaystyle Y}
(
y
1
,
…
,
y
N
{\displaystyle \mathbf {y} _{1},\dots ,\mathbf {y} _{N}}
) を求 もと めるのが目的 もくてき である。
t-SNEのパラメータとしてコスト関数 かんすう のパラメータのパープレキシティ (perplexity) と最適 さいてき 化 か のパラメーターの反復 はんぷく 計算 けいさん 回数 かいすう
T
{\displaystyle T}
、学習 がくしゅう 率 りつ
η いーた
{\displaystyle \eta }
、モーメンタム
α あるふぁ
(
t
)
{\displaystyle \alpha (t)}
をそれぞれ与 あた える。ファン・デル・マーテンによればt-SNEの性能 せいのう は異 こと なるパープレキシティの設定 せってい に対 たい してはかなり頑健 がんけん で、最適 さいてき なパープレキシティは使用 しよう するデータにより異 こと なるが典型 てんけい 的 てき には5から50までの間 あいだ の値 ね が用 もち いられる。
最初 さいしょ に高 こう 次元 じげん のデータ集合 しゅうごう について各 かく 対 たい の類似 るいじ 度 ど を計算 けいさん する。ファン・デル・マーテンとヒントンは「データ点 てん
x
i
{\displaystyle x_{i}}
に対 たい してデータ点 てん
x
j
{\displaystyle x_{j}}
が
x
i
{\displaystyle x_{i}}
を中心 ちゅうしん とするガウス分布 ぶんぷ の確 かく 率 りつ 密度 みつど 分布 ぶんぷ に比例 ひれい して選 えら ばれるならば、
x
j
{\displaystyle x_{j}}
と
x
i
{\displaystyle x_{i}}
の類似 るいじ 度 ど は条件 じょうけん 付 つ き確 かく 率 りつ
p
j
|
i
{\displaystyle p_{j|i}}
と表 あらわ される」[2] と説明 せつめい した。
p
j
∣
i
=
exp
(
−
‖
x
i
−
x
j
‖
2
/
2
σ しぐま
i
2
)
∑
k
≠
i
exp
(
−
‖
x
i
−
x
k
‖
2
/
2
σ しぐま
i
2
)
,
{\displaystyle p_{j\mid i}={\frac {\exp(-\lVert \mathbf {x} _{i}-\mathbf {x} _{j}\rVert ^{2}/2\sigma _{i}^{2})}{\sum _{k\neq i}\exp(-\lVert \mathbf {x} _{i}-\mathbf {x} _{k}\rVert ^{2}/2\sigma _{i}^{2})}},}
ただし同 どう じ点 てん の対 たい に対 たい しては
p
i
∣
i
=
0
{\displaystyle p_{i\mid i}=0}
となる。
σ しぐま
i
{\displaystyle \sigma _{i}}
はガウス分布 ぶんぷ の偏差 へんさ で、次 つぎ のパープレキシティの関係 かんけい 式 しき を満 み たす偏差 へんさ
σ しぐま
i
{\displaystyle \sigma _{i}}
を二分 にぶん 法 ほう により求 もと める。
P
e
r
p
(
P
i
)
=
2
H
(
P
i
)
{\displaystyle Perp(P_{i})=2^{H(P_{i})}}
H
(
P
i
)
=
−
∑
j
p
j
∣
i
log
2
p
j
∣
i
{\displaystyle H(P_{i})=-\sum _{j}p_{j\mid i}\log _{2}p_{j\mid i}}
ここで
H
(
P
i
)
{\displaystyle H(P_{i})}
はシャノンエントロピー である。密集 みっしゅう していてデータ集合 しゅうごう 空間 くうかん が小 ちい さければ
σ しぐま
i
{\displaystyle \sigma _{i}}
は小 ちい さい値 ね となる。
次 つぎ に同時 どうじ 確 かく 率 りつ
p
i
j
{\displaystyle p_{ij}}
を次 つぎ の式 しき で求 もと める。
p
i
j
=
p
j
∣
i
+
p
i
∣
j
2
N
{\displaystyle p_{ij}={\frac {p_{j\mid i}+p_{i\mid j}}{2N}}}
ただし
i
=
j
{\displaystyle i=j}
の場合 ばあい は0となる。
p
i
i
=
0
{\displaystyle p_{ii}=0}
平均 へいきん 0のガウス分布 ぶんぷ の無 む 作為 さくい 標本 ひょうほん を初期 しょき 解 かい
Y
(
0
)
{\displaystyle Y^{(0)}}
とする。
最後 さいご にt=1からt=Tまで以下 いか の手順 てじゅん をT回 かい の繰 く り返 かえ しにより解 かい
Y
(
T
)
{\displaystyle Y^{(T)}}
を求 もと める。
t-1番目 ばんめ の解 かい
Y
(
t
−
1
)
{\displaystyle Y^{(t-1)}}
に対 たい する低 てい 次元 じげん 上 じょう の類似 るいじ 度 ど を計算 けいさん する。
自由 じゆう 度 ど 1のt分布 ぶんぷ (コーシー分布 ぶんぷ )を利用 りよう した同時 どうじ 確 かく 率 りつ 。
q
i
j
=
(
1
+
‖
y
i
−
y
j
‖
2
)
−
1
∑
k
≠
l
(
1
+
‖
y
k
−
y
l
‖
2
)
−
1
{\displaystyle q_{ij}={\frac {(1+\lVert \mathbf {y} _{i}-\mathbf {y} _{j}\rVert ^{2})^{-1}}{\sum _{k\neq l}(1+\lVert \mathbf {y} _{k}-\mathbf {y} _{l}\rVert ^{2})^{-1}}}}
ただし同 どう じ点 てん の対 たい に対 たい しては0とする。
q
i
i
=
0
{\displaystyle q_{ii}=0}
p
i
j
{\displaystyle p_{ij}}
の分布 ぶんぷ Pと
q
i
j
{\displaystyle q_{ij}}
の分布 ぶんぷ Qについてのカルバック・ライブラー情報 じょうほう 量 りょう を目的 もくてき 関数 かんすう とし、最小 さいしょう となる解 かい
Y
(
t
)
{\displaystyle Y^{(t)}}
求 もと める。
K
L
(
P
|
|
Q
)
=
∑
i
≠
j
p
i
j
log
p
i
j
q
i
j
{\displaystyle KL(P||Q)=\sum _{i\neq j}p_{ij}\log {\frac {p_{ij}}{q_{ij}}}}
各 かく iについて目的 もくてき 関数 かんすう の勾配 こうばい を計算 けいさん する。
δ でるた
C
δ でるた
y
i
=
4
∑
j
(
p
i
j
−
q
i
j
)
(
y
i
−
y
j
)
(
1
+
‖
y
i
−
y
j
‖
2
)
−
1
{\displaystyle {\frac {\delta C}{\delta y_{i}}}=4\sum _{j}(p_{ij}-q_{ij})(y_{i}-y_{j})(1+\lVert y_{i}-y_{j}\rVert ^{2})^{-1}}
目的 もくてき 関数 かんすう の勾配 こうばい と以前 いぜん の解 かい よりt番 ばん 目 め の解 かい
Y
(
t
)
{\displaystyle Y^{(t)}}
を計算 けいさん する。
Y
(
t
)
=
Y
(
t
−
1
)
+
η いーた
δ でるた
C
δ でるた
Y
+
α あるふぁ
(
t
)
(
Y
(
t
−
1
)
−
Y
(
t
−
2
)
)
{\displaystyle Y^{(t)}=Y^{(t-1)}+\eta {\frac {\delta C}{\delta Y}}+\alpha (t)\left(Y^{(t-1)}-Y^{(t-2)}\right)}
解 かい
Y
(
T
)
{\displaystyle Y^{(T)}}
を図示 ずし することで高 こう 次元 じげん のデータ集合 しゅうごう のクラスターを把握 はあく できる。
一般 いっぱん 的 てき な次元 じげん 削減 さくげん 課題 かだい をどのように実行 じっこう するかが不 ふ 明確 めいかく である。
比較的 ひかくてき 局所 きょくしょ 的 てき な性質 せいしつ によりデータの固有 こゆう 次元 じげん の呪 のろ いに敏感 びんかん になる。
ガウス関数 かんすう はユークリッド距離 きょり
‖
x
i
−
x
j
‖
{\displaystyle \lVert x_{i}-x_{j}\rVert }
を使用 しよう しているため、次元 じげん の呪 のろ い の影響 えいきょう を受 う け、高 こう 次元 じげん でデータを距離 きょり により区別 くべつ する能力 のうりょく が失 うしな われる。
p
i
j
{\displaystyle p_{ij}}
はほとんど同 おな じ値 ち となる(高 こう 次元 じげん で定数 ていすう に漸近 ぜんきん する)。これを軽減 けいげん するために、各 かく 点 てん の固有 こゆう の次元 じげん に基 もと づいて、冪 べき 乗 じょう 変換 へんかん により距離 きょり を調節 ちょうせつ する手法 しゅほう が提案 ていあん されている。[13]
t目的 もくてき 関数 かんすう の大域 たいいき 的 てき 最小 さいしょう 値 ち への収束 しゅうそく が保証 ほしょう されていない。
同 おな じアルゴリズムパラメータでも得 え られる解 かい が異 こと なることがある。
^ Roweis, Sam; Hinton, Geoffrey (January 2002). Stochastic neighbor embedding (PDF) . Neural Information Processing Systems .
^ a b van der Maaten, L.J.P.; Hinton, G.E. (Nov 2008). “Visualizing Data Using t-SNE” . Journal of Machine Learning Research 9 : 2579–2605. http://jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf .
^ Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). “An Experimental Study of Diversity with Off-the-shelf AntiVirus Engines”. Proceedings of the IEEE International Symposium on Network Computing and Applications : 4–11.
^ Hamel, P.; Eck, D. (2010). “Learning Features from Music Audio with Deep Belief Networks”. Proceedings of the International Society for Music Information Retrieval Conference : 339–344.
^ Jamieson, A.R.; Giger, M.L.; Drukker, K.; Lui, H.; Yuan, Y.; Bhooshan, N. (2010). “Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CAD きゃど x with Laplacian Eigenmaps and t-SNE” . Medical Physics 37 (1): 339–351. doi :10.1118/1.3267037 . PMC 2807447 . PMID 20175497 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2807447/ .
^ Wallach, I.; Liliean, R. (2009). “The Protein-Small-Molecule Database, A Non-Redundant Structural Resource for the Analysis of Protein-Ligand Binding”. Bioinformatics 25 (5): 615–620. doi :10.1093/bioinformatics/btp035 . PMID 19153135 .
^ Birjandtalab, J.; Pouyan, M. B.; Nourani, M. (2016-02-01). Nonlinear dimension reduction for EEG-based epileptic seizure detection . 595–598. doi :10.1109/BHI.2016.7455968 . ISBN 978-1-5090-2455-1 . http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=7455968
^ Visualizing Representations: Deep Learning and Human Beings Christopher Olah's blog, 2015
^ “K-means clustering on the output of t-SNE ”. Cross Validated . 2019年 ねん 4月 がつ 6日 にち 閲覧 えつらん 。
^ Pezzotti, Nicola; Lelieveldt, Boudewijn P. F.; Maaten, Laurens van der; Hollt, Thomas; Eisemann, Elmar; Vilanova, Anna (2017-07-01). “Approximated and User Steerable tSNE for Progressive Visual Analytics” (英語 えいご ). IEEE Transactions on Visualization and Computer Graphics 23 (7): 1739–1752. doi :10.1109/tvcg.2016.2570755 . ISSN 1077-2626 . PMID 28113434 . http://ieeexplore.ieee.org/document/7473883/ .
^ Wattenberg, Martin (2016年 ねん 10月 がつ 13日 にち ). “How to Use t-SNE Effectively ” (English). Distill. 2019年 ねん 4月 がつ 6日 にち 閲覧 えつらん 。
^ Linderman, George C.; Steinerberger, Stefan (8 June 2017). "Clustering with t-SNE, provably". arXiv :1706.02582 [cs.LG ]。
^ Schubert, Erich; Gertz, Michael (4 October 2017). Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection . SISAP 2017 – 10th International Conference on Similarity Search and Applications. pp. 188–203. doi :10.1007/978-3-319-68474-1_13 。