(Translated by https://www.hiragana.jp/)
次元削減 - Wikipedia コンテンツにスキップ

次元じげん削減さくげん

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』
MNISTばれる0〜9の数字すうじ画像がぞうふくむデータセットに、主成分しゅせいぶん分析ぶんせき(PCA、ひだり)と線形せんけいオートエンコーダlinear autoencoderみぎ)をもちいて次元じげん削減さくげんした結果けっか図示ずししたもの。

次元じげん削減さくげん(じげんさくげん、えい: Dimensionality reductiondimension reduction)とは、こう次元じげん空間くうかんからてい次元じげん空間くうかんデータ変換へんかんしながら、てい次元じげん表現ひょうげんもとデータのなんらかの意味いみある特性とくせい保持ほじすることである。

高次こうじもと空間くうかんでデータをあつかうことは、おおくの理由りゆうからのぞましくない。せいのデータは次元じげんのろ結果けっかうとになることがおおく、データの解析かいせき通常つうじょう計算けいさん不可能ふかのうである。

次元じげん削減さくげんは、信号しんごう処理しょり音声おんせい認識にんしきニューロインフォマティクスバイオインフォマティクスなど、大量たいりょう観測かんそく大量たいりょう変数へんすうあつか分野ぶんや一般いっぱんてきである[1]

次元じげん削減さくげん方法ほうほう一般いっぱんてき線形せんけいアプローチと非線形ひせんけいアプローチにけられる。また、アプローチは特徴とくちょう選択せんたく特徴とくちょう抽出ちゅうしゅつ英語えいごばんけられる[2]次元じげん削減さくげんは、ノイズ除去じょきょデータの可視かしクラスター分析ぶんせき、あるいは分析ぶんせき容易よういにするためのなかあいだ段階だんかいとして利用りようされることがある。

特徴とくちょう選択せんたく

[編集へんしゅう]

特徴とくちょう選択せんたくとは、入力にゅうりょく変数へんすう特徴とくちょうりょう属性ぞくせいばれることもある)から有用ゆうよう部分ぶぶん集合しゅうごうつけようとする手法しゅほうのことである。フィルタ(えい: filter strategyれいとしては決定けってい情報じょうほう利得りとく英語えいごばんひとし。)ほう、ラッパーほうえい: wrapper strategyれいとしては精度せいど最大さいだいするような探索たんさくとう。)、ほう(えい: embedded strategy、モデル学習がくしゅう過程かてい予測よそくたいする誤差ごさもと特徴とくちょう追加ついか、あるいは除去じょきょするような方法ほうほうとうおおきく3つの戦略せんりゃくけられる。

回帰かいき分類ぶんるいといったデータ解析かいせきにおいては、もと空間くうかんよりも次元じげん削減さくげんした空間くうかんおこなほうがより精度せいどたかまるとされている[3]

特徴とくちょう抽出ちゅうしゅつ

[編集へんしゅう]

特徴とくちょう抽出ちゅうしゅつ英語えいごばんとは、データをこう次元じげん空間くうかんからよりてい次元じげん空間くうかん変換へんかんすることである。変換へんかん方法ほうほう主成分しゅせいぶん分析ぶんせきのように線形せんけいであるものもあるが、おおくは非線形ひせんけいのアプローチである[4][5]多次元たじげんのデータにたいしては、多重たじゅう線形せんけい部分ぶぶん空間くうかんほう英語えいごばんによって次元じげん削減さくげんおこなうことにより、テンソル表現ひょうげん英語えいごばん利用りようできる[6]

主成分しゅせいぶん分析ぶんせき

[編集へんしゅう]

次元じげん削減さくげん線形せんけいなアプローチのなか主要しゅようなものである主成分しゅせいぶん分析ぶんせきは、データをてい次元じげん空間くうかんたいして線形せんけいにマッピングする。マッピングの方法ほうほうとしては、てい次元じげん表現ひょうげんにおけるデータの分散ぶんさん最大さいだいするようにするものがある。 実際じっさいには、データのきょう分散ぶんさん(あるいは相関そうかん係数けいすう)の行列ぎょうれつつくり、その固有こゆうベクトル計算けいさんする。 最大さいだい固有値こゆうち対応たいおうする固有こゆうベクトル(主成分しゅせいぶん)は、もとデータの分散ぶんさん最大さいだいになる方向ほうこうしめしている。さらに、固有値こゆうちおおきいじゅんならべたときの最初さいしょ数個すうこ固有こゆうベクトルは、とくてい次元じげんけいではけいのエネルギーのだい部分ぶぶんめているため、けい物理ぶつりてきなふるまいを解析かいせきするのに役立やくだつ。 勿論もちろんすべてのけいがこのようなふるまいをしめすわけではなく、ケースバイケースである。 主成分しゅせいぶん分析ぶんせきにより、少数しょうすう固有こゆうベクトルでられる空間くうかん次元じげん削減さくげん[注釈ちゅうしゃく 1]できる[よう出典しゅってん]

非負ひふ行列ぎょうれつ因子いんし分解ぶんかい(NMF)

[編集へんしゅう]

非負ひふ行列ぎょうれつ因子いんし分解ぶんかい英語えいごばんえい: Non-negative matrix factorization、NMFとも)は非負ひふ行列ぎょうれつを2つの非負ひふ行列ぎょうれつせき分解ぶんかいする方法ほうほうで、天文学てんもんがくなど[7][8]非負ひふしかあつかわない分野ぶんや有力ゆうりょく方法ほうほうとされている[9][10]。 NMFはLeeとセバスチャン・スン英語えいごばんによって効率こうりつてき乗法じょうほうアルゴリズムが提案ていあんされ[11][9]以来いらいよくられており、継続けいぞくてき拡張かくちょう応用おうようがなされている[11]れいとしては、かくさをふくめたあつか[7]欠損けっそんデータを考慮こうりょした並列へいれつ計算けいさん[12]、NMFの安定あんていせい線形せんけいせいへとつながる逐次ちくじてき構成こうせい[8][12]画像がぞう処理しょりにおける欠損けっそんデータをあつか更新こうしんそく[13]ひとし

オートエンコーダ

[編集へんしゅう]
オートエンコーダのしき。エンコーダにより次元じげん削減さくげんされ、デコーダは次元じげん削減さくげんされた表現ひょうげんからもと次元じげんのデータを復元ふくげんする。

オートエンコーダは、非線形ひせんけい次元じげん削減さくげん関数かんすう学習がくしゅうと、そのぎゃく関数かんすうである次元じげん削減さくげんされた表現ひょうげんからもと表現ひょうげん変換へんかんする関数かんすう両方りょうほう学習がくしゅうするために利用りようされる[14]

t分布ぶんぷがたかくりつてき近傍きんぼうほうえい: t-SNE)は、こう次元じげんデータセット可視かし有用ゆうよう非線形ひせんけい次元じげん削減さくげん手法しゅほうである。 かならずしも密度みつど距離きょり保存ほぞんされるわけではないため、クラスタリングはず検出けんしゅつといった用途ようとには推奨すいしょうされない[15]

脚注きゃくちゅう

[編集へんしゅう]

注釈ちゅうしゃく

[編集へんしゅう]
  1. ^ むろんデータはうしなわれるものの、もっと重要じゅうよう分散ぶんさん保持ほじされることを期待きたいしている。

出典しゅってん

[編集へんしゅう]
  1. ^ Postma, Eric; van den Herik, Jaap; van der Lubbe, Jan (2007-04). “Paintings and writings in the hands of scientists”. Pattern Recognition Letters 28 (6): 671–672. doi:10.1016/j.patrec.2006.08.006. ISSN 0167-8655. https://doi.org/10.1016/j.patrec.2006.08.006. 
  2. ^ Pudil, Pavel; Novovičová, Jana (1998), Novel Methods for Feature Subset Selection with Respect to Problem Knowledge, Springer US, pp. 101–116, ISBN 978-1-4613-7622-4, https://doi.org/10.1007/978-1-4615-5725-8_7 2022ねん1がつ23にち閲覧えつらん 
  3. ^ Rico-Sulayes, Antonio (2017). “Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution”. Revista Ingeniería Electrónica, Automática y Comunicaciones 38 (3): 26–35. ISSN 1815-5928. https://rielac.cujae.edu.cu/index.php/rieac/article/view/478. 
  4. ^ Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. ISBN 0-12-369446-9
  5. ^ C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
  6. ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). “A Survey of Multilinear Subspace Learning for Tensor Data”. Pattern Recognition 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004. https://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf. 
  7. ^ a b Blanton, Michael R.; Roweis, Sam (2007). “K-corrections and filter transformations in the ultraviolet, optical, and near infrared”. The Astronomical Journal 133 (2): 734–754. arXiv:astro-ph/0606170. Bibcode2007AJ....133..734B. doi:10.1086/510127. 
  8. ^ a b Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). “Non-negative Matrix Factorization: Robust Extraction of Extended Structures”. The Astrophysical Journal 852 (2): 104. arXiv:1712.10317. Bibcode2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2. 
  9. ^ a b Daniel D. Lee & H. Sebastian Seung (1999). “Learning the parts of objects by non-negative matrix factorization”. Nature 401 (6755): 788–791. Bibcode1999Natur.401..788L. doi:10.1038/44565. PMID 10548103. 
  10. ^ Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization (PDF). Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. pp. 556–562.
  11. ^ a b 武彦たけひこ, 安川やすかわ非負ひふ行列ぎょうれつ因子いんし分解ぶんかいもちいたテキストデータ解析かいせき」『計算けいさん統計とうけいがくだい28かんだい1ごう、2015ねん、42ぺーじdoi:10.20551/jscswabun.28.1_41 
  12. ^ a b Zhu, Guangtun B. (19 December 2016). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv:1612.06037 [astro-ph.IM]。
  13. ^ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H.; Duechene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). “Using Data Imputation for Signal Separation in High Contrast Imaging”. The Astrophysical Journal 892 (2): 74. arXiv:2001.00563. Bibcode2020ApJ...892...74R. doi:10.3847/1538-4357/ab7024. 
  14. ^ はんたい, またオートエンコーダによるてい次元じげん可視かし」『可視かし情報じょうほう学会がっかいだい38かんだい151ごう、2018ねん、10ぺーじdoi:10.3154/jvs.38.151_9 
  15. ^ Schubert, Erich; Gertz, Michael (2017). Beecks, Christian; Borutta, Felix; Kröger, Peer et al.. eds. “Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection” (英語えいご). Similarity Search and Applications. Lecture Notes in Computer Science (Cham: Springer International Publishing) 10609: 188–203. doi:10.1007/978-3-319-68474-1_13. ISBN 978-3-319-68474-1. https://link.springer.com/chapter/10.1007/978-3-319-68474-1_13. 

関連かんれん項目こうもく

[編集へんしゅう]