(Translated by https://www.hiragana.jp/)
主成分分析 - 維基百科,自由的百科全書 とべいたり內容

主成分しゅせいぶん分析ぶんせき

本頁使用了標題或全文手工轉換
維基百科ひゃっか自由じゆうてき百科全書ひゃっかぜんしょ
いちこう分布ぶんぷ平均へいきんため(1, 3),標準ひょうじゅんざい(0.878, 0.478)方向ほうこうじょうため3、ざい其正交方向上こうじょうため1てき主成分しゅせいぶん分析ぶんせき黑色こくしょくてき兩個りゃんこむこうりょう分布ぶんぷてききょう變異へんいすうのりじんてき特徵とくちょうむこうりょう,其長ため對應たいおうてき特徵とくちょうこれ平方根へいほうこんなみ分布ぶんぷてき平均へいきん值為原點げんてん

ざい變量へんりょう分析ぶんせきなか主成分しゅせいぶん分析ぶんせき英語えいごPrincipal components analysis縮寫しゅくしゃPCAいちしゅ統計とうけい分析ぶんせき、簡化すうよりどころしゅうてき方法ほうほう。它利用りようせい轉換てんかんらいたい一系列可能相關的變量的觀測值進行線性轉換,したがえ投影とうえいため一系列線性不相關變量的值,這些相關そうかん變量へんりょうしょうため主成分しゅせいぶん(Principal Components)。具體ぐたい主成分しゅせいぶん以看做いちせんせい方程式ほうていしき,其包含ほうがん一系列線性係數來指示投影方向。PCAたい原始げんしすうよりどころてき正則せいそくあるあずか處理しょり敏感びんかん相對そうたいちぢみ)。

基本きほん思想しそう

  • はたすわしるべじく中心ちゅうしんうつりいたかずよりどころてき中心ちゅうしんしかこう旋轉せんてんすわしるべじく使つかいとくすうよりどころざいC1じくじょうてき變異へんいすう最大さいだいそく全部ぜんぶn個數こすうよりどころ個體こたいざい該方向上こうじょうてき投影とうえいさいため分散ぶんさん意味いみちょさらてき訊被保留ほりゅうらい。C1なりためだいいち主成分しゅせいぶん
  • C2だい主成分しゅせいぶん:找いちC2,使つかいとくC2あずかC1てききょう變異へんいすう相關そうかん係數けいすうため0,以免あずかC1重疊ちょうじょうなみ且使すうよりどころざい方向ほうこうてき變異へんいすう儘量最大さいだい
  • 以此類推るいすい,找到だいさん主成分しゅせいぶんだいよん主成分しゅせいぶん……だいp主成分しゅせいぶん。pずい變數へんすう以有p主成分しゅせいぶん[1]

主成分しゅせいぶん分析ぶんせきけい常用じょうよう於減少數しょうすうよりどころしゅうてき維數同時どうじ保留ほりゅうすうよりどころしゅうとうなかたい變異へんいすう貢獻こうけん最大さいだいてき特徵とくちょう。這是通過つうか保留ほりゅうてい主成分しゅせいぶんゆるがせりゃくだか主成分しゅせいぶん做到てき。這樣てい維成ぶん往往おうおうのう保留ほりゅうじゅうすうよりどころてきさい重要じゅうよう部分ぶぶんただし,這也一定いっていてきよう具體ぐたい應用おうよう而定。よし主成分しゅせいぶん分析ぶんせき依賴いらいしょきゅうすうよりどころ所以ゆえんすうよりどころてきじゅんかくせいたい分析ぶんせき結果けっか影響えいきょう很大。

主成分しゅせいぶん分析ぶんせきよし卡爾·がわしかもり於1901ねん發明はつめい[2]よう分析ぶんせきすうよりどころ建立こんりゅう數理すうり模型もけいざい原理げんりじょうあずか主軸しゅじく定理ていり英語えいごPrincipal axis theorem相似そうじこれざい1930ねん左右さゆうよし哈羅とく·霍特りん獨立どくりつ發展はってんなみ命名めいめい依據いきょ應用おうよう領域りょういきてき不同ふどうざい信號しんごう處理しょりちゅう它也さけべ離散りさんK-L 轉換てんかん(discrete Karhunen–Loève transform (KLT))。其方ほう主要しゅよう通過つうかたいきょう變異へんいすうのりじん進行しんこう特徵とくちょう分解ぶんかい[3],以得すうよりどころてき主成分しゅせいぶんそく特徵とくちょうむこうりょうあずか它們てきけん值(そく特徵とくちょう[4])。PCAさい簡單かんたんてき以特ちょうりょう分析ぶんせき多元たげん統計とうけい分布ぶんぷてき方法ほうほう。其結果けっか理解りかいためたいはらすうよりどころちゅうてき變異へんいすう做出解釋かいしゃく:哪一個方向上的數據值對變異數的影響最大?かわ而言,PCA提供ていきょうりょう一種降低數據維度てき有效ゆうこう辦法;如果分析ぶんせきしゃ在原ありはらすうよりどころちゅうじょ最小さいしょうてき特徵とくちょうところ對應たいおうてき成分せいぶん所得しょとくてきてい維度すうよりどころ必定ひつじょうさいゆうてき(也即,這樣くだてい維度必定ひつじょうしつ訊息最少さいしょうてき方法ほうほう)。主成分しゅせいぶん分析ぶんせきざい分析ぶんせき複雜ふくざつすうよりどころゆうため有用ゆうようひと臉識べつ

PCAさい簡單かんたんてき以特ちょうりょう分析ぶんせき多元たげん統計とうけい分布ぶんぷてき方法ほうほう通常つうじょう,這種運算うんざん以被さく揭露すうよりどころてき內部結構けっこうしたがえ而更好地こうちてん現數げんすうよりどころてき變異へんい。如果一個多元數據集是用高維數據空間之坐標系來表示的,麼PCAのう提供ていきょう一幅較低維度的圖像,相當そうとう於數よりどころしゅうざい訊息りょう最多さいた角度かくどじょうてきいち投影とうえい。這樣就可以利用りよう少量しょうりょうてき主成分しゅせいぶんゆずるすうよりどころてき維度くだていりょう

PCA 跟因子いんし分析ぶんせきみつきり相關そうかん因子いんし分析ぶんせき通常つうじょう包含ほうがんさら特定とくてい領域りょういきそこそう結構けっこうてき假設かせつなみ且求かいややほろ不同ふどうのりじんてき特徵とくちょうむこうりょう

PCA 也跟典型てんけい相關そうかん分析ぶんせき(CCA)ゆうせき。CCA定義ていぎてきすわしるべけい以最けい描述兩個りゃんこすうよりどころしゅうあいだてき交叉こうさども變數へんすう,而PCA定義ていぎりょうしんてきせい交坐しるべけいのうさいけい描述たん個數こすうよりどころしゅうとうなかてき變異へんいすう

數學すうがく定義ていぎ

[編輯へんしゅう]

PCAてき數學すうがく定義ていぎいちせい交化せんせい轉換てんかんすうよりどころ轉換てんかんいたいちしんてきすわしるべ系統けいとうなか使つかいとく這一すうよりどころてきにんなに投影とうえいてきだい一大いちだい變異へんいすうざいだいいちすわしめぎしょうためだいいち主成分しゅせいぶんじょうだい二大變異數在第二個坐標(だい主成分しゅせいぶんじょう類推るいすい[5]

定義ていぎいちてきのりじん, ため平均へいきん以平いたいらひとし值為中心ちゅうしん移動いどういたり原點げんてんてきすうよりどころ,其行為こういすうよりどころさまほんれつためすうよりどころ類別るいべつ注意ちゅうい,這裡定義ていぎてき 而不)。のりてき奇異きい分解ぶんかいため,其中これてき特徵とくちょうむこうりょうのりじん奇異きい值矩じんこれてき特徵とくちょうむこうりょうのりじんよりどころ此,

とう m < n − 1V ざい通常つうじょう情況じょうきょう唯一ゆいいつ定義ていぎてき,而Y のり唯一ゆいいつ定義ていぎてきW いちせい交矩じんYTWT=XT,且YTてきだい一列由第一主成分組成,だいれつよしだい主成分しゅせいぶん組成そせい類推るいすい

ためりょういた一種降低數據維度的有效辦法,わが們可以利用りようWL X うついたいちただ應用おうよう前面ぜんめんLこう量的りょうてきてい維空あいだちゅう

其中,且ためてき單位たんいのりじん

X てき單向たんこうりょうのりじんW相當そうとうきょう變異へんいすうのりじんてき特徵とくちょうむこうりょう C = X XT,

ざいおう幾里いくさととく空間くうかんきゅうじょういちくみ點數てんすうだい一主成分對應於通過多維空間平均點的一條線,同時どうじ保證ほしょう各個かっこてんいた這條直線ちょくせん距離きょりてき平方和へいほうわ最小さいしょうじょ掉第いち主成分しゅせいぶんよう同樣どうようてき方法ほうほういただい主成分しゅせいぶん類推るいすいざいΣしぐまなかてき奇異きいひとしためのりじん XXTてき特徵とくちょうてき平方根へいほうこんまい一個特徵值都與跟它們相關的變異數是成正比的,而且所有しょゆう特徵とくちょう值的總和そうわとう所有しょゆうてんいた它們てき維空あいだ平均へいきんてん距離きょりてき平方和へいほうわ。PCA提供ていきょうりょう一種降低維度的有效辦法,本質ほんしつじょう,它利用りようせい轉換てんかんはた圍繞いじょう平均へいきんてんてきてん集中しゅうちゅう可能かのうてき變量へんりょう投影とうえいいただいいち維中いん此,くだてい維度必定ひつじょうしつ訊息最少さいしょうてき方法ほうほう。PCA具有ぐゆう保持ほじ空間くうかんようゆう最大さいだい變異へんいすうてきさいゆうせい轉換てんかんてき特性とくせいしか而,とうあずか離散りさん餘弦よげん轉換てんかんそう,它需ようさらだいてき計算けいさん需求代價だいかせんせいくだ技術ぎじゅつ相對そうたい於PCAらいせつそく需要じゅようさらだかてき計算けいさん要求ようきゅう

PCAたい變量へんりょうてきちぢみ很敏かん。如果わが們只ゆう兩個りゃんこ變量へんりょう,而且它們具有ぐゆうしょうどうてきさまほん變異へんいすうなみ且成せい相關そうかん麼PCAはたわたる兩個りゃんこ變量へんりょうてき主成分しゅせいぶんてき旋轉せんてんただし,如果だい一個變量的所有值都乘以100,麼第一主成分就幾乎和這個變量一樣,另一個變量只提供了很小的貢獻,だい二主成分也將和第二個原始變量幾乎一致。這就意味いみちょとう不同ふどうてき變量へんりょう代表だいひょう不同ふどうてき單位たんい(如溫度おんど質量しつりょう,PCAいちしゅ比較ひかく武斷ぶだんてき分析ぶんせき方法ほうほうただしざいPearsonてきだいため "On Lines and Planes of Closest Fit to Systems of Points in Space"てき原始げんしぶんけんさと假設かせつざいおう幾里いくさととく空間くうかんうら考慮こうりょ這些。一種いっしゅ使PCA武斷ぶだんてき方法ほうほう使用しよう變量へんりょうちぢみ以得いた單位たんい變異へんいすう


討論とうろん

[編輯へんしゅう]

通常つうじょうためりょう確保かくほだい一主成分描述的是最大變異數的方向,わが們會使用しよう平均へいきん減法げんぽう進行しんこう主成分しゅせいぶん分析ぶんせき。如果執行しっこう平均へいきん減法げんぽうだい一主成分有可能或多或少的對應於數據的平均值。另外,ためりょう找到近似きんじすうよりどころてき最小さいしょうひとしかた誤差ごさわが必須ひっすせんいちれいひとし[6]

假設かせつれい經驗けいけんひとし值,すうよりどころしゅう X てき主成分しゅせいぶんw1以被定義ていぎため

ためりょういただい k主成分しゅせいぶん必須ひっすさきしたがえXちゅうげん前面ぜんめんてき 主成分しゅせいぶん

しかもとめとくてきだいk主成分しゅせいぶんたいいれすうよりどころしゅうとくいたしんてきすうよりどころしゅう繼續けいぞくひろ主成分しゅせいぶん


PCA相當そうとう於在氣象きしょうがくちゅう使用しようてき經驗けいけんせい交函すう(EOF),同時どうじ類似るいじ於一個線性隱層神經網絡。 かくれ含層 K 神經しんけいもとてきけんじゅうむこうりょう收斂しゅうれんはた形成けいせいいちよしまえ K 主成分しゅせいぶんまたがえつ空間くうかんてき基礎きそただしあずかPCA不同ふどうてき,這種技術ぎじゅつなみ一定會產生正交向量。

PCA一種很流行且主要的模式識別技術。しか而,它並不能ふのうさいけい類別るいべつ分離ぶんりせい[7] 。另一種不考慮這一點的方法是線性判別分析。

符號ふごう縮寫しゅくしゃひょう

[編輯へんしゅう]
Symbol符號ふごう Meaning意義いぎ Dimensions尺寸しゃくすん Indices指數しすう
よし所有しょゆうすうよりどころむこうりょうしゅう組成そせいてきすうよりどころのりじんいちれつ代表だいひょういちむこうりょう
かずよりどころ集中しゅうちゅうれつこう量的りょうてき個數こすう 純量じゅんりょう
まいれつこう量的りょうてき元素げんそ個數こすう 純量じゅんりょう
空間くうかんてき維數, 純量じゅんりょう
經驗けいけんひとし值向りょう
經驗けいけん標準ひょうじゅん變異へんいすうむこうりょう
所有しょゆうてき單位たんいむこうりょう
たいひとし值的へんはなれむこうりょう
Z-分數ぶんすう利用りようひとし值和標準ひょうじゅん計算けいさんいた
きょう變異へんいすうのりじん
相關そうかんのりじん
Cてき所有しょゆう特徵とくちょうむこうりょうしゅう
しゅ對角線たいかくせんため特徵とくちょう值的たいかくのりじん
もとむこうりょうのりじん
X Wのりじんてき投影とうえいのりじん

主成分しゅせいぶん分析ぶんせきてき屬性ぞくせいげんせい

[編輯へんしゅう]

如上じょじょうしょじゅつ主成分しゅせいぶん分析ぶんせきてき結果けっか依賴いらい於變量的りょうてきちぢみ

主成分しゅせいぶん分析ぶんせきてき適用てきようせい受到よし它的派生はせい物產ぶっさんせいてきぼう假設かせつ[8] まとげんせい

主成分しゅせいぶん分析ぶんせき訊理ろん

[編輯へんしゅう]

通過つうか使用しようくだ維來保存ほぞんだい部分ぶぶんすうよりどころ訊的主成分しゅせいぶん分析ぶんせきてき觀點かんてん不正ふせいかくてき確實かくじつ如此,とうぼつゆうにんなん假設かせつ訊的信號しんごう模型もけい主成分しゅせいぶん分析ぶんせきざいくだ維的同時どうじなみ不能ふのう保證ほしょう訊的丟失,其中訊是ゆかりこうのう[9]らい衡量てきもと假設かせつとく 也就せつむこうりょう x 含有がんゆう訊的目標もくひょう信號しんごう s かず噪聲信號しんごう n これしたがえ訊理ろん角度かくど考慮こうりょ主成分しゅせいぶん分析ぶんせきざいくだ維上さいゆうてき

特別とくべつ,Linsker證明しょうめいりょう如果 s だか分布ぶんぷ,且 n あずか密度みつどのりじん相應そうおうてききょう變異へんいすうのりじんてきだか斯噪ごえ

使用しよう統計とうけい方法ほうほう計算けいさんPCA

[編輯へんしゅう]

以下いか使用しよう統計とうけい方法ほうほう計算けいさんPCAてき詳細しょうさい說明せつめいただし注意ちゅうい,如果利用りよう奇異きい分解ぶんかい使用しよう標準ひょうじゅんてき軟體)效果こうかかいさらこのみ

わが們的目標もくひょうこれいちきゅうじょうてき具有ぐゆう M 維的すうよりどころしゅうX 轉換てんかんなり具有ぐゆう較小維度 LてきすうよりどころしゅうY現在げんざい要求ようきゅうてき就是のりじんYYのりじんX Karhunen–Loève轉換てんかん。:

組織そしきすうよりどころしゅう

[編輯へんしゅう]

假設かせつゆういちくみ M 變量へんりょうてき觀察かんさつすうよりどころわが們的目的もくてき減少げんしょうすうよりどころ使つかい得能とくのう夠用L むこうりょうらい描述ごとかん察值,L < M進一しんいち假設かせつ,該數よりどころ整理せいりなりいちくみ具有ぐゆうNこう量的りょうてきすうよりどころしゅう,其中ごとむこうりょう代表だいひょうM 變量へんりょうてき單一たんいつ觀察かんさつすうよりどころ

  • ためれつむこうりょう,其中ごとれつむこうりょうゆうM くだり
  • はたれつむこうりょういれM × NてきたんのりじんX うら

計算けいさん經驗けいけんひとし

[編輯へんしゅう]
  • たいごといちm = 1, ..., M計算けいさん經驗けいけんひとし
  • はた計算けいさんいたてきひとし值放いれいち M × 1維的經驗けいけんひとし值向りょうuなか

計算けいさん平均へいきん偏差へんさ

[編輯へんしゅう]

たい於在最大さいだい限度げんど減少げんしょう近似きんじすうよりどころてきひとしかた誤差ごさてき基礎きそじょう找到いち主成分しゅせいぶんらいせつひとし值減ほう解決かいけつ方案ほうあんてき不可ふかあるかけてき組成そせい部分ぶぶん[10]よし此,わが繼續けいぞく如下驟:

  • したがえすうよりどころのりじんXまとごと一列中減去經驗均值向量 u
  • はた平均へいきんげんてきすうよりどころそんもうかざいM × NのりじんBなか
其中hいちちょうためNてきぜんため1てきぎょうむこうりょう

もとめきょう變異へんいすうのりじん

[編輯へんしゅう]
  • したがえのりじんB ちゅう找到M × M てき經驗けいけんども變異へんいすうのりじんC

其中 ためもち

さい外層がいそう運算うんざん

共軛きょうやく轉置てんち運算うんざん

注意ちゅうい,如果B完全かんぜんよし實數じっすう組成そせい共軛きょうやく轉置てんちあずか正常せいじょうてき轉置てんちいちよう

查找ども變異へんいすうのりじんてき特徵とくちょう值和特徵とくちょうむこうりょう

[編輯へんしゅう]
  • 計算けいさんのりじんC てき特徵とくちょうむこうりょう
其中,D これCてき特徵とくちょう值對かくのりじん,這いち通常つうじょうかいわたる及到使用しようもと計算けいさんてき計算けいさん特徵とくちょう值和特徵とくちょうこう量的りょうてき算法さんぽうざい很多のりじん代數だいすう系統けいとうちゅう這些算法さんぽうげんなり可用かようてき,如RげんMATLAB,[11][12] Mathematica,[13] SciPy, IDL(交互こうごしきすうよりどころげん), あるものGNU Octave以及OpenCV
  • のりじんDためM × Mてきたいかくのりじん
  • 各個かっこ特徵とくちょう值和特徵とくちょうむこうりょうはいたいてきm特徵とくちょう值對おうm特徵とくちょうむこうりょう

まいり

[編輯へんしゅう]

注釋ちゅうしゃく

[編輯へんしゅう]
  1. ^ 主成分しゅせいぶん分析ぶんせき(principal components analysis, PCA)——无监とくがく. (原始げんし內容そん於2020-08-19). 
  2. ^ Pearson, K. On Lines and Planes of Closest Fit to Systems of Points in Space (PDF). Philosophical Magazine. 1901, 2 (6): 559–572 [2012-01-24]. (原始げんし內容 (PDF)そん檔於2013-10-20). 
  3. ^ Abdi. H., & Williams, L.J. Principal component analysis.. Wiley Interdisciplinary Reviews: Computational Statistics,. 2010, 2: 433–459. 
  4. ^ Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold. ISBN 978-0-340-80763-7. [ぺーじ請求せいきゅう]
  5. ^ Jolliffe I.T. Principal Component Analysisぺーじめんそん檔備份そんあみぎわもう檔案かん), Series: Springer Series in Statisticsぺーじめんそん檔備份そんあみぎわもう檔案かん), 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4
  6. ^ A. A. Miranda, Y. A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Componentsぺーじめんそん檔備份そんあみぎわもう檔案かん), Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
  7. ^ Fukunaga, Keinosuke. Introduction to Statistical Pattern Recognition. Elsevier. 1990. ISBN 0122698517. 
  8. ^ Jonathon Shlens, A Tutorial on Principal Component Analysis.ぺーじめんそん檔備份そんあみぎわもう檔案かん
  9. ^ Geiger, Bernhard; Kubin, Gernot (Sep 2012), Relative Information Loss in the PCAぺーじめんそん檔備份そんあみぎわもう檔案かん
  10. ^ A.A. Miranda, Y.-A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Componentsぺーじめんそん檔備份そんあみぎわもう檔案かん), Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
  11. ^ eig functionぺーじめんそん檔備份そんあみぎわもう檔案かん) Matlab documentation
  12. ^ MATLAB PCA-based Face recognition software. [2012-04-30]. (原始げんし內容そん於2012-03-09). 
  13. ^ Eigenvalues functionぺーじめんそん檔備份そんあみぎわもう檔案かん) Mathematica documentation


參考さんこう

[編輯へんしゅう]