(Translated by https://www.hiragana.jp/)
主成分分析 - 维基百科,自由的百科全书 とべ转到内容ないよう

主成分しゅせいぶん分析ぶんせき

本页使用了标题或全文手工转换
维基百科ひゃっか自由じゆうてき百科ひゃっかぜん
いちこう分布ぶんぷ平均へいきん为(1, 3),标准ざい(0.878, 0.478)方向ほうこうじょう为3、ざい其正交方向上こうじょう为1てき主成分しゅせいぶん分析ぶんせき黑色こくしょくてき两个むこうりょう分布ぶんぷてき协方のりてきとくせいこうりょう,其长为对应的とくせいこれ平方根へいほうこん,并以分布ぶんぷてき平均へいきん值为原点げんてん

ざい多元たげん变量分析ぶんせきなか主成分しゅせいぶん分析ぶんせきえい语:Principal components analysis,缩写:PCAいち统计分析ぶんせき、简化すうすえしゅうてき方法ほうほう。它利用りようせい交变换らい对一系列可能相关的变量的观测值进行线性变换,从而投影とうえい为一系列线性不相关变量的值,这些あい关变りょうしょう主成分しゅせいぶん(Principal Components)。具体ぐたい主成分しゅせいぶん以看做一个线性かたほど,其包含ほうがん一系列线性系数来指示投影方向。PCA对原始げんしすうすえてきせい则化ある预处敏感びんかんあい对缩放)。

基本きほん思想しそう

  • はたすわ标轴中心ちゅうしんうつりいたかずすえてき中心ちゅうしんしかきさき旋转坐标轴,使つかいとくすうすえざいC1轴上てきかた最大さいだいそく全部ぜんぶn个数すえ个体ざい该方向上こうじょうてき投影とうえいさい分散ぶんさん意味いみさらてきしんいき保留ほりゅうらい。C1なりだいいち主成分しゅせいぶん
  • C2だい主成分しゅせいぶん:找一个C2,使つかいとくC2あずかC1てき协方あい关系すう)为0,以免あずかC1しんいきじゅう叠,并且使すうすえざい方向ほうこうてきかたつきりょう最大さいだい
  • 以此类推,找到だいさん主成分しゅせいぶんだいよん主成分しゅせいぶん……だいp个主成分しゅせいぶん。p个随つくえ变量以有p个主成分しゅせいぶん[1]

主成分しゅせいぶんぶん析经常用じょうよう于减少数しょうすうすえしゅうてき维数どう保留ほりゅうすうすえしゅうとうちゅうかた贡献最大さいだいてきとくせい。这是どおり保留ほりゅうてい主成分しゅせいぶんゆるがせりゃくだか主成分しゅせいぶん做到てき。这样てい维成ぶん往往おうおうのう保留ほりゅうじゅうすうすえてきさい重要じゅうよう部分ぶぶんただし,这也一定いっていてきよう具体ぐたい应用而定。よし主成分しゅせいぶんぶん析依赖所给数すえ所以ゆえんすうすえてきじゅん确性对分析ぶんせき结果かげ响很だい

主成分しゅせいぶん分析ぶんせきよし卡尔·がわ尔逊于1901ねん发明[2]よう分析ぶんせきすうすえ建立こんりゅう数理すうり模型もけいざい原理げんりじょうあずかしゅ定理ていりえいPrincipal axis theorem相似そうじこれきさきざい1930ねん左右さゆうよし哈罗とく·霍特りん独立どくりつ发展并命名めいめいすえ应用领域てき不同ふどうざい信号しんごう处理ちゅう它也さけべ做离散K-L 转换(discrete Karhunen–Loève transform (KLT))。其方ほう主要しゅようどおり过对协方のり进行とくせい分解ぶんかい[3],以得すうすえてき主成分しゅせいぶんそくとくせいこうりょうあずか它们てき权值(そくとくせい[4])。PCAさい简单てき以特せいりょう分析ぶんせき多元たげん统计分布ぶんぷてき方法ほうほう。其结はて理解りかい为对ばらすうすえちゅうてきかた做出かい释:哪一个方向上的数据值对方差的影响最大?换而ごと,PCA提供ていきょうりょう一种降低数据维度てき有效ゆうこう办法;如果分析ぶんせきしゃ在原ありはらすうすえちゅうじょ最小さいしょうてきとくせいところ对应てき成分せいぶん所得しょとくてきてい维度すうすえ必定ひつじょうさい优化てき(也即,这样くだてい维度必定ひつじょうしつ讯息最少さいしょうてき方法ほうほう)。主成分しゅせいぶん分析ぶんせきざい分析ぶんせき复杂すうすえ时尤为有ようひと脸识别

PCAさい简单てき以特せいりょう分析ぶんせき多元たげん统计分布ぶんぷてき方法ほうほう通常つうじょう,这种运算以被さく揭露すうすえてき内部ないぶ结构,从而さら好地こうちてん现数すえてき变异。如果一个多元数据集是用高维数据空间之坐标系来表示的,么PCAのう提供ていきょう一幅较低维度的图像,相当そうとう于数すえしゅうざい讯息りょう最多さいた角度かくどじょうてきいち投影とうえい。这样就可以利用りよう少量しょうりょうてき主成分しゅせいぶん让数すえてき维度くだていりょう

PCA 跟因子いんし分析ぶんせきみつきりしょう关。因子いんし分析ぶんせき通常つうじょう包含ほうがんさら特定とくてい领域そこ层结构的かり设,并且もとめかいややほろ不同ふどうのり阵的とくせいこうりょう

PCA 也跟典型てんけいしょう分析ぶんせき(CCA)ゆう关。CCAてい义的すわ标系以最けい描述两个すうすえしゅう间的互协かた,而PCAてい义了しんてきせい交坐标系,のうさいけい描述单个すうすえしゅうとうなかてきかた

数学すうがくてい

[编辑]

PCAてき数学すうがくてい义是:いちせい交化线性变换すうすえ变换到いち个新てきすわ标系统なか使つかいとく这一すうすえてきにんなに投影とうえいてきだい一大いちだいかたざいだいいち个坐标(しょう为第いち主成分しゅせいぶんじょうだい二大方差在第二个坐标(だい主成分しゅせいぶんじょう类推[5]

てい义一个てきのり, 为去平均へいきん以平いたいらひとし值为中心ちゅうしんうつり动至原点げんてんてきすうすえ,其行为数すえ样本,れつ为数すえ类别(注意ちゅうい,这里てい义的 而不)。则てき异值分解ぶんかい,其中これてきとくせいこうりょうのり阵, 异值のり阵,これてきとくせいこうりょうのり阵。すえ此,

とう m < n − 1时,V ざい通常つうじょうじょう况下ただ一定いってい义的,而Y 则是ただ一定いってい义的。W いちせい交矩阵YTWT=XT,且YTてきだい一列由第一主成分组成,だい二列由第二主成分组成,此类推。

为了いた一种降低数据维度的有效办法,わが们可以利用りようWL X うついたいち个只应用前面ぜんめんL个向量的りょうてきてい维空间中

其中,且てき单位のり

X てき单向りょうのりW相当そうとう协方のりてきとくせいこうりょう C = X XT,

ざいおう几里とくそら给定いち组点すうだい一主成分对应于通过多维空间平均点的一条线,どう时保证各个点いた这条ちょく线距离的平方和へいほうわ最小さいしょうじょ掉第いち主成分しゅせいぶんきさきもちいどう样的方法ほうほういただい主成分しゅせいぶん此类推。ざいΣしぐまなかてき异值ひとし为矩阵 XXTてきとくせいてき平方根へいほうこんまい一个特征值都与跟它们相关的方差是成正比的,而且所有しょゆうとくせい值的总和とう所有しょゆうてんいた它们てき维空间平均へいきんてん距离てき平方和へいほうわ。PCA提供ていきょうりょう一种降低维度的有效办法,ほん质上,它利用りようせい交变换将围绕平均へいきんてんてきてん集中しゅうちゅうつき可能かのうてき变量投影とうえいいただいいち维中いん此,くだてい维度必定ひつじょうしつ讯息最少さいしょうてき方法ほうほう。PCA具有ぐゆう保持ほじそら间拥ゆう最大さいだいかたてきさい优正交变换的特性とくせいしか而,とうあずか离散余弦よげん变换そう时,它需ようさらだいてき计算需求だい价。线性くだ维技术相对于PCAらい说则需要じゅようさらだかてき计算要求ようきゅう

PCA对变量的りょうてき缩放很敏かん。如果わが们只ゆう两个变量,而且它们具有ぐゆうしょうどうてき样本かた,并且なりせいしょう关,么PCAはたわたる及两个变量的りょうてき主成分しゅせいぶんてき旋转。ただし,如果だい一个变量的所有值都乘以100,么第一主成分就几乎和这个变量一样,另一个变量只提供了很小的贡献,だい二主成分也将和第二个原始变量几乎一致。这就意味いみとう不同ふどうてき变量代表だいひょう不同ふどうてき单位(如温度おんど质量)时,PCA一种比较武断的分析方法。ただしざいPearsonてき题为 "On Lines and Planes of Closest Fit to Systems of Points in Space"てき原始げんしぶんけんさとかり设在おう几里とくそら间里こう虑这些。いち种使PCA武断ぶだんてき方法ほうほう使用しよう变量缩放以得いた单位かた


讨论

[编辑]

通常つうじょう,为了确保だい一主成分描述的是最大方差的方向,わが们会使用しよう平均へいきん减法进行主成分しゅせいぶん分析ぶんせき。如果执行平均へいきん减法,だい一主成分有可能或多或少的对应于数据的平均值。另外,为了找到近似きんじすうすえてき最小さいしょうひとしかた误差,わが们必须选取一个零均值[6]

かり设零经验ひとし值,すうすえしゅう X てき主成分しゅせいぶんw1以被てい义为:

为了いただい k主成分しゅせいぶん,必须さきXちゅう减去前面ぜんめんてき 主成分しゅせいぶん

しかきさきもとめとくてきだいk主成分しゅせいぶん带入すうすえしゅうとくいたしんまとすうすえしゅう,继续寻找主成分しゅせいぶん


PCA相当そうとう于在气象がくちゅう使用しようてき经验せい交函すう(EOF),どう时也类似于一个线性隐层神经网络。 隐含层 K 个神经元てき权重むこうりょうおさむ敛后,はた形成けいせいいち个由まえ K主成分しゅせいぶんまたがえつそら间的もと础。ただしあずかPCA不同ふどうてき,这种わざ术并一定会产生正交向量。

PCA一种很流行且主要的模式识别技术。しか而,它并不能ふのうさい优化类别可分かぶん离性[7] 。另一种不考虑这一点的方法是线性判别分析。

符号ふごう缩写ひょう

[编辑]
Symbol符号ふごう Meaning Dimensions尺寸しゃくすん Indices指数しすう
よし所有しょゆうすうすえこうりょうしゅう组成てきすうすえのり阵,いちれつ代表だいひょういち个向りょう
かずすえ集中しゅうちゅうれつこう量的りょうてき个数 标量
まい个列こう量的りょうてき元素げんそ个数 标量
そら间的维数, 标量
经验ひとし值向りょう
经验标准かたむこうりょう
所有しょゆうてき单位むこうりょう
对均值的へん离向りょう
Z-分数ぶんすう利用りようひとし值和标准计算いた
协方のり
あい关矩阵
Cてき所有しょゆうとくせいこうりょうしゅう
しゅ对角线为とくせい值的对角のり
もとむこうりょうのり
X Wのり阵的投影とうえいのり

主成分しゅせいぶん分析ぶんせきてき属性ぞくせいげんせい

[编辑]

如上じょじょうしょじゅつ主成分しゅせいぶん分析ぶんせきてき结果赖于变量てき缩放。

主成分しゅせいぶん分析ぶんせきてき适用せい受到よし它的派生はせいぶつ产生てきぼう些假设[8] まとげんせい

主成分しゅせいぶん分析ぶんせき和信かずのぶいき

[编辑]

つう使用しようくだ维来保存ほぞんだい部分ぶぶんすうすえしんじいきてき主成分しゅせいぶん分析ぶんせきてき观点不正ふせい确的。确实如此,とうぼつゆうにんなんかり设信いきてき信号しんごう模型もけい时,主成分しゅせいぶん分析ぶんせきざいくだ维的どう时并不能ふのう证信いきてき丢失,其中しんいきゆかりこう农熵[9]らい衡量てきもと于假设得 也就说,むこうりょう x 含有がんゆうしんいきてき标信ごう s かず噪声信号しんごう n これ,从信いき角度かくどこう主成分しゅせいぶん分析ぶんせきざいくだ维上さい优的。

とく别地,Linsker证明りょう如果 s だか分布ぶんぷ,且 n あずか密度みつどのり阵相应的协方のり阵的だか斯噪ごえ

使用しよう统计方法ほうほう计算PCA

[编辑]

以下いか使用しよう统计方法ほうほう计算PCAてき详细说明。ただし注意ちゅうい,如果利用りよう异值分解ぶんかい使用しよう标准てき软件)效果こうかかいさらこのみ

わが们的标是いち个给じょうてき具有ぐゆう M 维的すうすえしゅうX 变换なり具有ぐゆう较小维度 LまとすうすえしゅうY。现在要求ようきゅうてき就是のりYYのりX Karhunen–Loève变换。:

组织すうすえしゅう

[编辑]

かり设有いちM 个变量的りょうてき观察すうすえわが们的目的もくてき减少すうすえ使つかい得能とくのう够用L 个向りょうらい描述ごと个观察值,L < M。进いちかり设,该数すえ整理せいりなりいち具有ぐゆうN个向量的りょうてきすうすえしゅう,其中ごと个向りょう代表だいひょうM 个变量的りょうてき单一观察すうすえ

  • 为列むこうりょう,其中ごと个列むこうりょうゆうM くだり
  • はたれつむこうりょういれM × Nてき单矩阵X さと

计算经验ひとし

[编辑]
  • 对每いちm = 1, ..., M计算经验ひとし
  • はた计算いたてきひとし值放いれいちM × 1维的经验ひとし值向りょうuなか

计算平均へいきん偏差へんさ

[编辑]

对于ざい最大さいだい限度げんど减少近似きんじすうすえてきひとしかた误差てきもと础上找到一个主成分来说,ひとし值减去ほう该解决方あんてき不可ふかあるかけてき组成部分ぶぶん[10]よし此,わが们继续如骤:

  • 从数すえのりXまとごと一列中减去经验均值向量 u
  • はた平均へいきん减去过的すうすえそん储在M × NのりBなか
其中h一个长度为Nてきぜん为1てきぎょうむこうりょう

もとめ协方のり

[编辑]
  • 从矩阵B ちゅう找到M × M てき经验协方のりC

其中 为期もち

さいそと层运さん

ども轭转おけ运算

注意ちゅうい,如果B完全かんぜんよし实数组成,么共轭转おけあずか正常せいじょうてき转置いち样。

查找协方のり阵的とくせい值和とくせいこうりょう

[编辑]
  • 计算のりC てきとくせいこうりょう
其中,D これCてきとくせい值对かくのり阵,这いち通常つうじょうかいわたる及到使用しようもと于计さんつくえてき计算とくせい值和とくせいこう量的りょうてき算法さんぽうざい很多のり阵代すうけい统中这些算法さんぽう现成可用かようてき,如R语言MATLAB,[11][12] Mathematica,[13] SciPy, IDL(交互こうごしきすうすえ语言), あるものGNU Octave以及OpenCV
  • のりDM × Mてき对角のり
  • かく个特せい值和とくせいこうりょうはい对的,m个特せい值对应m个特せいこうりょう

まいり

[编辑]

ちゅう

[编辑]
  1. ^ 主成分しゅせいぶん分析ぶんせき(principal components analysis, PCA)——无监とくがく. (原始げんし内容ないようそん于2020-08-19). 
  2. ^ Pearson, K. On Lines and Planes of Closest Fit to Systems of Points in Space (PDF). Philosophical Magazine. 1901, 2 (6): 559–572 [2012-01-24]. (原始げんし内容ないよう (PDF)そん档于2013-10-20). 
  3. ^ Abdi. H., & Williams, L.J. Principal component analysis.. Wiley Interdisciplinary Reviews: Computational Statistics,. 2010, 2: 433–459. 
  4. ^ Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold. ISBN 978-0-340-80763-7. [页码请求]
  5. ^ Jolliffe I.T. Principal Component Analysis页面そん档备份そん互联网档あん), Series: Springer Series in Statistics页面そん档备份そん互联网档あん), 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4
  6. ^ A. A. Miranda, Y. A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components页面そん档备份そん互联网档あん), Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
  7. ^ Fukunaga, Keinosuke. Introduction to Statistical Pattern Recognition. Elsevier. 1990. ISBN 0122698517. 
  8. ^ Jonathon Shlens, A Tutorial on Principal Component Analysis.页面そん档备份そん互联网档あん
  9. ^ Geiger, Bernhard; Kubin, Gernot (Sep 2012), Relative Information Loss in the PCA页面そん档备份そん互联网档あん
  10. ^ A.A. Miranda, Y.-A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components页面そん档备份そん互联网档あん), Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
  11. ^ eig function页面そん档备份そん互联网档あん) Matlab documentation
  12. ^ MATLAB PCA-based Face recognition software. [2012-04-30]. (原始げんし内容ないようそん于2012-03-09). 
  13. ^ Eigenvalues function页面そん档备份そん互联网档あん) Mathematica documentation


参考さんこう

[编辑]