一 いち 個 こ 高 こう 斯分布 ぶんぷ ,平均 へいきん 值為 ため (1, 3),標準 ひょうじゅん 差 さ 在 ざい (0.878, 0.478)方向 ほうこう 上 じょう 為 ため 3、在 ざい 其正交方向上 こうじょう 為 ため 1的 てき 主成分 しゅせいぶん 分析 ぶんせき 。黑色 こくしょく 的 てき 兩個 りゃんこ 向 むこう 量 りょう 是 ぜ 此分布 ぶんぷ 的 てき 共 きょう 變異 へんい 數 すう 矩 のり 陣 じん 的 てき 特徵 とくちょう 向 むこう 量 りょう ,其長度 ど 為 ため 對應 たいおう 的 てき 特徵 とくちょう 值之 これ 平方根 へいほうこん ,並 なみ 以分布 ぶんぷ 的 てき 平均 へいきん 值為原點 げんてん 。
在 ざい 多 た 變量 へんりょう 分析 ぶんせき 中 なか ,主成分 しゅせいぶん 分析 ぶんせき (英語 えいご :Principal components analysis ,縮寫 しゅくしゃ :PCA )是 ぜ 一 いち 種 しゅ 統計 とうけい 分析 ぶんせき 、簡化數 すう 據 よりどころ 集 しゅう 的 てき 方法 ほうほう 。它利用 りよう 正 せい 交轉換 てんかん 來 らい 對 たい 一系列可能相關的變量的觀測值進行線性轉換,從 したがえ 而投影 とうえい 為 ため 一系列線性不相關變量的值,這些不 ふ 相關 そうかん 變量 へんりょう 稱 しょう 為 ため 主成分 しゅせいぶん (Principal Components)。具體 ぐたい 地 ち ,主成分 しゅせいぶん 可 か 以看做一 いち 個 こ 線 せん 性 せい 方程式 ほうていしき ,其包含 ほうがん 一系列線性係數來指示投影方向。PCA對 たい 原始 げんし 數 すう 據 よりどころ 的 てき 正則 せいそく 化 か 或 ある 預 あずか 處理 しょり 敏感 びんかん (相對 そうたい 縮 ちぢみ 放 ひ )。
基本 きほん 思想 しそう :
將 はた 坐 すわ 標 しるべ 軸 じく 中心 ちゅうしん 移 うつり 到 いた 數 かず 據 よりどころ 的 てき 中心 ちゅうしん ,然 しか 後 こう 旋轉 せんてん 坐 すわ 標 しるべ 軸 じく ,使 つかい 得 とく 數 すう 據 よりどころ 在 ざい C1軸 じく 上 じょう 的 てき 變異 へんい 數 すう 最大 さいだい ,即 そく 全部 ぜんぶ n個數 こすう 據 よりどころ 個體 こたい 在 ざい 該方向上 こうじょう 的 てき 投影 とうえい 最 さい 為 ため 分散 ぶんさん 。意味 いみ 著 ちょ 更 さら 多 た 的 てき 資 し 訊被保留 ほりゅう 下 か 來 らい 。C1成 なり 為 ため 第 だい 一 いち 主成分 しゅせいぶん 。
C2第 だい 二 に 主成分 しゅせいぶん :找一 いち 個 こ C2,使 つかい 得 とく C2與 あずか C1的 てき 共 きょう 變異 へんい 數 すう (相關 そうかん 係數 けいすう )為 ため 0,以免與 あずか C1資 し 訊重疊 ちょうじょう ,並 なみ 且使數 すう 據 よりどころ 在 ざい 該方向 ほうこう 的 てき 變異 へんい 數 すう 儘量最大 さいだい 。
以此類推 るいすい ,找到第 だい 三 さん 主成分 しゅせいぶん ,第 だい 四 よん 主成分 しゅせいぶん ……第 だい p個 こ 主成分 しゅせいぶん 。p個 こ 隨 ずい 機 き 變數 へんすう 可 か 以有p個 こ 主成分 しゅせいぶん [ 1] 。
主成分 しゅせいぶん 分析 ぶんせき 經 けい 常用 じょうよう 於減少數 しょうすう 據 よりどころ 集 しゅう 的 てき 維數 ,同時 どうじ 保留 ほりゅう 數 すう 據 よりどころ 集 しゅう 當 とう 中 なか 對 たい 變異 へんい 數 すう 貢獻 こうけん 最大 さいだい 的 てき 特徵 とくちょう 。這是通過 つうか 保留 ほりゅう 低 てい 維主成分 しゅせいぶん ,忽 ゆるがせ 略 りゃく 高 だか 維主成分 しゅせいぶん 做到的 てき 。這樣低 てい 維成分 ぶん 往往 おうおう 能 のう 夠保留 ほりゅう 住 じゅう 數 すう 據 よりどころ 的 てき 最 さい 重要 じゅうよう 部分 ぶぶん 。但 ただし 是 ぜ ,這也不 ふ 是 ぜ 一定 いってい 的 てき ,要 よう 視 し 具體 ぐたい 應用 おうよう 而定。由 よし 於主成分 しゅせいぶん 分析 ぶんせき 依賴 いらい 所 しょ 給 きゅう 數 すう 據 よりどころ ,所以 ゆえん 數 すう 據 よりどころ 的 てき 準 じゅん 確 かく 性 せい 對 たい 分析 ぶんせき 結果 けっか 影響 えいきょう 很大。
主成分 しゅせいぶん 分析 ぶんせき 由 よし 卡爾·皮 がわ 爾 しか 森 もり 於1901年 ねん 發明 はつめい [ 2] ,用 よう 於分析 ぶんせき 數 すう 據 よりどころ 及建立 こんりゅう 數理 すうり 模型 もけい ,在 ざい 原理 げんり 上 じょう 與 あずか 主軸 しゅじく 定理 ていり 相似 そうじ 。之 これ 後 ご 在 ざい 1930年 ねん 左右 さゆう 由 よし 哈羅德 とく ·霍特林 りん 獨立 どくりつ 發展 はってん 並 なみ 命名 めいめい 。依據 いきょ 應用 おうよう 領域 りょういき 的 てき 不同 ふどう ,在 ざい 信號 しんごう 處理 しょり 中 ちゅう 它也叫 さけべ 做離散 りさん K-L 轉換 てんかん (discrete Karhunen–Loève transform (KLT))。其方法 ほう 主要 しゅよう 是 ぜ 通過 つうか 對 たい 共 きょう 變異 へんい 數 すう 矩 のり 陣 じん 進行 しんこう 特徵 とくちょう 分解 ぶんかい [ 3] ,以得出 で 數 すう 據 よりどころ 的 てき 主成分 しゅせいぶん (即 そく 特徵 とくちょう 向 むこう 量 りょう )與 あずか 它們的 てき 權 けん 值(即 そく 特徵 とくちょう 值[ 4] )。PCA是 ぜ 最 さい 簡單 かんたん 的 てき 以特徵 ちょう 量 りょう 分析 ぶんせき 多元 たげん 統計 とうけい 分布 ぶんぷ 的 てき 方法 ほうほう 。其結果 けっか 可 か 以理解 りかい 為 ため 對 たい 原 はら 數 すう 據 よりどころ 中 ちゅう 的 てき 變異 へんい 數 すう 做出解釋 かいしゃく :哪一個方向上的數據值對變異數的影響最大?換 かわ 而言之 の ,PCA提供 ていきょう 了 りょう 一種降低數據維度 的 てき 有效 ゆうこう 辦法;如果分析 ぶんせき 者 しゃ 在原 ありはら 數 すう 據 よりどころ 中 ちゅう 除 じょ 掉最小 さいしょう 的 てき 特徵 とくちょう 值所 ところ 對應 たいおう 的 てき 成分 せいぶん ,那 な 麼所得 しょとく 的 てき 低 てい 維度數 すう 據 よりどころ 必定 ひつじょう 是 ぜ 最 さい 優 ゆう 化 か 的 てき (也即,這樣降 くだ 低 てい 維度必定 ひつじょう 是 ぜ 失 しつ 去 さ 訊息最少 さいしょう 的 てき 方法 ほうほう )。主成分 しゅせいぶん 分析 ぶんせき 在 ざい 分析 ぶんせき 複雜 ふくざつ 數 すう 據 よりどころ 時 じ 尤 ゆう 為 ため 有用 ゆうよう ,比 ひ 如人 ひと 臉識別 べつ 。
PCA是 ぜ 最 さい 簡單 かんたん 的 てき 以特徵 ちょう 量 りょう 分析 ぶんせき 多元 たげん 統計 とうけい 分布 ぶんぷ 的 てき 方法 ほうほう 。通常 つうじょう ,這種運算 うんざん 可 か 以被看 み 作 さく 是 ぜ 揭露數 すう 據 よりどころ 的 てき 內部結構 けっこう ,從 したがえ 而更好地 こうち 展 てん 現數 げんすう 據 よりどころ 的 てき 變異 へんい 度 ど 。如果一個多元數據集是用高維數據空間之坐標系來表示的,那 な 麼PCA能 のう 提供 ていきょう 一幅較低維度的圖像,相當 そうとう 於數據 よりどころ 集 しゅう 在 ざい 訊息量 りょう 最多 さいた 之 の 角度 かくど 上 じょう 的 てき 一 いち 個 こ 投影 とうえい 。這樣就可以利用 りよう 少量 しょうりょう 的 てき 主成分 しゅせいぶん 讓 ゆずる 數 すう 據 よりどころ 的 てき 維度降 くだ 低 てい 了 りょう 。
PCA 跟因子 いんし 分析 ぶんせき 密 みつ 切 きり 相關 そうかん 。因子 いんし 分析 ぶんせき 通常 つうじょう 包含 ほうがん 更 さら 多 た 特定 とくてい 領域 りょういき 底 そこ 層 そう 結構 けっこう 的 てき 假設 かせつ ,並 なみ 且求解 かい 稍 やや 微 ほろ 不同 ふどう 矩 のり 陣 じん 的 てき 特徵 とくちょう 向 むこう 量 りょう 。
PCA 也跟典型 てんけい 相關 そうかん 分析 ぶんせき (CCA)有 ゆう 關 せき 。CCA定義 ていぎ 的 てき 坐 すわ 標 しるべ 系 けい 可 か 以最佳 けい 地 ち 描述兩個 りゃんこ 數 すう 據 よりどころ 集 しゅう 之 の 間 あいだ 的 てき 交叉 こうさ 共 ども 變數 へんすう ,而PCA定義 ていぎ 了 りょう 新 しん 的 てき 正 せい 交坐標 しるべ 系 けい ,能 のう 最 さい 佳 けい 地 ち 描述單 たん 個數 こすう 據 よりどころ 集 しゅう 當 とう 中 なか 的 てき 變異 へんい 數 すう 。
PCA的 てき 數學 すうがく 定義 ていぎ 是 ぜ :一 いち 個 こ 正 せい 交化線 せん 性 せい 轉換 てんかん ,把 わ 數 すう 據 よりどころ 轉換 てんかん 到 いた 一 いち 個 こ 新 しん 的 てき 坐 すわ 標 しるべ 系統 けいとう 中 なか ,使 つかい 得 とく 這一數 すう 據 よりどころ 的 てき 任 にん 何 なに 投影 とうえい 的 てき 第 だい 一大 いちだい 變異 へんい 數 すう 在 ざい 第 だい 一 いち 個 こ 坐 すわ 標 しめぎ (稱 しょう 為 ため 第 だい 一 いち 主成分 しゅせいぶん )上 じょう ,第 だい 二大變異數在第二個坐標(第 だい 二 に 主成分 しゅせいぶん )上 じょう ,依 よ 次 じ 類推 るいすい [ 5] 。
定義 ていぎ 一 いち 個 こ
n
×
m
{\displaystyle n\times m}
的 てき 矩 のり 陣 じん ,
X
T
{\displaystyle X^{T}}
為 ため 去 さ 平均 へいきん 值 (以平 いたいら 均 ひとし 值為中心 ちゅうしん 移動 いどう 至 いたり 原點 げんてん )的 てき 數 すう 據 よりどころ ,其行為 こうい 數 すう 據 よりどころ 樣 さま 本 ほん ,列 れつ 為 ため 數 すう 據 よりどころ 類別 るいべつ (注意 ちゅうい ,這裡定義 ていぎ 的 てき 是 ぜ
X
T
{\displaystyle X^{T}}
而不是 ぜ
X
{\displaystyle X}
)。則 のり
X
{\displaystyle X}
的 てき 奇異 きい 值分解 ぶんかい 為 ため
X
=
W
Σ しぐま
V
T
{\displaystyle X=W\Sigma V^{T}}
,其中
W
∈
R
m
×
m
{\displaystyle W\in \mathbf {R} ^{m\times m}}
是 これ
X
X
T
{\displaystyle XX^{T}}
的 てき 特徵 とくちょう 向 むこう 量 りょう 矩 のり 陣 じん ,
Σ しぐま
∈
R
m
×
n
{\displaystyle \Sigma \in \mathbf {R} ^{m\times n}}
是 ぜ 奇異 きい 值矩陣 じん ,
V
∈
R
n
×
n
{\displaystyle V\in \mathbf {R} ^{n\times n}}
是 これ
X
T
X
{\displaystyle X^{T}X}
的 てき 特徵 とくちょう 向 むこう 量 りょう 矩 のり 陣 じん 。據 よりどころ 此,
Y
⊤
=
X
⊤
W
=
V
Σ しぐま
⊤
W
⊤
W
=
V
Σ しぐま
⊤
{\displaystyle {\begin{aligned}{\boldsymbol {Y}}^{\top }&={\boldsymbol {X}}^{\top }{\boldsymbol {W}}\\&={\boldsymbol {V}}{\boldsymbol {\Sigma }}^{\top }{\boldsymbol {W}}^{\top }{\boldsymbol {W}}\\&={\boldsymbol {V}}{\boldsymbol {\Sigma }}^{\top }\end{aligned}}}
當 とう m < n − 1時 じ ,V 在 ざい 通常 つうじょう 情況 じょうきょう 下 か 不 ふ 是 ぜ 唯一 ゆいいつ 定義 ていぎ 的 てき ,而Y 則 のり 是 ぜ 唯一 ゆいいつ 定義 ていぎ 的 てき 。W 是 ぜ 一 いち 個 こ 正 せい 交矩陣 じん ,Y T W T =X T ,且Y T 的 てき 第 だい 一列由第一主成分組成,第 だい 二 に 列 れつ 由 よし 第 だい 二 に 主成分 しゅせいぶん 組成 そせい ,依 よ 此類推 るいすい 。
為 ため 了 りょう 得 え 到 いた 一種降低數據維度的有效辦法,我 わが 們可以利用 りよう W L 把 わ X 映 うつ 射 い 到 いた 一 いち 個 こ 只 ただ 應用 おうよう 前面 ぜんめん L個 こ 向 こう 量的 りょうてき 低 てい 維空間 あいだ 中 ちゅう 去 さ :
Y
=
W
L
⊤
X
=
Σ しぐま
L
V
⊤
{\displaystyle \mathbf {Y} =\mathbf {W_{L}} ^{\top }\mathbf {X} =\mathbf {\Sigma _{L}} \mathbf {V} ^{\top }}
其中
Σ しぐま
L
=
I
L
×
m
Σ しぐま
{\displaystyle \mathbf {\Sigma _{L}} =\mathbf {I} _{L\times m}\mathbf {\Sigma } }
,且
I
L
×
m
{\displaystyle \mathbf {I} _{L\times m}}
為 ため
L
×
m
{\displaystyle L\times m}
的 てき 單位 たんい 矩 のり 陣 じん 。
X 的 てき 單向 たんこう 量 りょう 矩 のり 陣 じん W 相當 そうとう 於共 きょう 變異 へんい 數 すう 矩 のり 陣 じん 的 てき 特徵 とくちょう 向 むこう 量 りょう C = X X T ,
X
X
⊤
=
W
Σ しぐま
Σ しぐま
⊤
W
⊤
{\displaystyle \mathbf {X} \mathbf {X} ^{\top }=\mathbf {W} \mathbf {\Sigma } \mathbf {\Sigma } ^{\top }\mathbf {W} ^{\top }}
在 ざい 歐 おう 幾里 いくさと 得 とく 空間 くうかん 給 きゅう 定 じょう 一 いち 組 くみ 點數 てんすう ,第 だい 一主成分對應於通過多維空間平均點的一條線,同時 どうじ 保證 ほしょう 各個 かっこ 點 てん 到 いた 這條直線 ちょくせん 距離 きょり 的 てき 平方和 へいほうわ 最小 さいしょう 。去 さ 除 じょ 掉第一 いち 主成分 しゅせいぶん 後 ご ,用 よう 同樣 どうよう 的 てき 方法 ほうほう 得 え 到 いた 第 だい 二 に 主成分 しゅせいぶん 。依 よ 此類推 るいすい 。在 ざい Σ しぐま 中 なか 的 てき 奇異 きい 值均 ひとし 為 ため 矩 のり 陣 じん XX T 的 てき 特徵 とくちょう 值的 てき 平方根 へいほうこん 。每 まい 一個特徵值都與跟它們相關的變異數是成正比的,而且所有 しょゆう 特徵 とくちょう 值的總和 そうわ 等 とう 於所有 しょゆう 點 てん 到 いた 它們的 てき 多 た 維空間 あいだ 平均 へいきん 點 てん 距離 きょり 的 てき 平方和 へいほうわ 。PCA提供 ていきょう 了 りょう 一種降低維度的有效辦法,本質 ほんしつ 上 じょう ,它利用 りよう 正 せい 交轉換 てんかん 將 はた 圍繞 いじょう 平均 へいきん 點 てん 的 てき 點 てん 集中 しゅうちゅう 儘可能 かのう 多 た 的 てき 變量 へんりょう 投影 とうえい 到 いた 第 だい 一 いち 維中去 さ ,因 いん 此,降 くだ 低 てい 維度必定 ひつじょう 是 ぜ 失 しつ 去 さ 訊息最少 さいしょう 的 てき 方法 ほうほう 。PCA具有 ぐゆう 保持 ほじ 子 こ 空間 くうかん 擁 よう 有 ゆう 最大 さいだい 變異 へんい 數 すう 的 てき 最 さい 優 ゆう 正 せい 交轉換 てんかん 的 てき 特性 とくせい 。然 しか 而,當 とう 與 あずか 離散 りさん 餘弦 よげん 轉換 てんかん 相 そう 比 ひ 時 じ ,它需要 よう 更 さら 大 だい 的 てき 計算 けいさん 需求代價 だいか 。非 ひ 線 せん 性 せい 降 くだ 維技術 ぎじゅつ 相對 そうたい 於PCA來 らい 說 せつ 則 そく 需要 じゅよう 更 さら 高 だか 的 てき 計算 けいさん 要求 ようきゅう 。
PCA對 たい 變量 へんりょう 的 てき 縮 ちぢみ 放 ひ 很敏感 かん 。如果我 わが 們只有 ゆう 兩個 りゃんこ 變量 へんりょう ,而且它們具有 ぐゆう 相 しょう 同 どう 的 てき 樣 さま 本 ほん 變異 へんい 數 すう ,並 なみ 且成正 せい 相關 そうかん ,那 な 麼PCA將 はた 涉 わたる 及兩個 りゃんこ 變量 へんりょう 的 てき 主成分 しゅせいぶん 的 てき 旋轉 せんてん 。但 ただし 是 ぜ ,如果把 わ 第 だい 一個變量的所有值都乘以100,那 な 麼第一主成分就幾乎和這個變量一樣,另一個變量只提供了很小的貢獻,第 だい 二主成分也將和第二個原始變量幾乎一致。這就意味 いみ 著 ちょ 當 とう 不同 ふどう 的 てき 變量 へんりょう 代表 だいひょう 不同 ふどう 的 てき 單位 たんい (如溫度 おんど 和 わ 質量 しつりょう )時 じ ,PCA是 ぜ 一 いち 種 しゅ 比較 ひかく 武斷 ぶだん 的 てき 分析 ぶんせき 方法 ほうほう 。但 ただし 是 ぜ 在 ざい Pearson的 てき 題 だい 為 ため
"On Lines and Planes of Closest Fit to Systems of Points in Space"的 てき 原始 げんし 文 ぶん 件 けん 里 さと ,是 ぜ 假設 かせつ 在 ざい 歐 おう 幾里 いくさと 得 とく 空間 くうかん 裡 うら 不 ふ 考慮 こうりょ 這些。一種 いっしゅ 使 し PCA不 ふ 那 な 麼武斷 ぶだん 的 てき 方法 ほうほう 是 ぜ 使用 しよう 變量 へんりょう 縮 ちぢみ 放 ひ 以得到 いた 單位 たんい 變異 へんい 數 すう 。
通常 つうじょう ,為 ため 了 りょう 確保 かくほ 第 だい 一主成分描述的是最大變異數的方向,我 わが 們會使用 しよう 平均 へいきん 減法 げんぽう 進行 しんこう 主成分 しゅせいぶん 分析 ぶんせき 。如果不 ふ 執行 しっこう 平均 へいきん 減法 げんぽう ,第 だい 一主成分有可能或多或少的對應於數據的平均值。另外,為 ため 了 りょう 找到近似 きんじ 數 すう 據 よりどころ 的 てき 最小 さいしょう 均 ひとし 方 かた 誤差 ごさ ,我 わが 們必須 ひっす 選 せん 取 と 一 いち 個 こ 零 れい 均 ひとし 值[ 6] 。
假設 かせつ 零 れい 經驗 けいけん 均 ひとし 值,數 すう 據 よりどころ 集 しゅう X 的 てき 主成分 しゅせいぶん w 1 可 か 以被定義 ていぎ 為 ため :
w
1
=
arg
m
a
x
‖
w
‖
=
1
Var
{
w
⊤
X
}
=
arg
m
a
x
‖
w
‖
=
1
E
{
(
w
⊤
X
)
2
}
{\displaystyle \mathbf {w} _{1}={\underset {\Vert \mathbf {w} \Vert =1}{\operatorname {\arg \,max} }}\,\operatorname {Var} \{\mathbf {w} ^{\top }\mathbf {X} \}={\underset {\Vert \mathbf {w} \Vert =1}{\operatorname {\arg \,max} }}\,E\left\{\left(\mathbf {w} ^{\top }\mathbf {X} \right)^{2}\right\}}
為 ため 了 りょう 得 え 到 いた 第 だい k 個 こ 主成分 しゅせいぶん ,必須 ひっす 先 さき 從 したがえ X 中 ちゅう 減 げん 去 さ 前面 ぜんめん 的 てき
k
−
1
{\displaystyle k-1}
個 こ 主成分 しゅせいぶん :
X
^
k
−
1
=
X
−
∑
i
=
1
k
−
1
w
i
w
i
⊤
X
{\displaystyle \mathbf {\hat {X}} _{k-1}=\mathbf {X} -\sum _{i=1}^{k-1}\mathbf {w} _{i}\mathbf {w} _{i}^{\top }\mathbf {X} }
然 しか 後 ご 把 わ 求 もとめ 得 とく 的 てき 第 だい k 個 こ 主成分 しゅせいぶん 帶 たい 入 いれ 數 すう 據 よりどころ 集 しゅう ,得 とく 到 いた 新 しん 的 てき 數 すう 據 よりどころ 集 しゅう ,繼續 けいぞく 尋 ひろ 找主成分 しゅせいぶん 。
w
k
=
a
r
g
m
a
x
‖
w
‖
=
1
E
{
(
w
⊤
X
^
k
−
1
)
2
}
.
{\displaystyle \mathbf {w} _{k}={\underset {\Vert \mathbf {w} \Vert =1}{\operatorname {arg\,max} }}\,E\left\{\left(\mathbf {w} ^{\top }\mathbf {\hat {X}} _{k-1}\right)^{2}\right\}.}
PCA相當 そうとう 於在氣象 きしょう 學 がく 中 ちゅう 使用 しよう 的 てき 經驗 けいけん 正 せい 交函數 すう (EOF),同時 どうじ 也類似 るいじ 於一個線性隱層神經網絡。 隱 かくれ 含層 K 個 こ 神經 しんけい 元 もと 的 てき 權 けん 重 じゅう 向 むこう 量 りょう 收斂 しゅうれん 後 ご ,將 はた 形成 けいせい 一 いち 個 こ 由 よし 前 まえ K 個 こ 主成分 しゅせいぶん 跨 またが 越 えつ 空間 くうかん 的 てき 基礎 きそ 。但 ただし 是 ぜ 與 あずか PCA不同 ふどう 的 てき 是 ぜ ,這種技術 ぎじゅつ 並 なみ 不 ふ 一定會產生正交向量。
PCA是 ぜ 一種很流行且主要的模式識別技術。然 しか 而,它並不能 ふのう 最 さい 佳 けい 化 か 類別 るいべつ 可 か 分離 ぶんり 性 せい [ 7] 。另一種不考慮這一點的方法是線性判別分析。
Symbol符號 ふごう
Meaning意義 いぎ
Dimensions尺寸 しゃくすん
Indices指數 しすう
X
=
{
X
[
m
,
n
]
}
{\displaystyle \mathbf {X} =\{X[m,n]\}}
由 よし 所有 しょゆう 數 すう 據 よりどころ 向 むこう 量 りょう 集 しゅう 組成 そせい 的 てき 數 すう 據 よりどころ 矩 のり 陣 じん ,一 いち 列 れつ 代表 だいひょう 一 いち 個 こ 向 むこう 量 りょう
M
×
N
{\displaystyle M\times N}
m
=
1
…
M
{\displaystyle m=1\ldots M}
n
=
1
…
N
{\displaystyle n=1\ldots N}
N
{\displaystyle N\,}
數 かず 據 よりどころ 集中 しゅうちゅう 列 れつ 向 こう 量的 りょうてき 個數 こすう
1
×
1
{\displaystyle 1\times 1}
純量 じゅんりょう
M
{\displaystyle M\,}
每 まい 個 こ 列 れつ 向 こう 量的 りょうてき 元素 げんそ 個數 こすう
1
×
1
{\displaystyle 1\times 1}
純量 じゅんりょう
L
{\displaystyle L\,}
子 こ 空間 くうかん 的 てき 維數,
1
≤
L
≤
M
{\displaystyle 1\leq L\leq M}
1
×
1
{\displaystyle 1\times 1}
純量 じゅんりょう
u
=
{
u
[
m
]
}
{\displaystyle \mathbf {u} =\{u[m]\}}
經驗 けいけん 均 ひとし 值向量 りょう
M
×
1
{\displaystyle M\times 1}
m
=
1
…
M
{\displaystyle m=1\ldots M}
s
=
{
s
[
m
]
}
{\displaystyle \mathbf {s} =\{s[m]\}}
經驗 けいけん 標準 ひょうじゅん 變異 へんい 數 すう 向 むこう 量 りょう
M
×
1
{\displaystyle M\times 1}
m
=
1
…
M
{\displaystyle m=1\ldots M}
h
=
{
h
[
n
]
}
{\displaystyle \mathbf {h} =\{h[n]\}}
所有 しょゆう 的 てき 單位 たんい 向 むこう 量 りょう
1
×
N
{\displaystyle 1\times N}
n
=
1
…
N
{\displaystyle n=1\ldots N}
B
=
{
B
[
m
,
n
]
}
{\displaystyle \mathbf {B} =\{B[m,n]\}}
對 たい 均 ひとし 值的偏 へん 離 はなれ 向 むこう 量 りょう
M
×
N
{\displaystyle M\times N}
m
=
1
…
M
{\displaystyle m=1\ldots M}
n
=
1
…
N
{\displaystyle n=1\ldots N}
Z
=
{
Z
[
m
,
n
]
}
{\displaystyle \mathbf {Z} =\{Z[m,n]\}}
Z-分數 ぶんすう ,利用 りよう 均 ひとし 值和標準 ひょうじゅん 差 さ 計算 けいさん 得 え 到 いた
M
×
N
{\displaystyle M\times N}
m
=
1
…
M
{\displaystyle m=1\ldots M}
n
=
1
…
N
{\displaystyle n=1\ldots N}
C
=
{
C
[
p
,
q
]
}
{\displaystyle \mathbf {C} =\{C[p,q]\}}
共 きょう 變異 へんい 數 すう 矩 のり 陣 じん
M
×
M
{\displaystyle M\times M}
p
=
1
…
M
{\displaystyle p=1\ldots M}
q
=
1
…
M
{\displaystyle q=1\ldots M}
R
=
{
R
[
p
,
q
]
}
{\displaystyle \mathbf {R} =\{R[p,q]\}}
相關 そうかん 矩 のり 陣 じん
M
×
M
{\displaystyle M\times M}
p
=
1
…
M
{\displaystyle p=1\ldots M}
q
=
1
…
M
{\displaystyle q=1\ldots M}
V
=
{
V
[
p
,
q
]
}
{\displaystyle \mathbf {V} =\{V[p,q]\}}
C 的 てき 所有 しょゆう 特徵 とくちょう 向 むこう 量 りょう 集 しゅう
M
×
M
{\displaystyle M\times M}
p
=
1
…
M
{\displaystyle p=1\ldots M}
q
=
1
…
M
{\displaystyle q=1\ldots M}
D
=
{
D
[
p
,
q
]
}
{\displaystyle \mathbf {D} =\{D[p,q]\}}
主 しゅ 對角線 たいかくせん 為 ため 特徵 とくちょう 值的對 たい 角 かく 矩 のり 陣 じん
M
×
M
{\displaystyle M\times M}
p
=
1
…
M
{\displaystyle p=1\ldots M}
q
=
1
…
M
{\displaystyle q=1\ldots M}
W
=
{
W
[
p
,
q
]
}
{\displaystyle \mathbf {W} =\{W[p,q]\}}
基 もと 向 むこう 量 りょう 矩 のり 陣 じん
M
×
L
{\displaystyle M\times L}
p
=
1
…
M
{\displaystyle p=1\ldots M}
q
=
1
…
L
{\displaystyle q=1\ldots L}
Y
=
{
Y
[
m
,
n
]
}
{\displaystyle \mathbf {Y} =\{Y[m,n]\}}
X 和 わ W 矩 のり 陣 じん 的 てき 投影 とうえい 矩 のり 陣 じん
L
×
N
{\displaystyle L\times N}
m
=
1
…
L
{\displaystyle m=1\ldots L}
n
=
1
…
N
{\displaystyle n=1\ldots N}
主成分 しゅせいぶん 分析 ぶんせき 的 てき 屬性 ぞくせい 和 わ 限 げん 制 せい [ 編輯 へんしゅう ]
如上 じょじょう 所 しょ 述 じゅつ ,主成分 しゅせいぶん 分析 ぶんせき 的 てき 結果 けっか 依賴 いらい 於變量的 りょうてき 縮 ちぢみ 放 ひ 。
主成分 しゅせいぶん 分析 ぶんせき 的 てき 適用 てきよう 性 せい 受到由 よし 它的派生 はせい 物產 ぶっさん 生 せい 的 てき 某 ぼう 些假設 かせつ [ 8] 的 まと 限 げん 制 せい 。
通過 つうか 使用 しよう 降 くだ 維來保存 ほぞん 大 だい 部分 ぶぶん 數 すう 據 よりどころ 資 し 訊的主成分 しゅせいぶん 分析 ぶんせき 的 てき 觀點 かんてん 是 ぜ 不正 ふせい 確 かく 的 てき 。確實 かくじつ 如此,當 とう 沒 ぼつ 有 ゆう 任 にん 何 なん 假設 かせつ 資 し 訊的信號 しんごう 模型 もけい 時 じ ,主成分 しゅせいぶん 分析 ぶんせき 在 ざい 降 くだ 維的同時 どうじ 並 なみ 不能 ふのう 保證 ほしょう 資 し 訊的不 ふ 丟失,其中資 し 訊是由 ゆかり 香 こう 農 のう 熵[ 9] 來 らい 衡量的 てき 。
基 もと 於假設 かせつ 得 とく
x
=
s
+
n
{\displaystyle \mathbf {x} =\mathbf {s} +\mathbf {n} }
也就是 ぜ 說 せつ ,向 むこう 量 りょう x 是 ぜ 含有 がんゆう 資 し 訊的目標 もくひょう 信號 しんごう s 和 かず 噪聲信號 しんごう n 之 これ 和 わ ,從 したがえ 資 し 訊理論 ろん 角度 かくど 考慮 こうりょ 主成分 しゅせいぶん 分析 ぶんせき 在 ざい 降 くだ 維上是 ぜ 最 さい 優 ゆう 的 てき 。
特別 とくべつ 地 ち ,Linsker證明 しょうめい 了 りょう 如果 s 是 ぜ 高 だか 斯分布 ぶんぷ ,且 n 是 ぜ 與 あずか 密度 みつど 矩 のり 陣 じん 相應 そうおう 的 てき 共 きょう 變異 へんい 數 すう 矩 のり 陣 じん 的 てき 高 だか 斯噪聲 ごえ ,
使用 しよう 統計 とうけい 方法 ほうほう 計算 けいさん PCA[ 編輯 へんしゅう ]
以下 いか 是 ぜ 使用 しよう 統計 とうけい 方法 ほうほう 計算 けいさん PCA的 てき 詳細 しょうさい 說明 せつめい 。但 ただし 是 ぜ 請注意 ちゅうい ,如果利用 りよう 奇異 きい 值分解 ぶんかい (使用 しよう 標準 ひょうじゅん 的 てき 軟體)效果 こうか 會 かい 更 さら 好 このみ 。
我 わが 們的目標 もくひょう 是 これ 把 わ 一 いち 個 こ 給 きゅう 定 じょう 的 てき 具有 ぐゆう M 維的數 すう 據 よりどころ 集 しゅう X 轉換 てんかん 成 なり 具有 ぐゆう 較小維度 L 的 てき 數 すう 據 よりどころ 集 しゅう Y 。現在 げんざい 要求 ようきゅう 的 てき 就是矩 のり 陣 じん Y ,Y 是 ぜ 矩 のり 陣 じん X Karhunen–Loève轉換 てんかん 。:
Y
=
K
L
T
{
X
}
{\displaystyle \mathbf {Y} =\mathbb {KLT} \{\mathbf {X} \}}
假設 かせつ 有 ゆう 一 いち 組 くみ M 個 こ 變量 へんりょう 的 てき 觀察 かんさつ 數 すう 據 よりどころ ,我 わが 們的目的 もくてき 是 ぜ 減少 げんしょう 數 すう 據 よりどころ ,使 つかい 得能 とくのう 夠用L 個 こ 向 むこう 量 りょう 來 らい 描述每 ごと 個 こ 觀 かん 察值,L < M 。進一 しんいち 步 ふ 假設 かせつ ,該數據 よりどころ 被 ひ 整理 せいり 成 なり 一 いち 組 くみ 具有 ぐゆう N 個 こ 向 こう 量的 りょうてき 數 すう 據 よりどころ 集 しゅう ,其中每 ごと 個 こ 向 むこう 量 りょう 都 と 代表 だいひょう M 個 こ 變量 へんりょう 的 てき 單一 たんいつ 觀察 かんさつ 數 すう 據 よりどころ 。
x
1
…
x
N
{\displaystyle \mathbf {x} _{1}\ldots \mathbf {x} _{N}}
為 ため 列 れつ 向 むこう 量 りょう ,其中每 ごと 個 こ 列 れつ 向 むこう 量 りょう 有 ゆう M 行 くだり 。
將 はた 列 れつ 向 むこう 量 りょう 放 ひ 入 いれ M × N 的 てき 單 たん 矩 のり 陣 じん X 裡 うら 。
對 たい 每 ごと 一 いち 維m = 1, ..., M 計算 けいさん 經驗 けいけん 均 ひとし 值
將 はた 計算 けいさん 得 え 到 いた 的 てき 均 ひとし 值放入 いれ 一 いち 個 こ M × 1維的經驗 けいけん 均 ひとし 值向量 りょう u 中 なか
u
[
m
]
=
1
N
∑
n
=
1
N
X
[
m
,
n
]
{\displaystyle u[m]={1 \over N}\sum _{n=1}^{N}X[m,n]}
對 たい 於在最大 さいだい 限度 げんど 地 ち 減少 げんしょう 近似 きんじ 數 すう 據 よりどころ 的 てき 均 ひとし 方 かた 誤差 ごさ 的 てき 基礎 きそ 上 じょう 找到一 いち 個 こ 主成分 しゅせいぶん 來 らい 說 せつ ,均 ひとし 值減去 さ 法 ほう 是 ぜ 該解決 かいけつ 方案 ほうあん 的 てき 不可 ふか 或 ある 缺 かけ 的 てき 組成 そせい 部分 ぶぶん [ 10] 。因 よし 此,我 わが 們繼續 けいぞく 如下步 ふ 驟:
從 したがえ 數 すう 據 よりどころ 矩 のり 陣 じん X 的 まと 每 ごと 一列中減去經驗均值向量 u
將 はた 平均 へいきん 減 げん 去 さ 過 か 的 てき 數 すう 據 よりどころ 存 そん 儲 もうか 在 ざい M × N 矩 のり 陣 じん B 中 なか
B
=
X
−
u
h
{\displaystyle \mathbf {B} =\mathbf {X} -\mathbf {u} \mathbf {h} }
其中h 是 ぜ 一 いち 個 こ 長 ちょう 度 ど 為 ため N 的 てき 全 ぜん 為 ため 1的 てき 行 ぎょう 向 むこう 量 りょう :
h
[
n
]
=
1
for
n
=
1
,
…
,
N
{\displaystyle h[n]=1\,\qquad \qquad {\text{for }}n=1,\ldots ,N}
從 したがえ 矩 のり 陣 じん B 中 ちゅう 找到M × M 的 てき 經驗 けいけん 共 ども 變異 へんい 數 すう 矩 のり 陣 じん C
C
=
E
[
B
⊗
B
]
=
E
[
B
⋅
B
∗
]
=
1
N
−
1
∑
B
⋅
B
∗
{\displaystyle \mathbf {C} =\mathbb {E} \left[\mathbf {B} \otimes \mathbf {B} \right]=\mathbb {E} \left[\mathbf {B} \cdot \mathbf {B} ^{*}\right]={1 \over N-1}\sum _{}\mathbf {B} \cdot \mathbf {B} ^{*}}
其中
E
{\displaystyle \mathbb {E} }
為 ため 期 き 望 もち 值
⊗
{\displaystyle \otimes }
是 ぜ 最 さい 外層 がいそう 運算 うんざん 符 ふ
∗
{\displaystyle *\ }
是 ぜ 共軛 きょうやく 轉置 てんち 運算 うんざん 符 ふ 。
請注意 ちゅうい ,如果B完全 かんぜん 由 よし 實數 じっすう 組成 そせい ,那 な 麼共軛 きょうやく 轉置 てんち 與 あずか 正常 せいじょう 的 てき 轉置 てんち 一 いち 樣 よう 。
查找共 ども 變異 へんい 數 すう 矩 のり 陣 じん 的 てき 特徵 とくちょう 值和特徵 とくちょう 向 むこう 量 りょう [ 編輯 へんしゅう ]
計算 けいさん 矩 のり 陣 じん C 的 てき 特徵 とくちょう 向 むこう 量 りょう
V
−
1
C
V
=
D
{\displaystyle \mathbf {V} ^{-1}\mathbf {C} \mathbf {V} =\mathbf {D} }
其中,D 是 これ C 的 てき 特徵 とくちょう 值對角 かく 矩 のり 陣 じん ,這一 いち 步 ほ 通常 つうじょう 會 かい 涉 わたる 及到使用 しよう 基 もと 於計算 けいさん 機 き 的 てき 計算 けいさん 特徵 とくちょう 值和特徵 とくちょう 向 こう 量的 りょうてき 算法 さんぽう 。在 ざい 很多矩 のり 陣 じん 代數 だいすう 系統 けいとう 中 ちゅう 這些算法 さんぽう 都 と 是 ぜ 現 げん 成 なり 可用 かよう 的 てき ,如R語 ご 言 げん ,MATLAB ,[ 11] [ 12] Mathematica ,[ 13] SciPy , IDL (交互 こうご 式 しき 數 すう 據 よりどころ 語 ご 言 げん ), 或 ある 者 もの GNU Octave 以及OpenCV 。
矩 のり 陣 じん D 為 ため M × M 的 てき 對 たい 角 かく 矩 のり 陣 じん
各個 かっこ 特徵 とくちょう 值和特徵 とくちょう 向 むこう 量 りょう 都 と 是 ぜ 配 はい 對 たい 的 てき ,m 個 こ 特徵 とくちょう 值對應 おう m 個 こ 特徵 とくちょう 向 むこう 量 りょう 。
^ 主成分 しゅせいぶん 分析 ぶんせき (principal components analysis, PCA)——无监督 とく 学 がく 习 . (原始 げんし 內容存 そん 檔 於2020-08-19).
^ Pearson, K. On Lines and Planes of Closest Fit to Systems of Points in Space (PDF) . Philosophical Magazine. 1901, 2 (6): 559–572 [2012-01-24 ] . (原始 げんし 內容 (PDF) 存 そん 檔於2013-10-20).
^ Abdi. H., & Williams, L.J. Principal component analysis.. Wiley Interdisciplinary Reviews: Computational Statistics,. 2010, 2 : 433–459.
^ Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences , Hodder-Arnold. ISBN 978-0-340-80763-7 . [頁 ぺーじ 碼請求 せいきゅう ]
^ Jolliffe I.T. Principal Component Analysis (頁 ぺーじ 面 めん 存 そん 檔備份 ,存 そん 於網 あみ 際 ぎわ 網 もう 路 ろ 檔案館 かん ), Series: Springer Series in Statistics (頁 ぺーじ 面 めん 存 そん 檔備份 ,存 そん 於網 あみ 際 ぎわ 網 もう 路 ろ 檔案館 かん ), 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4
^ A. A. Miranda, Y. A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components (頁 ぺーじ 面 めん 存 そん 檔備份 ,存 そん 於網 あみ 際 ぎわ 網 もう 路 ろ 檔案館 かん ), Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
^ Fukunaga, Keinosuke. Introduction to Statistical Pattern Recognition . Elsevier. 1990. ISBN 0122698517 .
^ Jonathon Shlens, A Tutorial on Principal Component Analysis. (頁 ぺーじ 面 めん 存 そん 檔備份 ,存 そん 於網 あみ 際 ぎわ 網 もう 路 ろ 檔案館 かん )
^ Geiger, Bernhard; Kubin, Gernot (Sep 2012), Relative Information Loss in the PCA (頁 ぺーじ 面 めん 存 そん 檔備份 ,存 そん 於網 あみ 際 ぎわ 網 もう 路 ろ 檔案館 かん )
^ A.A. Miranda, Y.-A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components (頁 ぺーじ 面 めん 存 そん 檔備份 ,存 そん 於網 あみ 際 ぎわ 網 もう 路 ろ 檔案館 かん ), Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
^ eig function (頁 ぺーじ 面 めん 存 そん 檔備份 ,存 そん 於網 あみ 際 ぎわ 網 もう 路 ろ 檔案館 かん ) Matlab documentation
^ MATLAB PCA-based Face recognition software . [2012-04-30 ] . (原始 げんし 內容存 そん 檔 於2012-03-09).
^ Eigenvalues function (頁 ぺーじ 面 めん 存 そん 檔備份 ,存 そん 於網 あみ 際 ぎわ 網 もう 路 ろ 檔案館 かん ) Mathematica documentation