一 いち 个高 こう 斯分布 ぶんぷ ,平均 へいきん 值 为(1, 3),标准差 さ 在 ざい (0.878, 0.478)方向 ほうこう 上 じょう 为3、在 ざい 其正交方向上 こうじょう 为1的 てき 主成分 しゅせいぶん 分析 ぶんせき 。黑色 こくしょく 的 てき 两个向 むこう 量 りょう 是 ぜ 此分布 ぶんぷ 的 てき 协方差 さ 矩 のり 阵 的 てき 特 とく 征 せい 向 こう 量 りょう ,其长度 ど 为对应的特 とく 征 せい 值之 これ 平方根 へいほうこん ,并以分布 ぶんぷ 的 てき 平均 へいきん 值为原点 げんてん 。
在 ざい 多元 たげん 变量分析 ぶんせき 中 なか ,主成分 しゅせいぶん 分析 ぶんせき (英 えい 语:Principal components analysis ,缩写:PCA )是 ぜ 一 いち 种统计 分析 ぶんせき 、简化数 すう 据 すえ 集 しゅう 的 てき 方法 ほうほう 。它利用 りよう 正 せい 交变换来 らい 对一系列可能相关的变量的观测值进行线性变换,从而投影 とうえい 为一系列线性不相关变量的值,这些不 ふ 相 あい 关变量 りょう 称 しょう 为主成分 しゅせいぶん (Principal Components)。具体 ぐたい 地 ち ,主成分 しゅせいぶん 可 か 以看做一个线性方 かた 程 ほど ,其包含 ほうがん 一系列线性系数来指示投影方向。PCA对原始 げんし 数 すう 据 すえ 的 てき 正 せい 则化或 ある 预处理 り 敏感 びんかん (相 あい 对缩放)。
基本 きほん 思想 しそう :
将 はた 坐 すわ 标轴中心 ちゅうしん 移 うつり 到 いた 数 かず 据 すえ 的 てき 中心 ちゅうしん ,然 しか 后 きさき 旋转坐标轴,使 つかい 得 とく 数 すう 据 すえ 在 ざい C1轴上的 てき 方 かた 差 さ 最大 さいだい ,即 そく 全部 ぜんぶ n个数据 すえ 个体在 ざい 该方向上 こうじょう 的 てき 投影 とうえい 最 さい 为分散 ぶんさん 。意味 いみ 着 ぎ 更 さら 多 た 的 てき 信 しん 息 いき 被 ひ 保留 ほりゅう 下 か 来 らい 。C1成 なり 为第 だい 一 いち 主成分 しゅせいぶん 。
C2第 だい 二 に 主成分 しゅせいぶん :找一个C2,使 つかい 得 とく C2与 あずか C1的 てき 协方差 さ (相 あい 关系数 すう )为0,以免与 あずか C1信 しん 息 いき 重 じゅう 叠,并且使 し 数 すう 据 すえ 在 ざい 该方向 ほうこう 的 てき 方 かた 差 さ 尽 つき 量 りょう 最大 さいだい 。
以此类推,找到第 だい 三 さん 主成分 しゅせいぶん ,第 だい 四 よん 主成分 しゅせいぶん ……第 だい p个主成分 しゅせいぶん 。p个随机 つくえ 变量可 か 以有p个主成分 しゅせいぶん [ 1] 。
主成分 しゅせいぶん 分 ぶん 析经常用 じょうよう 于减少数 しょうすう 据 すえ 集 しゅう 的 てき 维数 ,同 どう 时保留 ほりゅう 数 すう 据 すえ 集 しゅう 当 とう 中 ちゅう 对方 かた 差 さ 贡献最大 さいだい 的 てき 特 とく 征 せい 。这是通 どおり 过保留 ほりゅう 低 てい 维主成分 しゅせいぶん ,忽 ゆるがせ 略 りゃく 高 だか 维主成分 しゅせいぶん 做到的 てき 。这样低 てい 维成分 ぶん 往往 おうおう 能 のう 够保留 ほりゅう 住 じゅう 数 すう 据 すえ 的 てき 最 さい 重要 じゅうよう 部分 ぶぶん 。但 ただし 是 ぜ ,这也不 ふ 是 ぜ 一定 いってい 的 てき ,要 よう 视具体 ぐたい 应用而定。由 よし 于主成分 しゅせいぶん 分 ぶん 析依赖所给数据 すえ ,所以 ゆえん 数 すう 据 すえ 的 てき 准 じゅん 确性对分析 ぶんせき 结果影 かげ 响很大 だい 。
主成分 しゅせいぶん 分析 ぶんせき 由 よし 卡尔·皮 がわ 尔逊 于1901年 ねん 发明[ 2] ,用 よう 于分析 ぶんせき 数 すう 据 すえ 及建立 こんりゅう 数理 すうり 模型 もけい ,在 ざい 原理 げんり 上 じょう 与 あずか 主 しゅ 轴定理 ていり 相似 そうじ 。之 これ 后 きさき 在 ざい 1930年 ねん 左右 さゆう 由 よし 哈罗德 とく ·霍特林 りん 独立 どくりつ 发展并命名 めいめい 。依 よ 据 すえ 应用领域的 てき 不同 ふどう ,在 ざい 信号 しんごう 处理中 ちゅう 它也叫 さけべ 做离散K-L 转换 (discrete Karhunen–Loève transform (KLT))。其方法 ほう 主要 しゅよう 是 ぜ 通 どおり 过对协方差 さ 矩 のり 阵 进行特 とく 征 せい 分解 ぶんかい [ 3] ,以得出 で 数 すう 据 すえ 的 てき 主成分 しゅせいぶん (即 そく 特 とく 征 せい 向 こう 量 りょう )与 あずか 它们的 てき 权值(即 そく 特 とく 征 せい 值[ 4] )。PCA是 ぜ 最 さい 简单的 てき 以特征 せい 量 りょう 分析 ぶんせき 多元 たげん 统计分布 ぶんぷ 的 てき 方法 ほうほう 。其结果 はて 可 か 以理解 りかい 为对原 ばら 数 すう 据 すえ 中 ちゅう 的 てき 方 かた 差 さ 做出解 かい 释:哪一个方向上的数据值对方差的影响最大?换而言 ごと 之 の ,PCA提供 ていきょう 了 りょう 一种降低数据维度 的 てき 有效 ゆうこう 办法;如果分析 ぶんせき 者 しゃ 在原 ありはら 数 すう 据 すえ 中 ちゅう 除 じょ 掉最小 さいしょう 的 てき 特 とく 征 せい 值所 ところ 对应的 てき 成分 せいぶん ,那 な 么所得 しょとく 的 てき 低 てい 维度数 すう 据 すえ 必定 ひつじょう 是 ぜ 最 さい 优化的 てき (也即,这样降 くだ 低 てい 维度必定 ひつじょう 是 ぜ 失 しつ 去 さ 讯息最少 さいしょう 的 てき 方法 ほうほう )。主成分 しゅせいぶん 分析 ぶんせき 在 ざい 分析 ぶんせき 复杂数 すう 据 すえ 时尤为有用 よう ,比 ひ 如人 ひと 脸识别 。
PCA是 ぜ 最 さい 简单的 てき 以特征 せい 量 りょう 分析 ぶんせき 多元 たげん 统计分布 ぶんぷ 的 てき 方法 ほうほう 。通常 つうじょう ,这种运算可 か 以被看 み 作 さく 是 ぜ 揭露数 すう 据 すえ 的 てき 内部 ないぶ 结构,从而更 さら 好地 こうち 展 てん 现数据 すえ 的 てき 变异度 ど 。如果一个多元数据集是用高维数据空间之坐标系来表示的,那 な 么PCA能 のう 提供 ていきょう 一幅较低维度的图像,相当 そうとう 于数据 すえ 集 しゅう 在 ざい 讯息量 りょう 最多 さいた 之 の 角度 かくど 上 じょう 的 てき 一 いち 个投影 とうえい 。这样就可以利用 りよう 少量 しょうりょう 的 てき 主成分 しゅせいぶん 让数据 すえ 的 てき 维度降 くだ 低 てい 了 りょう 。
PCA 跟因子 いんし 分析 ぶんせき 密 みつ 切 きり 相 しょう 关。因子 いんし 分析 ぶんせき 通常 つうじょう 包含 ほうがん 更 さら 多 た 特定 とくてい 领域底 そこ 层结构的假 かり 设,并且求 もとめ 解 かい 稍 やや 微 ほろ 不同 ふどう 矩 のり 阵的特 とく 征 せい 向 こう 量 りょう 。
PCA 也跟典型 てんけい 相 しょう 关分析 ぶんせき (CCA)有 ゆう 关。CCA定 てい 义的坐 すわ 标系可 か 以最佳 けい 地 ち 描述两个数 すう 据 すえ 集 しゅう 之 の 间的互协方 かた 差 さ ,而PCA定 てい 义了新 しん 的 てき 正 せい 交坐标系,能 のう 最 さい 佳 けい 地 ち 描述单个数 すう 据 すえ 集 しゅう 当 とう 中 なか 的 てき 方 かた 差 さ 。
PCA的 てき 数学 すうがく 定 てい 义是:一 いち 个正 せい 交化线性变换 ,把 わ 数 すう 据 すえ 变换到一 いち 个新的 てき 坐 すわ 标系统中 なか ,使 つかい 得 とく 这一数 すう 据 すえ 的 てき 任 にん 何 なに 投影 とうえい 的 てき 第 だい 一大 いちだい 方 かた 差 さ 在 ざい 第 だい 一 いち 个坐标(称 しょう 为第一 いち 主成分 しゅせいぶん )上 じょう ,第 だい 二大方差在第二个坐标(第 だい 二 に 主成分 しゅせいぶん )上 じょう ,依 よ 次 じ 类推[ 5] 。
定 てい 义一个
n
×
m
{\displaystyle n\times m}
的 てき 矩 のり 阵 ,
X
T
{\displaystyle X^{T}}
为去平均 へいきん 值 (以平 いたいら 均 ひとし 值为中心 ちゅうしん 移 うつり 动至原点 げんてん )的 てき 数 すう 据 すえ ,其行为数据 すえ 样本,列 れつ 为数据 すえ 类别(注意 ちゅうい ,这里定 てい 义的是 ぜ
X
T
{\displaystyle X^{T}}
而不是 ぜ
X
{\displaystyle X}
)。则
X
{\displaystyle X}
的 てき 奇 き 异值分解 ぶんかい 为
X
=
W
Σ しぐま
V
T
{\displaystyle X=W\Sigma V^{T}}
,其中
W
∈
R
m
×
m
{\displaystyle W\in \mathbf {R} ^{m\times m}}
是 これ
X
X
T
{\displaystyle XX^{T}}
的 てき 特 とく 征 せい 向 こう 量 りょう 矩 のり 阵,
Σ しぐま
∈
R
m
×
n
{\displaystyle \Sigma \in \mathbf {R} ^{m\times n}}
是 ぜ 奇 き 异值矩 のり 阵,
V
∈
R
n
×
n
{\displaystyle V\in \mathbf {R} ^{n\times n}}
是 これ
X
T
X
{\displaystyle X^{T}X}
的 てき 特 とく 征 せい 向 こう 量 りょう 矩 のり 阵。据 すえ 此,
Y
⊤
=
X
⊤
W
=
V
Σ しぐま
⊤
W
⊤
W
=
V
Σ しぐま
⊤
{\displaystyle {\begin{aligned}{\boldsymbol {Y}}^{\top }&={\boldsymbol {X}}^{\top }{\boldsymbol {W}}\\&={\boldsymbol {V}}{\boldsymbol {\Sigma }}^{\top }{\boldsymbol {W}}^{\top }{\boldsymbol {W}}\\&={\boldsymbol {V}}{\boldsymbol {\Sigma }}^{\top }\end{aligned}}}
当 とう m < n − 1时,V 在 ざい 通常 つうじょう 情 じょう 况下不 ふ 是 ぜ 唯 ただ 一定 いってい 义的,而Y 则是唯 ただ 一定 いってい 义的。W 是 ぜ 一 いち 个正 せい 交矩阵 ,Y T W T =X T ,且Y T 的 てき 第 だい 一列由第一主成分组成,第 だい 二列由第二主成分组成,依 よ 此类推。
为了得 え 到 いた 一种降低数据维度的有效办法,我 わが 们可以利用 りよう W L 把 わ X 映 うつ 射 い 到 いた 一 いち 个只应用前面 ぜんめん L个向量的 りょうてき 低 てい 维空间中去 さ :
Y
=
W
L
⊤
X
=
Σ しぐま
L
V
⊤
{\displaystyle \mathbf {Y} =\mathbf {W_{L}} ^{\top }\mathbf {X} =\mathbf {\Sigma _{L}} \mathbf {V} ^{\top }}
其中
Σ しぐま
L
=
I
L
×
m
Σ しぐま
{\displaystyle \mathbf {\Sigma _{L}} =\mathbf {I} _{L\times m}\mathbf {\Sigma } }
,且
I
L
×
m
{\displaystyle \mathbf {I} _{L\times m}}
为
L
×
m
{\displaystyle L\times m}
的 てき 单位矩 のり 阵 。
X 的 てき 单向量 りょう 矩 のり 阵W 相当 そうとう 于协方差 さ 矩 のり 阵 的 てき 特 とく 征 せい 向 こう 量 りょう C = X X T ,
X
X
⊤
=
W
Σ しぐま
Σ しぐま
⊤
W
⊤
{\displaystyle \mathbf {X} \mathbf {X} ^{\top }=\mathbf {W} \mathbf {\Sigma } \mathbf {\Sigma } ^{\top }\mathbf {W} ^{\top }}
在 ざい 欧 おう 几里得 とく 空 そら 间 给定一 いち 组点数 すう ,第 だい 一主成分对应于通过多维空间平均点的一条线,同 どう 时保证各个点到 いた 这条直 ちょく 线距离的平方和 へいほうわ 最小 さいしょう 。去 さ 除 じょ 掉第一 いち 主成分 しゅせいぶん 后 きさき ,用 もちい 同 どう 样的方法 ほうほう 得 え 到 いた 第 だい 二 に 主成分 しゅせいぶん 。依 よ 此类推。在 ざい Σ しぐま 中 なか 的 てき 奇 き 异值均 ひとし 为矩阵 XX T 的 てき 特 とく 征 せい 值的 てき 平方根 へいほうこん 。每 まい 一个特征值都与跟它们相关的方差是成正比的,而且所有 しょゆう 特 とく 征 せい 值的总和等 とう 于所有 しょゆう 点 てん 到 いた 它们的 てき 多 た 维空间平均 へいきん 点 てん 距离的 てき 平方和 へいほうわ 。PCA提供 ていきょう 了 りょう 一种降低维度的有效办法,本 ほん 质上,它利用 りよう 正 せい 交变换将围绕平均 へいきん 点 てん 的 てき 点 てん 集中 しゅうちゅう 尽 つき 可能 かのう 多 た 的 てき 变量投影 とうえい 到 いた 第 だい 一 いち 维中去 さ ,因 いん 此,降 くだ 低 てい 维度必定 ひつじょう 是 ぜ 失 しつ 去 さ 讯息最少 さいしょう 的 てき 方法 ほうほう 。PCA具有 ぐゆう 保持 ほじ 子 こ 空 そら 间拥有 ゆう 最大 さいだい 方 かた 差 さ 的 てき 最 さい 优正交变换的特性 とくせい 。然 しか 而,当 とう 与 あずか 离散余弦 よげん 变换 相 そう 比 ひ 时,它需要 よう 更 さら 大 だい 的 てき 计算需求代 だい 价。非 ひ 线性降 くだ 维技术相对于PCA来 らい 说则需要 じゅよう 更 さら 高 だか 的 てき 计算要求 ようきゅう 。
PCA对变量的 りょうてき 缩放很敏感 かん 。如果我 わが 们只有 ゆう 两个变量,而且它们具有 ぐゆう 相 しょう 同 どう 的 てき 样本方 かた 差 さ ,并且成 なり 正 せい 相 しょう 关,那 な 么PCA将 はた 涉 わたる 及两个变量的 りょうてき 主成分 しゅせいぶん 的 てき 旋转。但 ただし 是 ぜ ,如果把 わ 第 だい 一个变量的所有值都乘以100,那 な 么第一主成分就几乎和这个变量一样,另一个变量只提供了很小的贡献,第 だい 二主成分也将和第二个原始变量几乎一致。这就意味 いみ 着 ぎ 当 とう 不同 ふどう 的 てき 变量代表 だいひょう 不同 ふどう 的 てき 单位(如温度 おんど 和 わ 质量)时,PCA是 ぜ 一种比较武断的分析方法。但 ただし 是 ぜ 在 ざい Pearson的 てき 题为
"On Lines and Planes of Closest Fit to Systems of Points in Space"的 てき 原始 げんし 文 ぶん 件 けん 里 さと ,是 ぜ 假 かり 设在欧 おう 几里得 とく 空 そら 间里不 ふ 考 こう 虑这些。一 いち 种使PCA不 ふ 那 な 么武断 ぶだん 的 てき 方法 ほうほう 是 ぜ 使用 しよう 变量缩放以得到 いた 单位方 かた 差 さ 。
通常 つうじょう ,为了确保第 だい 一主成分描述的是最大方差的方向,我 わが 们会使用 しよう 平均 へいきん 减法进行主成分 しゅせいぶん 分析 ぶんせき 。如果不 ふ 执行平均 へいきん 减法,第 だい 一主成分有可能或多或少的对应于数据的平均值。另外,为了找到近似 きんじ 数 すう 据 すえ 的 てき 最小 さいしょう 均 ひとし 方 かた 误差,我 わが 们必须选取一个零均值[ 6] 。
假 かり 设零经验均 ひとし 值,数 すう 据 すえ 集 しゅう X 的 てき 主成分 しゅせいぶん w 1 可 か 以被定 てい 义为:
w
1
=
arg
m
a
x
‖
w
‖
=
1
Var
{
w
⊤
X
}
=
arg
m
a
x
‖
w
‖
=
1
E
{
(
w
⊤
X
)
2
}
{\displaystyle \mathbf {w} _{1}={\underset {\Vert \mathbf {w} \Vert =1}{\operatorname {\arg \,max} }}\,\operatorname {Var} \{\mathbf {w} ^{\top }\mathbf {X} \}={\underset {\Vert \mathbf {w} \Vert =1}{\operatorname {\arg \,max} }}\,E\left\{\left(\mathbf {w} ^{\top }\mathbf {X} \right)^{2}\right\}}
为了得 え 到 いた 第 だい k 个主成分 しゅせいぶん ,必须先 さき 从X 中 ちゅう 减去前面 ぜんめん 的 てき
k
−
1
{\displaystyle k-1}
个主成分 しゅせいぶん :
X
^
k
−
1
=
X
−
∑
i
=
1
k
−
1
w
i
w
i
⊤
X
{\displaystyle \mathbf {\hat {X}} _{k-1}=\mathbf {X} -\sum _{i=1}^{k-1}\mathbf {w} _{i}\mathbf {w} _{i}^{\top }\mathbf {X} }
然 しか 后 きさき 把 わ 求 もとめ 得 とく 的 てき 第 だい k 个主成分 しゅせいぶん 带入数 すう 据 すえ 集 しゅう ,得 とく 到 いた 新 しん 的 まと 数 すう 据 すえ 集 しゅう ,继续寻找主成分 しゅせいぶん 。
w
k
=
a
r
g
m
a
x
‖
w
‖
=
1
E
{
(
w
⊤
X
^
k
−
1
)
2
}
.
{\displaystyle \mathbf {w} _{k}={\underset {\Vert \mathbf {w} \Vert =1}{\operatorname {arg\,max} }}\,E\left\{\left(\mathbf {w} ^{\top }\mathbf {\hat {X}} _{k-1}\right)^{2}\right\}.}
PCA相当 そうとう 于在气象学 がく 中 ちゅう 使用 しよう 的 てき 经验正 せい 交函数 すう (EOF),同 どう 时也类似于一个线性隐层神经网络。 隐含层 K 个神经元的 てき 权重向 むこう 量 りょう 收 おさむ 敛后,将 はた 形成 けいせい 一 いち 个由前 まえ K 个主成分 しゅせいぶん 跨 またが 越 えつ 空 そら 间的基 もと 础。但 ただし 是 ぜ 与 あずか PCA不同 ふどう 的 てき 是 ぜ ,这种技 わざ 术并不 ふ 一定会产生正交向量。
PCA是 ぜ 一种很流行且主要的模式识别技术。然 しか 而,它并不能 ふのう 最 さい 优化类别可分 かぶん 离性[ 7] 。另一种不考虑这一点的方法是线性判别分析。
Symbol符号 ふごう
Meaning意 い 义
Dimensions尺寸 しゃくすん
Indices指数 しすう
X
=
{
X
[
m
,
n
]
}
{\displaystyle \mathbf {X} =\{X[m,n]\}}
由 よし 所有 しょゆう 数 すう 据 すえ 向 こう 量 りょう 集 しゅう 组成的 てき 数 すう 据 すえ 矩 のり 阵,一 いち 列 れつ 代表 だいひょう 一 いち 个向量 りょう
M
×
N
{\displaystyle M\times N}
m
=
1
…
M
{\displaystyle m=1\ldots M}
n
=
1
…
N
{\displaystyle n=1\ldots N}
N
{\displaystyle N\,}
数 かず 据 すえ 集中 しゅうちゅう 列 れつ 向 こう 量的 りょうてき 个数
1
×
1
{\displaystyle 1\times 1}
标量
M
{\displaystyle M\,}
每 まい 个列向 こう 量的 りょうてき 元素 げんそ 个数
1
×
1
{\displaystyle 1\times 1}
标量
L
{\displaystyle L\,}
子 こ 空 そら 间的维数,
1
≤
L
≤
M
{\displaystyle 1\leq L\leq M}
1
×
1
{\displaystyle 1\times 1}
标量
u
=
{
u
[
m
]
}
{\displaystyle \mathbf {u} =\{u[m]\}}
经验均 ひとし 值向量 りょう
M
×
1
{\displaystyle M\times 1}
m
=
1
…
M
{\displaystyle m=1\ldots M}
s
=
{
s
[
m
]
}
{\displaystyle \mathbf {s} =\{s[m]\}}
经验标准方 かた 差 さ 向 むこう 量 りょう
M
×
1
{\displaystyle M\times 1}
m
=
1
…
M
{\displaystyle m=1\ldots M}
h
=
{
h
[
n
]
}
{\displaystyle \mathbf {h} =\{h[n]\}}
所有 しょゆう 的 てき 单位向 むこう 量 りょう
1
×
N
{\displaystyle 1\times N}
n
=
1
…
N
{\displaystyle n=1\ldots N}
B
=
{
B
[
m
,
n
]
}
{\displaystyle \mathbf {B} =\{B[m,n]\}}
对均值的偏 へん 离向量 りょう
M
×
N
{\displaystyle M\times N}
m
=
1
…
M
{\displaystyle m=1\ldots M}
n
=
1
…
N
{\displaystyle n=1\ldots N}
Z
=
{
Z
[
m
,
n
]
}
{\displaystyle \mathbf {Z} =\{Z[m,n]\}}
Z-分数 ぶんすう ,利用 りよう 均 ひとし 值和标准差 さ 计算得 え 到 いた
M
×
N
{\displaystyle M\times N}
m
=
1
…
M
{\displaystyle m=1\ldots M}
n
=
1
…
N
{\displaystyle n=1\ldots N}
C
=
{
C
[
p
,
q
]
}
{\displaystyle \mathbf {C} =\{C[p,q]\}}
协方差 さ 矩 のり 阵
M
×
M
{\displaystyle M\times M}
p
=
1
…
M
{\displaystyle p=1\ldots M}
q
=
1
…
M
{\displaystyle q=1\ldots M}
R
=
{
R
[
p
,
q
]
}
{\displaystyle \mathbf {R} =\{R[p,q]\}}
相 あい 关矩阵
M
×
M
{\displaystyle M\times M}
p
=
1
…
M
{\displaystyle p=1\ldots M}
q
=
1
…
M
{\displaystyle q=1\ldots M}
V
=
{
V
[
p
,
q
]
}
{\displaystyle \mathbf {V} =\{V[p,q]\}}
C 的 てき 所有 しょゆう 特 とく 征 せい 向 こう 量 りょう 集 しゅう
M
×
M
{\displaystyle M\times M}
p
=
1
…
M
{\displaystyle p=1\ldots M}
q
=
1
…
M
{\displaystyle q=1\ldots M}
D
=
{
D
[
p
,
q
]
}
{\displaystyle \mathbf {D} =\{D[p,q]\}}
主 しゅ 对角线为特 とく 征 せい 值的对角矩 のり 阵
M
×
M
{\displaystyle M\times M}
p
=
1
…
M
{\displaystyle p=1\ldots M}
q
=
1
…
M
{\displaystyle q=1\ldots M}
W
=
{
W
[
p
,
q
]
}
{\displaystyle \mathbf {W} =\{W[p,q]\}}
基 もと 向 むこう 量 りょう 矩 のり 阵
M
×
L
{\displaystyle M\times L}
p
=
1
…
M
{\displaystyle p=1\ldots M}
q
=
1
…
L
{\displaystyle q=1\ldots L}
Y
=
{
Y
[
m
,
n
]
}
{\displaystyle \mathbf {Y} =\{Y[m,n]\}}
X 和 わ W 矩 のり 阵的投影 とうえい 矩 のり 阵
L
×
N
{\displaystyle L\times N}
m
=
1
…
L
{\displaystyle m=1\ldots L}
n
=
1
…
N
{\displaystyle n=1\ldots N}
主成分 しゅせいぶん 分析 ぶんせき 的 てき 属性 ぞくせい 和 わ 限 げん 制 せい [ 编辑 ]
如上 じょじょう 所 しょ 述 じゅつ ,主成分 しゅせいぶん 分析 ぶんせき 的 てき 结果依 よ 赖于变量的 てき 缩放。
主成分 しゅせいぶん 分析 ぶんせき 的 てき 适用性 せい 受到由 よし 它的派生 はせい 物 ぶつ 产生的 てき 某 ぼう 些假设[ 8] 的 まと 限 げん 制 せい 。
主成分 しゅせいぶん 分析 ぶんせき 和信 かずのぶ 息 いき 理 り 论[ 编辑 ]
通 つう 过使用 しよう 降 くだ 维来保存 ほぞん 大 だい 部分 ぶぶん 数 すう 据 すえ 信 しんじ 息 いき 的 てき 主成分 しゅせいぶん 分析 ぶんせき 的 てき 观点是 ぜ 不正 ふせい 确的。确实如此,当 とう 没 ぼつ 有 ゆう 任 にん 何 なん 假 かり 设信息 いき 的 てき 信号 しんごう 模型 もけい 时,主成分 しゅせいぶん 分析 ぶんせき 在 ざい 降 くだ 维的同 どう 时并不能 ふのう 保 ほ 证信息 いき 的 てき 不 ふ 丢失,其中信 しん 息 いき 是 ぜ 由 ゆかり 香 こう 农熵[ 9] 来 らい 衡量的 てき 。
基 もと 于假设得
x
=
s
+
n
{\displaystyle \mathbf {x} =\mathbf {s} +\mathbf {n} }
也就是 ぜ 说,向 むこう 量 りょう x 是 ぜ 含有 がんゆう 信 しん 息 いき 的 てき 目 め 标信号 ごう s 和 かず 噪声信号 しんごう n 之 これ 和 わ ,从信息 いき 论角度 かくど 考 こう 虑主成分 しゅせいぶん 分析 ぶんせき 在 ざい 降 くだ 维上是 ぜ 最 さい 优的。
特 とく 别地,Linsker证明了 りょう 如果 s 是 ぜ 高 だか 斯分布 ぶんぷ ,且 n 是 ぜ 与 あずか 密度 みつど 矩 のり 阵相应的协方差 さ 矩 のり 阵的高 だか 斯噪声 ごえ ,
以下 いか 是 ぜ 使用 しよう 统计方法 ほうほう 计算PCA的 てき 详细说明。但 ただし 是 ぜ 请注意 ちゅうい ,如果利用 りよう 奇 き 异值分解 ぶんかい (使用 しよう 标准的 てき 软件)效果 こうか 会 かい 更 さら 好 このみ 。
我 わが 们的目 め 标是把 わ 一 いち 个给定 じょう 的 てき 具有 ぐゆう M 维的数 すう 据 すえ 集 しゅう X 变换成 なり 具有 ぐゆう 较小维度 L 的 まと 数 すう 据 すえ 集 しゅう Y 。现在要求 ようきゅう 的 てき 就是矩 のり 阵Y ,Y 是 ぜ 矩 のり 阵X Karhunen–Loève变换。:
Y
=
K
L
T
{
X
}
{\displaystyle \mathbf {Y} =\mathbb {KLT} \{\mathbf {X} \}}
假 かり 设有一 いち 组 M 个变量的 りょうてき 观察数 すう 据 すえ ,我 わが 们的目的 もくてき 是 ぜ 减少数 すう 据 すえ ,使 つかい 得能 とくのう 够用L 个向量 りょう 来 らい 描述每 ごと 个观察值,L < M 。进一 いち 步 ほ 假 かり 设,该数据 すえ 被 ひ 整理 せいり 成 なり 一 いち 组具有 ぐゆう N 个向量的 りょうてき 数 すう 据 すえ 集 しゅう ,其中每 ごと 个向量 りょう 都 と 代表 だいひょう M 个变量的 りょうてき 单一观察数 すう 据 すえ 。
x
1
…
x
N
{\displaystyle \mathbf {x} _{1}\ldots \mathbf {x} _{N}}
为列向 むこう 量 りょう ,其中每 ごと 个列向 むこう 量 りょう 有 ゆう M 行 くだり 。
将 はた 列 れつ 向 むこう 量 りょう 放 ひ 入 いれ M × N 的 てき 单矩阵X 里 さと 。
对每一 いち 维m = 1, ..., M 计算经验均 ひとし 值
将 はた 计算得 え 到 いた 的 てき 均 ひとし 值放入 いれ 一 いち 个 M × 1维的经验均 ひとし 值向量 りょう u 中 なか
u
[
m
]
=
1
N
∑
n
=
1
N
X
[
m
,
n
]
{\displaystyle u[m]={1 \over N}\sum _{n=1}^{N}X[m,n]}
对于在 ざい 最大 さいだい 限度 げんど 地 ち 减少近似 きんじ 数 すう 据 すえ 的 てき 均 ひとし 方 かた 误差的 てき 基 もと 础上找到一个主成分来说,均 ひとし 值减去法 ほう 是 ぜ 该解决方案 あん 的 てき 不可 ふか 或 ある 缺 かけ 的 てき 组成部分 ぶぶん [ 10] 。因 よし 此,我 わが 们继续如下 か 步 ふ 骤:
从数据 すえ 矩 のり 阵X 的 まと 每 ごと 一列中减去经验均值向量 u
将 はた 平均 へいきん 减去过的数 すう 据 すえ 存 そん 储在M × N 矩 のり 阵B 中 なか
B
=
X
−
u
h
{\displaystyle \mathbf {B} =\mathbf {X} -\mathbf {u} \mathbf {h} }
其中h 是 ぜ 一个长度为N 的 てき 全 ぜん 为1的 てき 行 ぎょう 向 むこう 量 りょう :
h
[
n
]
=
1
for
n
=
1
,
…
,
N
{\displaystyle h[n]=1\,\qquad \qquad {\text{for }}n=1,\ldots ,N}
从矩阵B 中 ちゅう 找到M × M 的 てき 经验协方差 さ 矩 のり 阵C
C
=
E
[
B
⊗
B
]
=
E
[
B
⋅
B
∗
]
=
1
N
−
1
∑
B
⋅
B
∗
{\displaystyle \mathbf {C} =\mathbb {E} \left[\mathbf {B} \otimes \mathbf {B} \right]=\mathbb {E} \left[\mathbf {B} \cdot \mathbf {B} ^{*}\right]={1 \over N-1}\sum _{}\mathbf {B} \cdot \mathbf {B} ^{*}}
其中
E
{\displaystyle \mathbb {E} }
为期望 もち
⊗
{\displaystyle \otimes }
是 ぜ 最 さい 外 そと 层运算 さん 符 ふ
∗
{\displaystyle *\ }
是 ぜ 共 ども 轭转置 おけ 运算符 ふ 。
请注意 ちゅうい ,如果B完全 かんぜん 由 よし 实数组成,那 な 么共轭转置 おけ 与 あずか 正常 せいじょう 的 てき 转置一 いち 样。
查找协方差 さ 矩 のり 阵的特 とく 征 せい 值和特 とく 征 せい 向 こう 量 りょう [ 编辑 ]
V
−
1
C
V
=
D
{\displaystyle \mathbf {V} ^{-1}\mathbf {C} \mathbf {V} =\mathbf {D} }
其中,D 是 これ C 的 てき 特 とく 征 せい 值对角 かく 矩 のり 阵,这一 いち 步 ほ 通常 つうじょう 会 かい 涉 わたる 及到使用 しよう 基 もと 于计算 さん 机 つくえ 的 てき 计算特 とく 征 せい 值和特 とく 征 せい 向 こう 量的 りょうてき 算法 さんぽう 。在 ざい 很多矩 のり 阵代数 すう 系 けい 统中这些算法 さんぽう 都 と 是 ぜ 现成可用 かよう 的 てき ,如R语言 ,MATLAB ,[ 11] [ 12] Mathematica ,[ 13] SciPy , IDL (交互 こうご 式 しき 数 すう 据 すえ 语言), 或 ある 者 もの GNU Octave 以及OpenCV 。
各 かく 个特征 せい 值和特 とく 征 せい 向 こう 量 りょう 都 と 是 ぜ 配 はい 对的,m 个特征 せい 值对应m 个特征 せい 向 こう 量 りょう 。
^ 主成分 しゅせいぶん 分析 ぶんせき (principal components analysis, PCA)——无监督 とく 学 がく 习 . (原始 げんし 内容 ないよう 存 そん 档 于2020-08-19).
^ Pearson, K. On Lines and Planes of Closest Fit to Systems of Points in Space (PDF) . Philosophical Magazine. 1901, 2 (6): 559–572 [2012-01-24 ] . (原始 げんし 内容 ないよう (PDF) 存 そん 档于2013-10-20).
^ Abdi. H., & Williams, L.J. Principal component analysis.. Wiley Interdisciplinary Reviews: Computational Statistics,. 2010, 2 : 433–459.
^ Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences , Hodder-Arnold. ISBN 978-0-340-80763-7 . [页码请求 ]
^ Jolliffe I.T. Principal Component Analysis (页面存 そん 档备份 ,存 そん 于互联网档案 あん 馆 ), Series: Springer Series in Statistics (页面存 そん 档备份 ,存 そん 于互联网档案 あん 馆 ), 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4
^ A. A. Miranda, Y. A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components (页面存 そん 档备份 ,存 そん 于互联网档案 あん 馆 ), Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
^ Fukunaga, Keinosuke. Introduction to Statistical Pattern Recognition . Elsevier. 1990. ISBN 0122698517 .
^ Jonathon Shlens, A Tutorial on Principal Component Analysis. (页面存 そん 档备份 ,存 そん 于互联网档案 あん 馆 )
^ Geiger, Bernhard; Kubin, Gernot (Sep 2012), Relative Information Loss in the PCA (页面存 そん 档备份 ,存 そん 于互联网档案 あん 馆 )
^ A.A. Miranda, Y.-A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components (页面存 そん 档备份 ,存 そん 于互联网档案 あん 馆 ), Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer
^ eig function (页面存 そん 档备份 ,存 そん 于互联网档案 あん 馆 ) Matlab documentation
^ MATLAB PCA-based Face recognition software . [2012-04-30 ] . (原始 げんし 内容 ないよう 存 そん 档 于2012-03-09).
^ Eigenvalues function (页面存 そん 档备份 ,存 そん 于互联网档案 あん 馆 ) Mathematica documentation