EMアルゴリズム (英 えい : expectation–maximization algorithm )とは、統計 とうけい 学 がく において、確 かく 率 りつ モデル のパラメータを最 さい 尤 ゆう 推定 すいてい する手法 しゅほう の一 ひと つであり、観測 かんそく 不可能 ふかのう な潜在 せんざい 変数 へんすう に確 かく 率 りつ モデルが依存 いぞん する場合 ばあい に用 もち いられる。EM法 ほう 、期待 きたい 値 ち 最大 さいだい 化 か 法 ほう (きたいちさいだいかほう)とも呼 よ ばれる。その一般 いっぱん 性 せい の高 たか さから、機械 きかい 学習 がくしゅう 、音声 おんせい 認識 にんしき 、因子 いんし 分析 ぶんせき など、広汎 こうはん な応用 おうよう がある。
EMアルゴリズムは反復 はんぷく 法 ほう の一種 いっしゅ であり、期待 きたい 値 ち (英 えい : expectation, E ) ステップと最大 さいだい 化 か (英 えい : maximization, M )ステップを交互 こうご に繰 く り返 かえ すことで計算 けいさん が進行 しんこう する。Eステップでは、現在 げんざい 推定 すいてい されている潜在 せんざい 変数 へんすう の分布 ぶんぷ に基 もと づいて、モデルの尤 ゆう 度 ど の期待 きたい 値 ち を計算 けいさん する。Mステップでは、E ステップで求 もと まった尤 ゆう 度 ど の期待 きたい 値 ち を最大 さいだい 化 か するようなパラメータを求 もと める。M ステップで求 もと まったパラメータは、次 つぎ の E ステップで使 つか われる潜在 せんざい 変数 へんすう の分布 ぶんぷ を決定 けってい するために用 もち いられる。
今 いま 、2値 ち x 、z を取 と る確 かく 率 りつ 分布 ぶんぷ があり、その確 かく 率 りつ 分布 ぶんぷ の確 かく 率 りつ 密度 みつど 関数 かんすう
p
(
x
,
z
|
θ しーた
)
{\displaystyle p(x,z|\theta )}
が未知 みち の母 はは 数 すう
θ しーた
∈
R
m
{\displaystyle \theta \in \mathbb {R} ^{m}}
によりパラメトライズされているとする。ここで
R
{\displaystyle \mathbb {R} }
は実数 じっすう 全体 ぜんたい の集合 しゅうごう を表 あらわ す。
そして
p
(
x
,
z
|
θ しーた
)
{\displaystyle p(x,z|\theta )}
に従 したが って標本 ひょうほん
(
x
1
,
z
1
)
,
…
,
(
x
n
,
z
n
)
{\displaystyle (x_{1},z_{1}),\ldots ,(x_{n},z_{n})}
を独立 どくりつ に抽出 ちゅうしゅつ したものの、何 なん らかの事情 じじょう で
Z
=
(
z
1
,
…
,
z
n
)
{\displaystyle Z=(z_{1},\ldots ,z_{n})}
の値 ね は観測 かんそく できず、
X
=
(
x
1
,
…
,
x
n
)
{\displaystyle X=(x_{1},\ldots ,x_{n})}
だけが観測 かんそく できたとする。実 じつ 応用 おうよう 上 じょう は例 たと えば、
θ しーた
=
(
θ しーた
1
,
θ しーた
2
)
{\displaystyle \theta =(\theta _{1},\theta _{2})}
という形 かたち をしており、まず観測 かんそく 不能 ふのう な
z
i
∼
p
1
(
z
|
θ しーた
1
)
{\displaystyle z_{i}\sim p_{1}(z|\theta _{1})}
が選 えら ばれた後 のち 、
z
i
{\displaystyle z_{i}}
に依存 いぞん して観測 かんそく 可能 かのう な
x
i
∼
p
2
(
x
|
θ しーた
2
,
z
i
)
{\displaystyle x_{i}\sim p_{2}(x|\theta _{2},z_{i})}
が選 えら ばれる、といったケースにEMアルゴリズムが使 つか われる事 こと が多 おお いが、必 かなら ずしもこのケースにあてはまらなくてもよい。
簡単 かんたん の為 ため 、記号 きごう を混用 こんよう してX 、Z の同時 どうじ 確 かく 率 りつ 分布 ぶんぷ の確 かく 率 りつ 密度 みつど 関数 かんすう も
p
(
X
,
Z
|
θ しーた
)
{\displaystyle p(X,Z|\theta )}
と書 か く。以下 いか ではZ が離散 りさん 変数 へんすう の場合 ばあい について説明 せつめい するが、Z が連続 れんぞく 変数 へんすう の場合 ばあい も総和 そうわ を積分 せきぶん に置 お き換 か える以外 いがい は同様 どうよう である[ 3] 。
このような状況 じょうきょう において母 はは 数 すう θ しーた を最 さい 尤 ゆう 推定 すいてい する事 こと が我々 われわれ の目標 もくひょう である。しかしZ を知 し らない場合 ばあい の
X
=
(
x
1
,
…
,
x
n
)
{\displaystyle X=(x_{1},\ldots ,x_{n})}
に関 かん する対数 たいすう 尤 ゆう 度 ど
ℓ
(
θ しーた
|
X
)
:=
log
p
(
X
|
θ しーた
)
=
log
∑
Z
p
(
X
,
Z
|
θ しーた
)
{\displaystyle \ell (\theta |X):=\log p(X|\theta )=\log \sum _{Z}p(X,Z|\theta )}
を最大 さいだい 値 ち を直接 ちょくせつ 計算 けいさん するのは一般 いっぱん には簡単 かんたん ではない。
EMアルゴリズムは、反復 はんぷく 法 ほう により、数列 すうれつ
θ しーた
^
(
t
)
{\displaystyle {\hat {\theta }}^{(t)}}
で対数 たいすう 尤 ゆう 度 ど
ℓ
(
θ しーた
^
(
t
)
|
X
)
{\displaystyle \ell ({\hat {\theta }}^{(t)}|X)}
が単調 たんちょう 非 ひ 減少 げんしょう であるものを作 つく るアルゴリズムである。最 さい 尤 ゆう 推定 すいてい 量 りょう を
θ しーた
^
M
L
E
{\displaystyle {\hat {\theta }}_{\mathrm {MLE} }}
とすると、
ℓ
(
θ しーた
^
M
L
E
|
X
)
≥
ℓ
(
θ しーた
^
(
t
)
|
X
)
{\displaystyle \ell ({\hat {\theta }}_{\mathrm {MLE} }|X)\geq \ell ({\hat {\theta }}^{(t)}|X)}
である事 こと から、
ℓ
(
θ しーた
^
M
L
E
|
X
)
{\displaystyle \ell ({\hat {\theta }}_{\mathrm {MLE} }|X)}
が有限 ゆうげん であれば
ℓ
(
θ しーた
^
(
t
)
|
X
)
{\displaystyle \ell ({\hat {\theta }}^{(t)}|X)}
の単調 たんちょう 性 せい より
ℓ
(
θ しーた
^
(
t
)
|
X
)
{\displaystyle \ell ({\hat {\theta }}^{(t)}|X)}
は必 かなら ず収束 しゅうそく する 。
EMアルゴリズムでは、以下 いか の手順 てじゅん により数列 すうれつ
θ しーた
^
(
0
)
,
θ しーた
^
(
1
)
,
…
{\displaystyle {\hat {\theta }}^{(0)},{\hat {\theta }}^{(1)},\ldots }
を作 つく る[ 3] 。
初期 しょき 値 ち
θ しーた
^
(
0
)
{\displaystyle {\hat {\theta }}^{(0)}}
を(何 なん らかの方法 ほうほう で)選 えら ぶ。
t
=
0
,
1
,
…
{\displaystyle t=0,1,\ldots }
に対 たい して以下 いか を実行 じっこう する
E ステップ :
p
(
Z
|
X
,
θ しーた
^
(
t
)
)
{\displaystyle p(Z|X,{\hat {\theta }}^{(t)})}
を求 もと める。
M ステップ :
θ しーた
^
(
t
+
1
)
=
a
r
g
m
a
x
θ しーた
Q
(
θ しーた
|
θ しーた
^
(
t
)
)
{\displaystyle {\hat {\theta }}^{(t+1)}={\underset {\theta }{\operatorname {arg\,max} }}\ Q(\theta |{\hat {\theta }}^{(t)})\,}
を求 もと める。
ここでQ は対数 たいすう 尤 ゆう 度 ど 関数 かんすう
log
p
(
X
,
Z
|
θ しーた
)
{\displaystyle \log p(X,Z|\theta )}
のZ に関 かん する条件 じょうけん 付 つ き期待 きたい 値 ち
Q
(
θ しーた
|
θ しーた
(
t
)
)
:=
E
Z
|
X
,
θ しーた
^
(
t
)
[
log
p
(
X
,
Z
|
θ しーた
)
]
=
∑
Z
p
(
Z
|
X
,
θ しーた
^
(
t
)
)
log
p
(
X
,
Z
|
θ しーた
)
{\displaystyle Q(\theta |\theta ^{(t)}):=\operatorname {E} _{Z|X,{\hat {\theta }}^{(t)}}{\big [}\log p(X,Z|\theta ){\big ]}=\sum _{Z}p(Z|X,{\hat {\theta }}^{(t)})\log p(X,Z|\theta )\,}
である。実 じつ 応用 おうよう 上 じょう は、
θ しーた
^
(
t
)
{\displaystyle {\hat {\theta }}^{(t)}}
の値 ね が十分 じゅうぶん 小 ちい さくなったと判定 はんてい する何 なん らかの条件 じょうけん を事前 じぜん に定 さだ めておき、その条件 じょうけん を満 み たしたら上述 じょうじゅつ のループを終了 しゅうりょう する。ループを終了 しゅうりょう する条件 じょうけん は、パラメータ値 ち や対数 たいすう 尤 ゆう 度 ど 関数 かんすう を使 つか って定 さだ められる[ 3] 。
EステップとMステップの切 き れ目 め は書籍 しょせき により異 こと なるので注意 ちゅうい が必要 ひつよう である 。本 ほん 項 こう では次節 じせつ の議論 ぎろん と整合 せいごう 性 せい をとる為 ため に文献 ぶんけん [ 3] の切 き れ目 め に従 したが ったが、文献 ぶんけん [ 4] では
Q
(
θ しーた
|
θ しーた
^
(
t
)
)
{\displaystyle Q(\theta |{\hat {\theta }}^{(t)})}
を計算 けいさん する所 ところ までがEステップであり、
Q
(
θ しーた
|
θ しーた
^
(
t
)
)
{\displaystyle Q(\theta |{\hat {\theta }}^{(t)})}
の
a
r
g
m
a
x
{\displaystyle \operatorname {arg\,max} }
を取 と るところだけがMステップである。
ステップの名称 めいしょう 「E」と「M」はそれぞれExpectation(期待 きたい 値 ち )、Maximization(最大 さいだい 化 か )の略 りゃく であり[ 4] 、文献 ぶんけん [ 4] のようにEステップで
Q
(
θ しーた
|
θ しーた
^
(
t
)
)
{\displaystyle Q(\theta |{\hat {\theta }}^{(t)})}
を求 もと める為 ため に期待 きたい 値 ち を計算 けいさん し、Mステップで
Q
(
θ しーた
|
θ しーた
^
(
t
)
)
{\displaystyle Q(\theta |{\hat {\theta }}^{(t)})}
の
a
r
g
m
a
x
{\displaystyle \operatorname {arg\,max} }
を取 と るところに名称 めいしょう の由来 ゆらい がある。
EMアルゴリズムで我々 われわれ が求 もと めたいのは、
X
=
(
x
1
,
…
,
x
n
)
{\displaystyle X=(x_{1},\ldots ,x_{n})}
を観測 かんそく した際 さい における対数 たいすう 尤 ゆう 度 ど
ℓ
(
θ しーた
|
X
)
:=
log
p
(
X
|
θ しーた
)
{\displaystyle \ell (\theta |X):=\log p(X|\theta )}
を最大 さいだい 化 か する母 はは 数 すう
θ しーた
{\displaystyle \theta }
であった。EMアルゴリズムの動作 どうさ 原理 げんり を説明 せつめい する為 ため 、以下 いか のような汎 ひろし 関数 かんすう を考 かんが える:
L
(
q
,
θ しーた
)
:=
∑
Z
q
(
Z
)
log
p
(
X
,
Z
|
θ しーた
)
q
(
Z
)
{\displaystyle {\mathcal {L}}(q,\theta ):=\sum _{Z}q(Z)\log {p(X,Z|\theta ) \over q(Z)}}
...(Eq.1 )
ここで
q
(
Z
)
{\displaystyle q(Z)}
は任意 にんい の確 かく 率 りつ 密度 みつど 関数 かんすう である。
p
X
,
θ しーた
(
Z
)
:=
p
(
Z
|
X
,
θ しーた
)
{\displaystyle p_{X,\theta }(Z):=p(Z|X,\theta )}
とすると、
p
(
Z
|
X
,
θ しーた
)
p
(
X
|
θ しーた
)
=
p
(
X
,
Z
|
θ しーた
)
{\displaystyle p(Z|X,\theta )p(X|\theta )=p(X,Z|\theta )}
より、カルバック・ライブラー情報 じょうほう 量 りょう
K
L
(
q
|
|
p
X
,
θ しーた
)
=
−
∑
Z
q
(
Z
)
log
p
(
Z
|
X
,
θ しーた
)
q
(
Z
)
{\displaystyle \mathrm {KL} (q||p_{X,\theta })=-\sum _{Z}q(Z)\log {p(Z|X,\theta ) \over q(Z)}}
を使 つか って
L
(
q
,
θ しーた
)
=
ℓ
(
θ しーた
|
X
)
−
K
L
(
q
|
|
p
X
,
θ しーた
)
{\displaystyle {\mathcal {L}}(q,\theta )=\ell (\theta |X)-\mathrm {KL} (q||p_{X,\theta })}
...(Eq.2 )
と書 か ける事 こと が分 わ かる。カルバック・ライブラー情報 じょうほう 量 りょう が常 つね に非負 ひふ である事 こと (ギブスの不等式 ふとうしき )から、
ℓ
(
θ しーた
|
X
)
≥
L
(
q
,
θ しーた
)
{\displaystyle \ell (\theta |X)\geq {\mathcal {L}}(q,\theta )}
であるので、
L
(
q
,
θ しーた
)
{\displaystyle {\mathcal {L}}(q,\theta )}
は
ℓ
(
θ しーた
|
X
)
{\displaystyle \ell (\theta |X)}
の下限 かげん になっている。EMアルゴリズムはこの下限 かげん
L
(
q
,
θ しーた
)
{\displaystyle {\mathcal {L}}(q,\theta )}
を逐次 ちくじ 的 てき に改善 かいぜん していくことで、
ℓ
(
θ しーた
|
X
)
{\displaystyle \ell (\theta |X)}
を可能 かのう な限 かぎ り最大 さいだい 化 か するアルゴリズムである。すなわち、EステップとMステップは以下 いか のように書 か き換 か えられる事 こと を示 しめ す事 こと ができる[ 3] :
E ステップ :
q
^
(
t
)
=
a
r
g
m
a
x
q
L
(
q
,
θ しーた
^
(
t
)
)
{\displaystyle {\hat {q}}^{(t)}={\underset {q}{\operatorname {arg\,max} }}{\mathcal {L}}(q,{\hat {\theta }}^{(t)})}
を求 もと める。
M ステップ :
θ しーた
^
(
t
+
1
)
=
a
r
g
m
a
x
θ しーた
L
(
q
^
(
t
)
,
θ しーた
)
{\displaystyle {\hat {\theta }}^{(t+1)}={\underset {\theta }{\operatorname {arg\,max} }}{\mathcal {L}}({\hat {q}}^{(t)},\theta )}
を求 もと める。
この事実 じじつ から対数 たいすう 尤 ゆう 度 ど
ℓ
(
θ しーた
^
(
t
)
|
X
)
{\displaystyle \ell ({\hat {\theta }}^{(t)}|X)}
の単調 たんちょう 非 ひ 減少 げんしょう 性 せい が明 あき らかに従 したが う。
(但 ただ し反復 はんぷく 法 ほう の常 つね として、初期 しょき 値 ち しだいでは尤 ゆう 度 ど の最大 さいだい 点 てん ではない極大 きょくだい 点 てん に到達 とうたつ してそこで停止 ていし する可能 かのう 性 せい がある。)
本節 ほんぶし ではEステップ、Mステップが上述 じょうじゅつ のように書 か き換 か えられることを示 しめ す。本節 ほんぶし の証明 しょうめい は文献 ぶんけん [ 3] を参考 さんこう にした。
カルバック・ライブラー情報 じょうほう 量 りょう
K
L
(
q
|
|
p
X
,
θ しーた
)
{\displaystyle \mathrm {KL} (q||p_{X,\theta })}
が最小 さいしょう 値 ち 0になるのは
q
=
p
θ しーた
,
X
{\displaystyle q=p_{\theta ,X}}
の場合 ばあい だけであった事 こと から、(Eq.2 )より
L
(
q
,
θ しーた
)
{\displaystyle {\mathcal {L}}(q,\theta )}
は
q
(
Z
)
=
p
(
Z
|
X
,
θ しーた
)
{\displaystyle q(Z)=p(Z|X,\theta )}
が満 み たされる場合 ばあい に最大 さいだい 値 ち を取 と る。すなわちEMアルゴリズムにおけるEステップは、
θ しーた
=
θ しーた
^
(
t
)
{\displaystyle \theta ={\hat {\theta }}^{(t)}}
を固定 こてい したままの状態 じょうたい で、
L
(
q
,
θ しーた
)
{\displaystyle {\mathcal {L}}(q,\theta )}
を最大 さいだい 化 か する
q
{\displaystyle q}
である
q
^
(
t
)
:=
p
X
,
θ しーた
^
(
t
)
=
a
r
g
m
a
x
q
L
(
q
,
θ しーた
^
(
t
)
)
{\displaystyle {\hat {q}}^{(t)}:=p_{X,{\hat {\theta }}^{(t)}}={\underset {q}{\operatorname {arg\,max} }}{\mathcal {L}}(q,{\hat {\theta }}^{(t)})}
を求 もと めるステップである。
L
(
q
,
θ しーた
)
{\displaystyle {\mathcal {L}}(q,\theta )}
の定義 ていぎ 式 しき (Eq.1 )に
q
^
(
t
)
=
p
X
,
θ しーた
^
(
t
)
{\displaystyle {\hat {q}}^{(t)}=p_{X,{\hat {\theta }}^{(t)}}}
を代入 だいにゅう すると、
L
(
q
^
(
t
)
,
θ しーた
)
=
∑
Z
p
(
Z
|
X
,
θ しーた
(
t
)
)
log
p
(
X
,
Z
|
θ しーた
)
p
(
Z
|
X
,
θ しーた
(
t
)
)
=
Q
(
θ しーた
|
θ しーた
(
t
)
)
−
H
X
,
θ しーた
(
t
)
(
Z
)
{\displaystyle {\mathcal {L}}({\hat {q}}^{(t)},\theta )=\sum _{Z}p(Z|X,\theta ^{(t)})\log {p(X,Z|\theta ) \over p(Z|X,\theta ^{(t)})}=Q(\theta |\theta ^{(t)})-H_{X,\theta ^{(t)}}(Z)}
が成立 せいりつ し(ここで
H
X
,
θ しーた
(
t
)
(
Z
)
=
∑
Z
p
(
Z
|
X
,
θ しーた
(
t
)
)
log
p
(
Z
|
X
,
θ しーた
(
t
)
)
{\displaystyle H_{X,\theta ^{(t)}}(Z)=\textstyle \sum _{Z}p(Z|X,\theta ^{(t)})\log p(Z|X,\theta ^{(t)})}
は条件 じょうけん 付 つ きエントロピー )、上 うえ 式 しき 右辺 うへん 第 だい 二 に 項 こう はθ しーた に依存 いぞん しないので、
θ しーた
^
(
t
+
1
)
=
a
r
g
m
a
x
θ しーた
Q
(
θ しーた
|
θ しーた
^
(
t
)
)
=
a
r
g
m
a
x
θ しーた
L
(
p
X
,
θ しーた
^
(
t
)
,
θ しーた
)
{\displaystyle {\hat {\theta }}^{(t+1)}={\underset {\theta }{\operatorname {arg\,max} }}Q(\theta |{\hat {\theta }}^{(t)})={\underset {\theta }{\operatorname {arg\,max} }}{\mathcal {L}}(p_{X,{\hat {\theta }}^{(t)}},\theta )}
が成立 せいりつ する。
EMアルゴリズムは観測 かんそく データの対数 たいすう 尤 ゆう 度 ど を、E ステップとM ステップの繰 く り返 かえ しにより最大 さいだい 化 か するアルゴリズムであるので、正確 せいかく にはlog-EMアルゴリズムというべきものである。log関数 かんすう にはα あるふぁ -logとよばれる一般 いっぱん 化 か された対数 たいすう があるので、それを用 もち いるとlog-EMを特例 とくれい として含 ふく むアルゴリズムを作 つく り上 あ げることができる。ただし、この場合 ばあい は尤 ゆう 度 ど ではなくてα あるふぁ -log尤 ゆう 度 ど 比 ひ とα あるふぁ ダイバージェンスを用 もち いて基本 きほん 等式 とうしき を導 みちび くことになる。このようにして得 え られたものがα あるふぁ -EMアルゴリズム [ 5] であり、log-EMアルゴリズムをサブクラスとして含 ふく んでいる。α あるふぁ -EMアルゴリズムは適切 てきせつ なα あるふぁ を選 えら ぶことにより、log-EMアルゴリズムよりも高速 こうそく になる。また、log-EMが隠 かく れマルコフモデル推定 すいてい アルゴリズム(Baum-Welchアルゴリズム)を含 ふく んでいるように、α あるふぁ -EMアルゴリズムから高速 こうそく なα あるふぁ -HMMアルゴリズムを得 え ることができる。 [ 6]
EMアルゴリズムは、アーサー・デンプスター (英語 えいご 版 ばん ) 、ナン・レアード (英語 えいご 版 ばん ) 、ドナルド・ルービン による1977年 ねん の論文 ろんぶん [ 7] で導入 どうにゅう され、その名 な が付 つ けられた。彼 かれ らは、EMアルゴリズムがほかの複数 ふくすう の著者 ちょしゃ によって「特殊 とくしゅ な文脈 ぶんみゃく でなんども提案 ていあん されてきた」("proposed many times in special circumstances") ことを述 の べた上 うえ で、EMアルゴリズムの一般 いっぱん 化 か を行 おこな い、その背後 はいご にある理論 りろん を追求 ついきゅう した。
本来 ほんらい のEMアルゴリズムでは、期待 きたい 値 ち の評価 ひょうか において潜在 せんざい 変数 へんすう のとりうる値 ね すべてを列挙 れっきょ することが必要 ひつよう なため、効率 こうりつ 的 てき に扱 あつか える分布 ぶんぷ が限 かぎ られていた。しかしその後 ご 、マルコフ連鎖 れんさ モンテカルロ法 ほう や変 へん 分 ぶん ベイズ法 ほう (英語 えいご 版 ばん ) が考案 こうあん されたことにより、より一般 いっぱん の分布 ぶんぷ でも現実 げんじつ 的 てき な時間 じかん での計算 けいさん が可能 かのう になった。
^ a b c d e f #PRML pp.156, 164-171
^ a b c #ESL pp.316-317.
^ Matsuyama, Yasuo (2003). “The α あるふぁ -EM algorithm: Surrogate likelihood maximization using α あるふぁ -logarithmic information measures”. IEEE Transactions on Information Theory 49 (3): 692-706.
^ Matsuyama, Yasuo (2011). “Hidden Markov model estimation based on alpha-EM algorithm: Discrete and continuous alpha-HMMs”. International Joint Conference on Neural Networks : 808-816.
^ Dempster, A.P., Laird, N.M., Rubin, D.B., (1977). “Maximum Likelihood from Incomplete Data via the EM Algorithm”. Journal of the Royal Statistical Society . Series B (Methodological) 39 (1): 1–38. JSTOR2984875 . MR 0501537 .
Robert Hogg, Joseph McKean and Allen Craig. Introduction to Mathematical Statistics . pp. 359-364. Upper Saddle River, NJ: Pearson Prentice Hall, 2005.
The on-line textbook: Information Theory, Inference, and Learning Algorithms , by David J.C. MacKay includes simple examples of the E-M algorithm such as clustering using the soft K-means algorithm, and emphasizes the variational view of the E-M algorithm.
A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models , by Jeff Bilmes includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.
Variational Algorithms for Approximate Bayesian Inference , by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs.
The Expectation Maximization Algorithm , by Frank Dellaert, gives an easier explanation of EM algorithm in terms of lowerbound maximization.
The Expectation Maximization Algorithm: A short tutorial , A self contained derivation of the EM Algorithm by Sean Borman.
The EM Algorithm , by Xiaojin Zhu.
Geoffrey J. McLachlan and Thriyambakam Krishnan: "The EM Algorithm and Extensions", Wiley series in probability and statistics, John Wiley & Sons, Inc., ISBN 0-471-12358-7 (1997).
Geoffrey J. McLachlan and Thriyambakam Krishnan:"The EM Algorithm and Extensions", 2nd Edition, Wiley & Sons Inc., ISBN 978-0-471-20170-0 (February 2008). 上記 じょうき の改訂 かいてい 第 だい 2版 はん 。
小西 こにし 貞 さだ 則 そく ・越智 おち 義道 よしみち ・大森 おおもり 裕 ひろし 浩 ひろし :「計算 けいさん 統計 とうけい 学 がく の方法 ほうほう ―ブートストラップ,EMアルゴリズム,MCMC―」、朝倉書店 あさくらしょてん (シリーズ:予測 よそく と発見 はっけん の科学 かがく 、5)、ISBN 978-4-254-12785-0 、2008年 ねん 3月 がつ 25日 にち 。
関原 せきはら 謙介 けんすけ :「ベイズ信号 しんごう 処理 しょり 」、共立 きょうりつ 出版 しゅっぱん 、ISBN 978-4-320-08574-9 、2015年 ねん 4月 がつ 。
関原 せきはら 謙介 けんすけ :「ベイズ推論 すいろん の基礎 きそ と信号 しんごう 処理 しょり への応用 おうよう 」
Kenneth Lange: "MM Optimization Algorithms", SIAM, ISBN 978-1-611974-39-3 (2016). ※ "MM algorithm " は "EM" アルゴリズムの一般 いっぱん 化 か として提唱 ていしょう されている.
黒田 くろだ 正博 まさひろ :「EMアルゴリズム」、共立 きょうりつ 出版 しゅっぱん (シリーズ:統計 とうけい 学 がく One Point、18巻 かん )、ISBN 978-4-320-11269-8 、2020年 ねん 07月 がつ 31日 にち 。