(Translated by https://www.hiragana.jp/)
EMアルゴリズム - Wikipedia

EMアルゴリズムえい: expectation–maximization algorithm)とは、統計とうけいがくにおいて、かくりつモデルのパラメータをさいゆう推定すいていする手法しゅほうひとつであり、観測かんそく不可能ふかのう潜在せんざい変数へんすうかくりつモデルが依存いぞんする場合ばあいもちいられる。EMほう期待きたい最大さいだいほう(きたいちさいだいかほう)[1][2]ともばれる。その一般いっぱんせいたかさから、機械きかい学習がくしゅう音声おんせい認識にんしき因子いんし分析ぶんせきなど、広汎こうはん応用おうようがある[1]

EMアルゴリズムは反復はんぷくほう一種いっしゅであり、期待きたい(えい: expectation, E) ステップと最大さいだい (えい: maximization, M)ステップを交互こうごかえすことで計算けいさん進行しんこうする。Eステップでは、現在げんざい推定すいていされている潜在せんざい変数へんすう分布ぶんぷもとづいて、モデルのゆう期待きたい計算けいさんする。Mステップでは、E ステップでもとまったゆう期待きたい最大さいだいするようなパラメータをもとめる。M ステップでもとまったパラメータは、つぎの E ステップで使つかわれる潜在せんざい変数へんすう分布ぶんぷ決定けっていするためにもちいられる。

概要がいよう

編集へんしゅう

セッティング・目標もくひょう

編集へんしゅう

いま、2xzかくりつ分布ぶんぷがあり、そのかくりつ分布ぶんぷかくりつ密度みつど関数かんすう 未知みちははすう によりパラメトライズされているとする。ここで 実数じっすう全体ぜんたい集合しゅうごうあらわす。

そして したがって標本ひょうほん 独立どくりつ抽出ちゅうしゅつしたものの、なんらかの事情じじょう 観測かんそくできず、 だけが観測かんそくできたとする。じつ応用おうようじょうたとえば、 というかたちをしており、まず観測かんそく不能ふのう えらばれたのち 依存いぞんして観測かんそく可能かのう えらばれる、といったケースにEMアルゴリズムが使つかわれることおおいが、かならずしもこのケースにあてはまらなくてもよい。


簡単かんたんため記号きごう混用こんようしてXZ同時どうじかくりつ分布ぶんぷかくりつ密度みつど関数かんすう く。以下いかではZ離散りさん変数へんすう場合ばあいについて説明せつめいするが、Z連続れんぞく変数へんすう場合ばあい総和そうわ積分せきぶんえる以外いがい同様どうようである[3]

このような状況じょうきょうにおいてははすうθしーたさいゆう推定すいていすること我々われわれ目標もくひょうである。しかしZらない場合ばあい かんする対数たいすうゆう

 

最大さいだい直接ちょくせつ計算けいさんするのは一般いっぱんには簡単かんたんではない。

EMアルゴリズムは、反復はんぷくほうにより、数列すうれつ 対数たいすうゆう 単調たんちょう減少げんしょうであるものをつくるアルゴリズムである。さいゆう推定すいていりょう とすると、

 

であることから、 有限ゆうげんであれば 単調たんちょうせいより かなら収束しゅうそくする

アルゴリズム

編集へんしゅう

EMアルゴリズムでは、以下いか手順てじゅんにより数列すうれつ つく[3]

  • 初期しょき を(なんらかの方法ほうほうで)えらぶ。
  •  たいして以下いか実行じっこうする
    • E ステップ:  もとめる。
    • M ステップ:  もとめる。

ここでQ対数たいすうゆう関数かんすう Zかんする条件じょうけん期待きたい

   

である。じつ応用おうようじょうは、 十分じゅうぶんちいさくなったと判定はんていするなんらかの条件じょうけん事前じぜんさだめておき、その条件じょうけんたしたら上述じょうじゅつのループを終了しゅうりょうする。ループを終了しゅうりょうする条件じょうけんは、パラメータ対数たいすうゆう関数かんすう使つかってさだめられる[3]

留意りゅういてん

編集へんしゅう

EステップとMステップの書籍しょせきによりことなるので注意ちゅうい必要ひつようであるほんこうでは次節じせつ議論ぎろん整合せいごうせいをとるため文献ぶんけん[3]したがったが、文献ぶんけん[4]では 計算けいさんするところまでがEステップであり、  るところだけがMステップである。

ステップの名称めいしょう「E」と「M」はそれぞれExpectation(期待きたい)、Maximization(最大さいだい)のりゃくであり[4]文献ぶんけん[4]のようにEステップで もとめるため期待きたい計算けいさんし、Mステップで  るところに名称めいしょう由来ゆらいがある。

動作どうさ原理げんり

編集へんしゅう

EMアルゴリズムで我々われわれもとめたいのは、 観測かんそくしたさいにおける対数たいすうゆう

 

最大さいだいするははすう であった。EMアルゴリズムの動作どうさ原理げんり説明せつめいするため以下いかのようなひろし関数かんすうかんがえる:

   ...(Eq.1)

ここで 任意にんいかくりつ密度みつど関数かんすうである。 とすると、 より、カルバック・ライブラー情報じょうほうりょう

  

使つかって

  ...(Eq.2)

けることかる。カルバック・ライブラー情報じょうほうりょうつね非負ひふであることギブスの不等式ふとうしき)から、

  

であるので、  下限かげんになっている。EMアルゴリズムはこの下限かげん 逐次ちくじてき改善かいぜんしていくことで、 可能かのうかぎ最大さいだいするアルゴリズムである。すなわち、EステップとMステップは以下いかのようにえられることしめことができる[3]

  • E ステップ:  もとめる。
  • M ステップ:  もとめる。

この事実じじつから対数たいすうゆう 単調たんちょう減少げんしょうせいあきらかにしたがう。 (ただ反復はんぷくほうつねとして、初期しょきしだいではゆう最大さいだいてんではない極大きょくだいてん到達とうたつしてそこで停止ていしする可能かのうせいがある。)

証明しょうめい

編集へんしゅう

本節ほんぶしではEステップ、Mステップが上述じょうじゅつのようにえられることをしめす。本節ほんぶし証明しょうめい文献ぶんけん[3]参考さんこうにした。

Eステップの証明しょうめい

編集へんしゅう

カルバック・ライブラー情報じょうほうりょう 最小さいしょう0になるのは 場合ばあいだけであったことから、(Eq.2)より 

  

たされる場合ばあい最大さいだいる。すなわちEMアルゴリズムにおけるEステップは、 固定こていしたままの状態じょうたいで、 最大さいだいする である

  

もとめるステップである。

Mステップの証明しょうめい

編集へんしゅう

 定義ていぎしき(Eq.1)に 代入だいにゅうすると、

  

成立せいりつし(ここで 条件じょうけんきエントロピー)、うえしき右辺うへんだいこうθしーた依存いぞんしないので、

  

成立せいりつする。

一般いっぱん

編集へんしゅう

EMアルゴリズムは観測かんそくデータの対数たいすうゆうを、E ステップとM ステップのかえしにより最大さいだいするアルゴリズムであるので、正確せいかくにはlog-EMアルゴリズムというべきものである。log関数かんすうにはαあるふぁ-logとよばれる一般いっぱんされた対数たいすうがあるので、それをもちいるとlog-EMを特例とくれいとしてふくむアルゴリズムをつくげることができる。ただし、この場合ばあいゆうではなくてαあるふぁ-logゆうαあるふぁダイバージェンスをもちいて基本きほん等式とうしきみちびくことになる。このようにしてられたものがαあるふぁ-EMアルゴリズム [5] であり、log-EMアルゴリズムをサブクラスとしてふくんでいる。αあるふぁ-EMアルゴリズムは適切てきせつαあるふぁえらぶことにより、log-EMアルゴリズムよりも高速こうそくになる。また、log-EMがかくれマルコフモデル推定すいていアルゴリズム(Baum-Welchアルゴリズム)をふくんでいるように、αあるふぁ-EMアルゴリズムから高速こうそくαあるふぁ-HMMアルゴリズムをることができる。 [6]

EMアルゴリズムは、アーサー・デンプスター英語えいごばんナン・レアード英語えいごばんドナルド・ルービンによる1977ねん論文ろんぶん[7]導入どうにゅうされ、そのけられた。かれらは、EMアルゴリズムがほかの複数ふくすう著者ちょしゃによって「特殊とくしゅ文脈ぶんみゃくでなんども提案ていあんされてきた」("proposed many times in special circumstances") ことをべたうえで、EMアルゴリズムの一般いっぱんおこない、その背後はいごにある理論りろん追求ついきゅうした。

本来ほんらいのEMアルゴリズムでは、期待きたい評価ひょうかにおいて潜在せんざい変数へんすうのとりうるすべてを列挙れっきょすることが必要ひつようなため、効率こうりつてきあつかえる分布ぶんぷかぎられていた。しかしそのマルコフ連鎖れんさモンテカルロほうへんぶんベイズほう英語えいごばん考案こうあんされたことにより、より一般いっぱん分布ぶんぷでも現実げんじつてき時間じかんでの計算けいさん可能かのうになった[1][8]

脚注きゃくちゅう

編集へんしゅう
  1. ^ a b c 計算けいさん統計とうけいI, p. 130.
  2. ^ 計算けいさん統計とうけいI, p. 157.
  3. ^ a b c d e f #PRML pp.156, 164-171
  4. ^ a b c #ESL pp.316-317.
  5. ^ Matsuyama, Yasuo (2003). “The αあるふぁ-EM algorithm: Surrogate likelihood maximization using αあるふぁ-logarithmic information measures”. IEEE Transactions on Information Theory 49 (3): 692-706. 
  6. ^ Matsuyama, Yasuo (2011). “Hidden Markov model estimation based on alpha-EM algorithm: Discrete and continuous alpha-HMMs”. International Joint Conference on Neural Networks: 808-816. 
  7. ^ Dempster, A.P., Laird, N.M., Rubin, D.B., (1977). “Maximum Likelihood from Incomplete Data via the EM Algorithm”. Journal of the Royal Statistical Society. Series B (Methodological) 39 (1): 1–38. JSTOR2984875. MR0501537. 
  8. ^ 計算けいさん統計とうけいI, p. 163.

参考さんこう文献ぶんけん

編集へんしゅう

引用いんよう文献ぶんけん

編集へんしゅう

その参考さんこう文献ぶんけん

編集へんしゅう