オートエンコーダ

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

オートエンコーダ自己じこ符号ふごうえい: autoencoder)とは、機械きかい学習がくしゅうにおいて、ニューラルネットワーク使用しようした次元じげん圧縮あっしゅくのためのアルゴリズム2006ねんジェフリー・ヒントンらが提案ていあんした[1]

概要がいよう[編集へんしゅう]

オートエンコーダは3そうニューラルネットにおいて、入力にゅうりょくそう出力しゅつりょくそうおなじデータをもちいて教師きょうしなし学習がくしゅうさせたものである。教師きょうしデータがじつ数値すうち値域ちいきがない場合ばあい出力しゅつりょくそう活性かっせい関数かんすう恒等こうとう写像しゃぞう、(すなわち出力しゅつりょくそう線形せんけい変換へんかんになる)がえらばれることがおおい。中間なかまそう活性かっせい関数かんすう恒等こうとう写像しゃぞうえらぶと結果けっか主成分しゅせいぶん分析ぶんせきとほぼ一致いっちする。実用じつようじょうでは、入力にゅうりょく出力しゅつりょく差分さぶんをとることで、異常いじょう検知けんち利用りようされている。

特性とくせい限界げんかい[編集へんしゅう]

オートエンコーダは次元じげん圧縮あっしゅく必要ひつよう特性とくせいゆうするように設計せっけいされている。

オートエンコーダはちゅうあいだそう次元じげんすう 入出力にゅうしゅつりょくそう次元じげんすう よりちいさいように制約せいやくされている。なぜなら 場合ばあい、オートエンコーダは恒等こうとう変換へんかんのみでさい構成こうせい誤差ごさゼロを達成たっせいできてしまう[2]

オートエンコーダは次元じげん圧縮あっしゅく実現じつげんするが、これは表現ひょうげん学習がくしゅうかならずしも意味いみしない[3]ちいさくすることで入力にゅうりょくちゅう情報じょうほうりょうおおい(より少量しょうりょう画像がぞうさい構成こうせいできる)特徴とくちょうのみが保存ほぞんされると期待きたいされるが(c.f. 可逆かぎゃく圧縮あっしゅく)、これが特徴とくちょうりょうとしてすぐれているとは一概いちがいえない。

理論りろん[編集へんしゅう]

AEがさい構成こうせいおよび次元じげん圧縮あっしゅく学習がくしゅうできる理由りゆう理論りろんてき解析かいせきされている。

オートエンコーダネットワーク はエンコーダネットワーク とデコーダネットワーク からなる。決定けっていろんてき解釈かいしゃくにおいてAEは「さい構成こうせいされた入力にゅうりょく」を直接ちょくせつ出力しゅつりょくする。すなわち である。

確率かくりつろんてき解釈かいしゃく[編集へんしゅう]

AEはかくりつモデル観点かんてんから深層しんそう潜在せんざい変数へんすうモデル一種いっしゅとみなせ、つぎのように定式ていしきできる:

すなわち 分布ぶんぷパラメータ 出力しゅつりょく分布ぶんぷかいして られると解釈かいしゃくできる[4][5]。AEではエンコーダが決定けっていろんてき振舞ふるまうため、写像しゃぞう条件じょうけんかくりつ分布ぶんぷデルタ関数かんすう )で表現ひょうげんされる。決定けっていろんてき性質せいしつより 集約しゅうやくして表現ひょうげんするとAEはつぎ確率かくりつろんてき表現ひょうげんあらわされる:

AEの学習がくしゅうには平均へいきんじょう誤差ごさ(MSE, L2)をはじめ様々さまざま損失そんしつ関数かんすうが(決定けっていろんてき視点してんから)経験けいけんてき使つかわれている。これは経験けいけんてきなものであって学習がくしゅう収束しゅうそく保証ほしょうがあるとはかぎらない。理論りろんてき研究けんきゅうにより、いくつかの損失そんしつ関数かんすうでは 特定とくてい分布ぶんぷ設定せっていしたinfomax学習がくしゅうとして定式ていしきできることがわかっている。

固定こてい分散ぶんさん正規せいき分布ぶんぷモデル[編集へんしゅう]

分散ぶんさん固定こていされた正規せいき分布ぶんぷ 」をかんがえるとまけ対数たいすうゆう 以下いかになる:

これは じょう誤差ごさ解釈かいしゃくできる。すなわち、 のNLL最小さいしょうじょう誤差ごさ最小さいしょう同等どうとうとみなせる[6]換言かんげんすれば、二乗にじょう誤差ごさ学習がくしゅうされたオートエンコーダモデルは「さいゆう推定すいていされた固定こてい分散ぶんさん正規せいき分布ぶんぷ からのさいしきサンプリングモデル」であるとみなせる。

派生はせい[編集へんしゅう]

オートエンコーダには様々さまざま変種へんしゅ派生はせいモデルが存在そんざいする。以下いかはそのいちれいである:

スパース・オートエンコーダ[編集へんしゅう]

スパース・オートエンコーダえい: sparse autoencoder)とは、フィードフォワードニューラルネットワークの学習がくしゅうにおいてひろし能力のうりょくたかめるため、正則せいそくこう追加ついかしたオートエンコーダのこと。ただし、ネットワークのおもみではなく、中間なかまそう自体じたいを0にちかづける。

Stacked autoencoder[編集へんしゅう]

バックプロパゲーションでは通常つうじょう中間なかまそうが2そう以上いじょうある場合ばあい極小きょくしょうかい収束しゅうそくしてしまう。そこで、中間なかまそう1そうだけでオートエンコーダをつくって学習がくしゅうさせる。つぎに、中間なかまそう入力にゅうりょくそうなしてもう1そうげる。これをかえして多層たそうしたオートエンコーダをつくる方法ほうほうをstacked autoencoderとう。

Denoising AutoEncoder[編集へんしゅう]

入力にゅうりょくそうのデータにノイズをくわえて学習がくしゅうさせたもの。制約せいやくボルツマンマシン結果けっかがほぼ一致いっちする。ノイズはかくりつ分布ぶんぷ既知きちであればそれにしたがったほうがいが、未知みちである場合ばあい一様いちよう分布ぶんぷい。

類似るいじ技術ぎじゅつ[編集へんしゅう]

脚注きゃくちゅう[編集へんしゅう]

出典しゅってん[編集へんしゅう]

  1. ^ Geoffrey E. Hinton; R. R. Salakhutdinov (2006-07-28). “Reducing the Dimensionality of Data with Neural Networks”. Science 313 (5786): 504-507. https://www.cs.toronto.edu/~hinton/absps/science.pdf. 
  2. ^ "autoencoder where Y is of the same dimensionality as X (or larger) can achieve perfect reconstruction simply by learning an identity mapping." Vincent. (2010). Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion.
  3. ^ "The criterion that representation Y should retain information about input X is not by itself sufficient to yield a useful representation." Vincent. (2010). Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion.
  4. ^ "a deterministic mapping from X to Y, that is, ... equivalently ... The deterministic mapping that transforms an input vector into hidden representation is called the encoder." Vincent. (2010). Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion.
  5. ^ ". This mapping is called the decoder. ... In general is not to be interpreted as an exact reconstruction of , but rather in probabilistic terms as the parameters (typically the mean) of a distribution " Vincent. (2010). Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion.
  6. ^ " is called the decoder ... ... associated loss function ... ... This yields ... This is the squared error objective found in most traditional autoencoders." Vincent. (2010). Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion.