自己じこ組織そしき化か写像しゃぞう

自己じこ組織そしき化か写像しゃぞう（じこそしきかしゃぞう、英えい: Self-organizing maps, SOM, Self-organizing feature maps, SOFM）はニューラルネットワークの一種いっしゅであり、大脳皮質だいのうひしつの視覚しかく野のをモデル化かしたものである。自己じこ組織そしき化か写像しゃぞうはコホネンによって提案ていあんされたモデルであり、教師きょうしなし学習がくしゅうによって入力にゅうりょくデータを任意にんいの次元じげんへ写像しゃぞうすることができる。主おもに1～3次元じげんへの写像しゃぞうに用もちいられ、多次元たじげんのデータの可視かし化かが可能かのうである。出力しゅつりょくとなる空間くうかんをマップ (map)、競合きょうごう層そう (competitive layer)、もしくは出力しゅつりょく層そう (output layer) と呼よぶ。出力しゅつりょく層そうに対たいして入力にゅうりょくデータの空間くうかんを入力にゅうりょく層そう(input layer)と呼よぶこともある。自己じこ組織そしき化か写像しゃぞうはコホネンマップ (Kohonen map)、コホネンネットワーク (Kohonen network)、自己じこ組織そしき化かマップ、ソム (SOM) などと呼よぶこともある。

自己じこ組織そしき化か写像しゃぞうは複数ふくすうの人工じんこうニューロンが接続せつぞくされた構造こうぞうである。この人工じんこうニューロンはノード (node)、もしくはユニット (unit) と呼よぶこともある。

定性的ていせいてき紹介しょうかい[編集へんしゅう]

自己じこ組織そしき化か写像しゃぞうは入力にゅうりょく層そうと競合きょうごう層そう（出力しゅつりょく層そう）からなる2層そう構造こうぞうの教師きょうしなし学習がくしゅうニューラルネットワークである。入力にゅうりょく層そうは単たんに入力にゅうりょくを与あたえるだけであるため、競合きょうごう層そうのみを単たんに自己じこ組織そしき化か写像しゃぞうと呼よぶこともある。

入力にゅうりょくは $n$ 次元じげんの数値すうちデータであり、出力しゅつりょくは競合きょうごう層そうに配置はいちされたノードとなる。各かくノードは $m$ 次元じげん空間くうかん上じょうに配置はいちされ、それぞれのノードに入力にゅうりょくデータの次元じげんと同おなじ次元じげんのベクトルが対応付たいおうづけられている。この対応付たいおうづけられたベクトルのことを重おもみベクトルと呼よび、この重おもみベクトルを更新こうしんすることで学習がくしゅうが行おこなわれる。

競合きょうごう層そうのノード配置はいちの次元じげんは自由じゆうに設定せっていできる。最もっとも基本きほん的てきな利用りよう法ほうは、2次元じげん上じょうにノードを配置はいちし、高次こうじ元もとデータを学習がくしゅうさせることで高次こうじ元もとデータの関係かんけい性せいを可視かし化かするというものである。このように、自己じこ組織そしき化か写像しゃぞうは高こう次元じげんのデータ間あいだに存在そんざいする非線形ひせんけいな関係かんけいを簡単かんたんに幾何きか学がく的てき関係かんけいを持もつ像ぞうに変換へんかんすることができる。

現在げんざい、自己じこ組織そしき化か写像しゃぞうには様々さまざまなバリエーションがあり、従来じゅうらいの自己じこ組織そしき化か写像しゃぞうを基本きほんSOM (Basic SOM, BSOM) と呼よぶことがある。しかし、BSOMという略りゃくし方かたは後述こうじゅつするバッチ学習がくしゅうSOM (Batch Learning SOM, BL-SOM) と混同こんどうしかねないため望のぞましくない。

基本きほんSOMの算法さんぽう[編集へんしゅう]

前提ぜんてい[編集へんしゅう]

ネットワークにおける実際じっさいの学習がくしゅうはベクトル量子りょうし化かを参考さんこうにしている。技術ぎじゅつ的てきには「教師きょうし（監督かんとく）なし学習がくしゅう」とはいうものの、「我々われわれには望のぞんだ結果けっかがある」という点てんで「監督かんとく」がついている（SOMにおいては、BMUの選定せんていがそれ。算法さんぽう参照さんしょう）。

もうすこし算法さんぽうをみていこう。10×10の人工じんこうニューロン（以下いか「ノード」）の配列はいれつを作つくる（「競合きょうごう層そう」）。それぞれのノードには一ひとつずつの重おもみベクトルがあり、自分じぶんの「物理ぶつり的てきな位置いち」について全智ぜんちである（つまり、配列はいれつの添字そえじを自分じぶん自身じしんが知しっている）。各かくノードが持もつ重おもみベクトルの成分せいぶんは入力にゅうりょくベクトル（後述こうじゅつ）と同おなじ次元じげんを持もつ。それらの重おもみベクトルの内容ないようは初期しょき化か時じにランダマイズされることによく注意ちゅういして欲ほしい。

さて、ここでマップへの入力にゅうりょくを用意よういする。通例つうれいに倣ならって、色いろを表現ひょうげんするベクトルを三みっつ作つくろう。計算けいさん機き科学かがくの世界せかいでは、色いろは赤あか、緑みどり、青あおの三みっつの要素ようそで表現ひょうげんできる。従したがって、入力にゅうりょくベクトルは3要素ようそを持もち（3次元じげんベクトルである）、一ひとつ一ひとつのベクトルには色いろ空間くうかんの中なかに対応たいおう点てんがある。

R = <255, 0, 0>
G = <0, 255, 0>
B = <0, 0, 255>

変数へんすう[編集へんしゅう]

ベクトルは太字ふとじで表あらわす。

t = 現在げんざいの繰くり返かえし回数かいすう
λらむだ = 最大さいだい繰くり返かえし回数かいすう
Wv = 現在げんざいの重おもみベクトル
D = 目的もくてきとする入力にゅうりょく
Θしーた(t) = BMU（後述こうじゅつ）からの距離きょりによって変化へんかする値ね（近傍きんぼう半径はんけい）
αあるふぁ(t) = 時間じかんによって変化へんかする係数けいすう（学習がくしゅう係数けいすう）

算法さんぽうのステップ[編集へんしゅう]

全ぜん重おもみベクトルをランダマイズする
入力にゅうりょくベクトルを一ひとつ用意よういする
マップ上じょうの全すべてのノード一ひとつ一ひとつに対たいして、
1. 入力にゅうりょくベクトルと各かくノードの重おもみベクトル間あいだの（非ひ）類似るいじ度どを計算けいさんする。（非ひ）類似るいじ度どにはユークリッド的てきな距離きょりが用もちいられる（=各かく要素ようその差さの自乗じじょう和わ）
2. 各かくノードを検査けんさして、最もっとも距離きょりが小ちいさい（ベクトル間あいだの距離きょりが短みじかい=もっとも良よく一致いっちした）ノードを見みつける。このノードをBMUと呼よぶ (Best Maching Unit)。
BMUの近傍きんぼうのノード（各かくノードの「位置いち」が判わかっているので、「近傍きんぼう」のノードを探さがし出だすことができる）の重おもみベクトルを次つぎのように変更へんこうし、入力にゅうりょくベクトルに近付ちかづける。
- Wv(t + 1) = Wv(t) + Θしーた(t)αあるふぁ(t)(D(t) - Wv(t))
  - 近傍きんぼうのノード以外いがいは重おもみを変化へんかさせない。
  - 繰くり返かえし回数かいすうが増ふえる程ほど、Θしーたは適用てきようする範囲はんいを狭せまくし、αあるふぁも小ちいさい値ねにする（近傍きんぼう半径はんけいの収縮しゅうしゅくと学習がくしゅう係数けいすうの減少げんしょう。下記かきGTM参照さんしょう）
λらむだに達たっしていなければ2.に戻もどる。

入力にゅうりょくベクトルを様々さまざまに振ふれば、このような繰くり返かえしによって、似にた性質せいしつのノード（似にた重おもみベクトルをもったノード）が競合きょうごう層そうの上うえで「物理ぶつり的てきな」クラスタを形成けいせいする。

この算法さんぽうについての解析かいせき的てきアプローチ[編集へんしゅう]

SOMのアルゴリズムにはどんな次元じげんの特徴とくちょうベクトルでも入力にゅうりょくできるが、多おおくの応用おうようでは、入力にゅうりょくの次元じげんは高たかい。出力しゅつりょくされるマップは1次元じげんや2次元じげんなど、入力にゅうりょくと異ことなる次元じげんでも構かまわない（「近傍きんぼう」が定義ていぎできればよい（→位相いそう幾何きか学がく））。しかしポピュラーなのは2次元じげんもしくは3次元じげんのマップである。なぜなら、SOMは次元じげんの拡大かくだいでなく、主おもに次元じげんの削減さくげんに用もちいられるからである。

アルゴリズムはニューラルネットの用語ようごを用もちいることで容易よういに記述きじゅつできる。各々おのおののニューロンは出力しゅつりょくのマップ上じょうにそれぞれ固有こゆうの「物理ぶつり的てきな」位置いちを持もっている。入力にゅうりょくに対たいして、一番いちばん近ちかいウェイトベクトルを持もっていたニューロンを「勝者しょうしゃ」と呼よび、勝者しょうしゃの重おもみベクトルはより入力にゅうりょくベクトルに近ちかくなるように修正しゅうせいされる。この「勝者しょうしゃが全部ぜんぶとる (winner-take-all, WTA)」プロセスは競合きょうごう学習がくしゅうと呼よばれる。

それぞれのニューロンは近傍きんぼうを持もっている。あるニューロンが勝者しょうしゃとなった場合ばあい、その近傍きんぼうのニューロンもまた重おもみベクトルを修正しゅうせいされる。このプロセスを、全すべてのデータについて、何なん度ども（通常つうじょう、たくさん）繰くり返かえす。

このネットワークは最終さいしゅう的てきには、入力にゅうりょくデータセット中ちゅうのグループまたはパターンを出力しゅつりょくノードに関連付かんれんづける結果けっかとなる。それら関連かんれんづけられたニューロンは入力にゅうりょくパターンの名前なまえで呼よんでもよいことになる（色いろのベクトルを学習がくしゅうしたなら色いろニューロンのように）。

他たの多おおくのニューラルネット同様どうよう、SOMにも2つのフェーズがある。

学習がくしゅうプロセスにおいては、写像しゃぞうが構築こうちくされる。ニューラルネットは競合きょうごう学習がくしゅうを用もちいて自己じこ組織そしき化かする。ネットワークは多おおくの入力にゅうりょくを必要ひつようとする。次つぎのフェーズで出現しゅつげんしそうな入力にゅうりょくベクトルをあらん限かぎり食くわせるといい（あれば、だが）。さもなければ、入力にゅうりょくベクトルを何なん度ども繰くり返かえし与あたえる。
写像しゃぞうプロセスにおいては、新あたらしい入力にゅうりょくベクトルは速すみやかにマップ上じょうの位置いちが与あたえられ、自動的じどうてきに分類ぶんるいされる。ただ一ひとつの勝者しょうしゃニューロンが存在そんざいする。このニューロンは重おもみベクトルが入力にゅうりょくベクトルに最もっとも近ちかいものであり、各かくニューロンの重おもみベクトルと入力にゅうりょくベクトルとのユークリッド距離きょりを計算けいさんすることで簡単かんたんに決定けっていできる。

generative topographic map (GTM) はSOMの新あたらしいバージョンの一ひとつである。GTMは1996年ねんにBishop, Svensen, Williamsの論文ろんぶん中ちゅうで初はじめて発表はっぴょうされた。GTMは確かく率りつモデルであり、おそらく収束しゅうそくする。また、近傍きんぼう半径はんけいの収縮しゅうしゅくや学習がくしゅう係数けいすうの減少げんしょうを必要ひつようとしない。

GTMは生成せいせいモデルである。入力にゅうりょくデータを「まず低てい次元じげん空間くうかん側がわで確かく率りつ的てきに点てんを選えらび、それを観測かんそくされた高次こうじ元もと入力にゅうりょくデータの空間くうかん上じょうの点てんに滑なめらかな関数かんすうで写像しゃぞうした後のちでノイズを加くわえたもの」と仮定かていする。低てい次元じげん側がわの確かく率りつ分布ぶんぷ、滑なめらかな関数かんすう、そして高こう次元じげん側がわでのノイズのパラメータは全すべてEMアルゴリズム (en:EM_algorithm) によって入力にゅうりょくデータから学習がくしゅうされる。

ニューラルネットとしてのSOM[編集へんしゅう]

大脳皮質だいのうひしつの視覚しかく野のは、コラム構造こうぞうを持もっている。このコラム構造こうぞうは生得しょうとく的てきなものではなく、学習がくしゅうによって得えられるものである。この視覚しかく野のにおけるコラム構造こうぞうの自己じこ組織そしき化かをモデル化かしたものが自己じこ組織そしき化か写像しゃぞうである。WillshawとVon Der Malsburgによって1976年ねんに提案ていあんされた^[1]。

クラスタリング手法しゅほうとしてのSOM[編集へんしゅう]

SOMはk平均へいきん法ほうに位相いそうの概念がいねんを入いれたものである。また、k平均へいきん法ほうはBL-SOMにおいて近傍きんぼう半径はんけいを0、学習がくしゅう係数けいすうを1に固定こていしたものと等価とうかである。

可視かし化か手法しゅほうとしてのSOM[編集へんしゅう]

高こう次元じげんのデータや、ベクトル空間くうかん上じょうにないデータを、2次元じげんの平面へいめん上じょうなどのより低てい次元じげんで容易よういに観察かんさつできる空間くうかんに写像しゃぞうする（次元じげん削減さくげんする）ことで可視かし化かできる。次元じげん削減さくげんによって可視かし化かを行おこなう手法しゅほうとしては他たに主成分しゅせいぶん解析かいせきなどがある。曲面きょくめん上じょうに分布ぶんぷしている場合ばあいは主成分しゅせいぶん解析かいせきではうまく削減さくげんできないが、SOMなら高次こうじ元もと空間くうかん上じょうでのニューロンの配置はいちが曲面きょくめんにフィットするよう変形へんけいするので表示ひょうじ用ようの空間くうかんを有効ゆうこうに利用りようできる。

アルゴリズム[編集へんしゅう]

SOMのアルゴリズムは大おおきく分わけて2つ存在そんざいする。一ひとつは大脳だいのう視覚しかく野ののモデルであったことに由来ゆらいするオンライン学習がくしゅうモデルである。このモデルでは、データが入力にゅうりょくされるたびに学習がくしゅうが行おこなわれる。後ごから入力にゅうりょくされたデータのウェイトが高たかくなる傾向けいこうがある。また、各かくニューロンの初期しょき値ちはランダムに設定せっていされる。

一方いっぽう、SOMを解析かいせき手法しゅほうと見みて、データの入力にゅうりょく順序じゅんじょに依存いぞんする性質せいしつを取とり除のぞくための変更へんこうが加くわえられたものがBL-SOMである。BL-SOMではニューロンは主成分しゅせいぶん解析かいせきを用もちいて求もとめられた主成分しゅせいぶん軸じくの張はる空間くうかん上じょうに整然せいぜんと初期しょき配置はいちされる。また、全すべてのデータを各々おのおののニューロンに分類ぶんるいし終おわった後のちで各々おのおののニューロンが同時どうじに学習がくしゅうを行おこなう。

SOMのバリエーション[編集へんしゅう]

バッチ学習がくしゅうSOM (Batch Learning SOM, BL-SOM)：全すべての入力にゅうりょくを与あたえた後のちに重おもみベクトルの更新こうしんを行おこなうSOM（学習がくしゅう順序じゅんじょに依存いぞんする性質せいしつが除去じょきょされる）
木き構造こうぞうSOM (Tree Structured SOM, TS-SOM)：複数ふくすうのSOMを木き構造こうぞうにしたSOM（上位じょういのSOMが下位かいのSOMをガイドすることで計算けいさん時間じかんが短縮たんしゅくされる）
適応てきおう部分ぶぶん空間くうかんSOM (Adaptive Subspace SOM, AS-SOM)：各かくノードが線形せんけい部分ぶぶん空間くうかんなどの多様たよう体たいを表現ひょうげんするように作つくられたSOM
球面きゅうめんSOM (Spherical SOM)：出力しゅつりょくのマップを球面きゅうめんにしたSOM（端はしがなくなるため、学習がくしゅうにおける偏かたよりが軽減けいげんされる）
中央ちゅうおう値ちSOM (Median SOM): 非ひベクトル的てきデータに応用おうよう可能かのうにしたもの
階層かいそう的てきSOM (Hierarchical Self-Organizing Map, Hierarchical Feature Map, HFM)
双そう曲面きょくめんSOM (Hyperbolic SOM, HSOM)

書籍しょせき[編集へんしゅう]

この分野ぶんやの代表だいひょう的てきな書籍しょせきとしては、考案こうあん者しゃ自身じしんによる著書ちょしょ『自己じこ組織そしき化かマップ』^[2]が挙あげられる。

参考さんこう文献ぶんけん[編集へんしゅう]

^ “How patterned neural connections can be set up by self-organization”. Proceedings of the Royal Society of London. Series B, Containing papers of a Biological character. 194 (1117): 431-45. (1976). PMID 12510.
^ Teuvo Kohonen 著ちょ、徳とく高だか平蔵ひらぞう、堀尾ほりお恵一けいいち、大北おおきた正ただし昭あきら、大薮おおやぶ又また茂しげる、藤村ふじむら喜久郎きくお訳やく『自己じこ組織そしき化かマップ』（改訂かいてい版ばん）シュプリンガーフェアラーク東京とうきょう、2005年ねん6月がつ（原著げんちょ2000年ねん12月28日にち）。ISBN 978-4431711544。

外部がいぶリンク[編集へんしゅう]

自己じこ組織そしき化かマップ - 脳のう科学かがく辞典じてん

[1] “How patterned neural connections can be set up by self-organization”. Proceedings of the Royal Society of London. Series B, Containing papers of a Biological character. 194 (1117): 431-45. (1976). PMID 12510.

[2] Teuvo Kohonen 著ちょ、徳とく高だか平蔵ひらぞう、堀尾ほりお恵一けいいち、大北おおきた正ただし昭あきら、大薮おおやぶ又また茂しげる、藤村ふじむら喜久郎きくお訳やく『自己じこ組織そしき化かマップ』（改訂かいてい版ばん）シュプリンガーフェアラーク東京とうきょう、2005年ねん6月がつ（原著げんちょ2000年ねん12月28日にち）。ISBN 978-4431711544。

[1]

[2]