自己 じこ 組織 そしき 化 か 写像 しゃぞう (じこそしきかしゃぞう、英 えい : Self-organizing maps, SOM , Self-organizing feature maps, SOFM )はニューラルネットワーク の一種 いっしゅ であり、大脳皮質 だいのうひしつ の視覚 しかく 野 の をモデル化 か したものである。自己 じこ 組織 そしき 化 か 写像 しゃぞう はコホネン によって提案 ていあん されたモデルであり、教師 きょうし なし学習 がくしゅう によって入力 にゅうりょく データを任意 にんい の次元 じげん へ写像 しゃぞう することができる。主 おも に1~3次元 じげん への写像 しゃぞう に用 もち いられ、多次元 たじげん のデータの可視 かし 化 か が可能 かのう である。出力 しゅつりょく となる空間 くうかん をマップ (map)、競合 きょうごう 層 そう (competitive layer)、もしくは出力 しゅつりょく 層 そう (output layer) と呼 よ ぶ。出力 しゅつりょく 層 そう に対 たい して入力 にゅうりょく データの空間 くうかん を入力 にゅうりょく 層 そう (input layer)と呼 よ ぶこともある。自己 じこ 組織 そしき 化 か 写像 しゃぞう はコホネンマップ (Kohonen map)、コホネンネットワーク (Kohonen network)、自己 じこ 組織 そしき 化 か マップ、ソム (SOM) などと呼 よ ぶこともある。
自己 じこ 組織 そしき 化 か 写像 しゃぞう は複数 ふくすう の人工 じんこう ニューロン が接続 せつぞく された構造 こうぞう である。この人工 じんこう ニューロン はノード (node)、もしくはユニット (unit) と呼 よ ぶこともある。
定性的 ていせいてき 紹介 しょうかい [ 編集 へんしゅう ]
自己 じこ 組織 そしき 化 か 写像 しゃぞう は入力 にゅうりょく 層 そう と競合 きょうごう 層 そう (出力 しゅつりょく 層 そう )からなる2層 そう 構造 こうぞう の教師 きょうし なし学習 がくしゅう ニューラルネットワークである。入力 にゅうりょく 層 そう は単 たん に入力 にゅうりょく を与 あた えるだけであるため、競合 きょうごう 層 そう のみを単 たん に自己 じこ 組織 そしき 化 か 写像 しゃぞう と呼 よ ぶこともある。
入力 にゅうりょく は
n
{\displaystyle n}
次元 じげん の数値 すうち データであり、出力 しゅつりょく は競合 きょうごう 層 そう に配置 はいち されたノードとなる。各 かく ノードは
m
{\displaystyle m}
次元 じげん 空間 くうかん 上 じょう に配置 はいち され、それぞれのノードに入力 にゅうりょく データの次元 じげん と同 おな じ次元 じげん のベクトルが対応付 たいおうづ けられている。この対応付 たいおうづ けられたベクトルのことを重 おも みベクトルと呼 よ び、この重 おも みベクトルを更新 こうしん することで学習 がくしゅう が行 おこな われる。
競合 きょうごう 層 そう のノード配置 はいち の次元 じげん は自由 じゆう に設定 せってい できる。最 もっと も基本 きほん 的 てき な利用 りよう 法 ほう は、2次元 じげん 上 じょう にノードを配置 はいち し、高次 こうじ 元 もと データを学習 がくしゅう させることで高次 こうじ 元 もと データの関係 かんけい 性 せい を可視 かし 化 か するというものである。このように、自己 じこ 組織 そしき 化 か 写像 しゃぞう は高 こう 次元 じげん のデータ間 あいだ に存在 そんざい する非線形 ひせんけい な関係 かんけい を簡単 かんたん に幾何 きか 学 がく 的 てき 関係 かんけい を持 も つ像 ぞう に変換 へんかん することができる。
現在 げんざい 、自己 じこ 組織 そしき 化 か 写像 しゃぞう には様々 さまざま なバリエーションがあり、従来 じゅうらい の自己 じこ 組織 そしき 化 か 写像 しゃぞう を基本 きほん SOM (Basic SOM, BSOM) と呼 よ ぶことがある。しかし、BSOMという略 りゃく し方 かた は後述 こうじゅつ するバッチ学習 がくしゅう SOM (Batch Learning SOM, BL-SOM) と混同 こんどう しかねないため望 のぞ ましくない。
基本 きほん SOMの算法 さんぽう [ 編集 へんしゅう ]
ネットワークにおける実際 じっさい の学習 がくしゅう はベクトル量子 りょうし 化 か を参考 さんこう にしている。技術 ぎじゅつ 的 てき には「教師 きょうし (監督 かんとく )なし学習 がくしゅう 」とはいうものの、「我々 われわれ には望 のぞ んだ結果 けっか がある」という点 てん で「監督 かんとく 」がついている(SOMにおいては、BMUの選定 せんてい がそれ。算法 さんぽう 参照 さんしょう )。
もうすこし算法 さんぽう をみていこう。10×10の人工 じんこう ニューロン(以下 いか 「ノード」)の配列 はいれつ を作 つく る(「競合 きょうごう 層 そう 」)。それぞれのノードには一 ひと つずつの重 おも みベクトルがあり、自分 じぶん の「物理 ぶつり 的 てき な位置 いち 」について全智 ぜんち である(つまり、配列 はいれつ の添字 そえじ を自分 じぶん 自身 じしん が知 し っている)。各 かく ノードが持 も つ重 おも みベクトルの成分 せいぶん は入力 にゅうりょく ベクトル(後述 こうじゅつ )と同 おな じ次元 じげん を持 も つ。それらの重 おも みベクトルの内容 ないよう は初期 しょき 化 か 時 じ にランダマイズされることによく注意 ちゅうい して欲 ほ しい。
さて、ここでマップへの入力 にゅうりょく を用意 ようい する。通例 つうれい に倣 なら って、色 いろ を表現 ひょうげん するベクトルを三 みっ つ作 つく ろう。計算 けいさん 機 き 科学 かがく の世界 せかい では、色 いろ は赤 あか 、緑 みどり 、青 あお の三 みっ つの要素 ようそ で表現 ひょうげん できる。従 したが って、入力 にゅうりょく ベクトルは3要素 ようそ を持 も ち(3次元 じげん ベクトルである)、一 ひと つ一 ひと つのベクトルには色 いろ 空間 くうかん の中 なか に対応 たいおう 点 てん がある。
R = <255, 0, 0>
G = <0, 255, 0>
B = <0, 0, 255>
ベクトルは太字 ふとじ で表 あらわ す。
t = 現在 げんざい の繰 く り返 かえ し回数 かいすう
λ らむだ = 最大 さいだい 繰 く り返 かえ し回数 かいすう
Wv = 現在 げんざい の重 おも みベクトル
D = 目的 もくてき とする入力 にゅうりょく
Θ しーた (t) = BMU(後述 こうじゅつ )からの距離 きょり によって変化 へんか する値 ね (近傍 きんぼう 半径 はんけい )
α あるふぁ (t) = 時間 じかん によって変化 へんか する係数 けいすう (学習 がくしゅう 係数 けいすう )
全 ぜん 重 おも みベクトルをランダマイズする
入力 にゅうりょく ベクトルを一 ひと つ用意 ようい する
マップ上 じょう の全 すべ てのノード一 ひと つ一 ひと つに対 たい して、
入力 にゅうりょく ベクトルと各 かく ノードの重 おも みベクトル間 あいだ の(非 ひ )類似 るいじ 度 ど を計算 けいさん する。(非 ひ )類似 るいじ 度 ど にはユークリッド的 てき な距離 きょり が用 もち いられる(=各 かく 要素 ようそ の差 さ の自乗 じじょう 和 わ )
各 かく ノードを検査 けんさ して、最 もっと も距離 きょり が小 ちい さい(ベクトル間 あいだ の距離 きょり が短 みじか い=もっとも良 よ く一致 いっち した)ノードを見 み つける。このノードをBMUと呼 よ ぶ (Best Maching Unit)。
BMUの近傍 きんぼう のノード(各 かく ノードの「位置 いち 」が判 わか っているので、「近傍 きんぼう 」のノードを探 さが し出 だ すことができる)の重 おも みベクトルを次 つぎ のように変更 へんこう し、入力 にゅうりょく ベクトルに近付 ちかづ ける。
Wv (t + 1) = Wv (t) + Θ しーた (t)α あるふぁ (t)(D(t) - Wv(t) )
近傍 きんぼう のノード以外 いがい は重 おも みを変化 へんか させない。
繰 く り返 かえ し回数 かいすう が増 ふ える程 ほど 、Θ しーた は適用 てきよう する範囲 はんい を狭 せま くし、α あるふぁ も小 ちい さい値 ね にする(近傍 きんぼう 半径 はんけい の収縮 しゅうしゅく と学習 がくしゅう 係数 けいすう の減少 げんしょう 。下記 かき GTM参照 さんしょう )
λ らむだ に達 たっ していなければ2.に戻 もど る。
入力 にゅうりょく ベクトルを様々 さまざま に振 ふ れば、このような繰 く り返 かえ しによって、似 に た性質 せいしつ のノード(似 に た重 おも みベクトルをもったノード)が競合 きょうごう 層 そう の上 うえ で「物理 ぶつり 的 てき な」クラスタを形成 けいせい する。
この算法 さんぽう についての解析 かいせき 的 てき アプローチ [ 編集 へんしゅう ]
SOMのアルゴリズムにはどんな次元 じげん の特徴 とくちょう ベクトル でも入力 にゅうりょく できるが、多 おお くの応用 おうよう では、入力 にゅうりょく の次元 じげん は高 たか い。出力 しゅつりょく されるマップは1次元 じげん や2次元 じげん など、入力 にゅうりょく と異 こと なる次元 じげん でも構 かま わない(「近傍 きんぼう 」が定義 ていぎ できればよい(→位相 いそう 幾何 きか 学 がく ))。しかしポピュラーなのは2次元 じげん もしくは3次元 じげん のマップである。なぜなら、SOMは次元 じげん の拡大 かくだい でなく、主 おも に次元 じげん の削減 さくげん に用 もち いられるからである。
アルゴリズムはニューラルネットの用語 ようご を用 もち いることで容易 ようい に記述 きじゅつ できる。各々 おのおの のニューロンは出力 しゅつりょく のマップ上 じょう にそれぞれ固有 こゆう の「物理 ぶつり 的 てき な」位置 いち を持 も っている。入力 にゅうりょく に対 たい して、一番 いちばん 近 ちか いウェイトベクトルを持 も っていたニューロンを「勝者 しょうしゃ 」と呼 よ び、勝者 しょうしゃ の重 おも みベクトルはより入力 にゅうりょく ベクトルに近 ちか くなるように修正 しゅうせい される。この「勝者 しょうしゃ が全部 ぜんぶ とる (winner-take-all, WTA)」プロセスは競合 きょうごう 学習 がくしゅう と呼 よ ばれる。
それぞれのニューロンは近傍 きんぼう を持 も っている。あるニューロンが勝者 しょうしゃ となった場合 ばあい 、その近傍 きんぼう のニューロンもまた重 おも みベクトルを修正 しゅうせい される。このプロセスを、全 すべ てのデータについて、何 なん 度 ど も(通常 つうじょう 、たくさん)繰 く り返 かえ す。
このネットワークは最終 さいしゅう 的 てき には、入力 にゅうりょく データセット中 ちゅう のグループまたはパターンを出力 しゅつりょく ノードに関連付 かんれんづ ける結果 けっか となる。それら関連 かんれん づけられたニューロンは入力 にゅうりょく パターンの名前 なまえ で呼 よ んでもよいことになる(色 いろ のベクトルを学習 がくしゅう したなら色 いろ ニューロンのように)。
他 た の多 おお くのニューラルネット同様 どうよう 、SOMにも2つのフェーズがある。
学習 がくしゅう プロセスにおいては、写像 しゃぞう が構築 こうちく される。ニューラルネットは競合 きょうごう 学習 がくしゅう を用 もち いて自己 じこ 組織 そしき 化 か する。ネットワークは多 おお くの入力 にゅうりょく を必要 ひつよう とする。次 つぎ のフェーズで出現 しゅつげん しそうな入力 にゅうりょく ベクトルをあらん限 かぎ り食 く わせるといい(あれば、だが)。さもなければ、入力 にゅうりょく ベクトルを何 なん 度 ど も繰 く り返 かえ し与 あた える。
写像 しゃぞう プロセスにおいては、新 あたら しい入力 にゅうりょく ベクトルは速 すみ やかにマップ上 じょう の位置 いち が与 あた えられ、自動的 じどうてき に分類 ぶんるい される。ただ一 ひと つの勝者 しょうしゃ ニューロンが存在 そんざい する。このニューロンは重 おも みベクトルが入力 にゅうりょく ベクトルに最 もっと も近 ちか いものであり、各 かく ニューロンの重 おも みベクトルと入力 にゅうりょく ベクトルとのユークリッド距離 きょり を計算 けいさん することで簡単 かんたん に決定 けってい できる。
generative topographic map (GTM) はSOMの新 あたら しいバージョンの一 ひと つである。GTMは1996年 ねん にBishop, Svensen, Williamsの論文 ろんぶん 中 ちゅう で初 はじ めて発表 はっぴょう された。GTMは確 かく 率 りつ モデルであり、おそらく収束 しゅうそく する。また、近傍 きんぼう 半径 はんけい の収縮 しゅうしゅく や学習 がくしゅう 係数 けいすう の減少 げんしょう を必要 ひつよう としない。
GTMは生成 せいせい モデルである。入力 にゅうりょく データを「まず低 てい 次元 じげん 空間 くうかん 側 がわ で確 かく 率 りつ 的 てき に点 てん を選 えら び、それを観測 かんそく された高次 こうじ 元 もと 入力 にゅうりょく データの空間 くうかん 上 じょう の点 てん に滑 なめ らかな関数 かんすう で写像 しゃぞう した後 のち でノイズを加 くわ えたもの」と仮定 かてい する。低 てい 次元 じげん 側 がわ の確 かく 率 りつ 分布 ぶんぷ 、滑 なめ らかな関数 かんすう 、そして高 こう 次元 じげん 側 がわ でのノイズのパラメータは全 すべ てEMアルゴリズム (en:EM_algorithm ) によって入力 にゅうりょく データから学習 がくしゅう される。
ニューラルネットとしてのSOM [ 編集 へんしゅう ]
大脳皮質 だいのうひしつ の視覚 しかく 野 の は、コラム構造 こうぞう を持 も っている。このコラム構造 こうぞう は生得 しょうとく 的 てき なものではなく、学習 がくしゅう によって得 え られるものである。この視覚 しかく 野 の におけるコラム構造 こうぞう の自己 じこ 組織 そしき 化 か をモデル化 か したものが自己 じこ 組織 そしき 化 か 写像 しゃぞう である。WillshawとVon Der Malsburgによって1976年 ねん に提案 ていあん された[1] 。
クラスタリング手法 しゅほう としてのSOM [ 編集 へんしゅう ]
SOMはk平均 へいきん 法 ほう に位相 いそう の概念 がいねん を入 い れたものである。また、k平均 へいきん 法 ほう はBL-SOMにおいて近傍 きんぼう 半径 はんけい を0、学習 がくしゅう 係数 けいすう を1に固定 こてい したものと等価 とうか である。
可視 かし 化 か 手法 しゅほう としてのSOM[ 編集 へんしゅう ]
高 こう 次元 じげん のデータや、ベクトル空間 くうかん 上 じょう にないデータを、2次元 じげん の平面 へいめん 上 じょう などのより低 てい 次元 じげん で容易 ようい に観察 かんさつ できる空間 くうかん に写像 しゃぞう する(次元 じげん 削減 さくげん する)ことで可視 かし 化 か できる。次元 じげん 削減 さくげん によって可視 かし 化 か を行 おこな う手法 しゅほう としては他 た に主成分 しゅせいぶん 解析 かいせき などがある。曲面 きょくめん 上 じょう に分布 ぶんぷ している場合 ばあい は主成分 しゅせいぶん 解析 かいせき ではうまく削減 さくげん できないが、SOMなら高次 こうじ 元 もと 空間 くうかん 上 じょう でのニューロンの配置 はいち が曲面 きょくめん にフィットするよう変形 へんけい するので表示 ひょうじ 用 よう の空間 くうかん を有効 ゆうこう に利用 りよう できる。
SOMのアルゴリズムは大 おお きく分 わ けて2つ存在 そんざい する。一 ひと つは大脳 だいのう 視覚 しかく 野 の のモデルであったことに由来 ゆらい するオンライン学習 がくしゅう モデルである。このモデルでは、データが入力 にゅうりょく されるたびに学習 がくしゅう が行 おこな われる。後 ご から入力 にゅうりょく されたデータのウェイトが高 たか くなる傾向 けいこう がある。また、各 かく ニューロンの初期 しょき 値 ち はランダムに設定 せってい される。
一方 いっぽう 、SOMを解析 かいせき 手法 しゅほう と見 み て、データの入力 にゅうりょく 順序 じゅんじょ に依存 いぞん する性質 せいしつ を取 と り除 のぞ くための変更 へんこう が加 くわ えられたものがBL-SOMである。BL-SOMではニューロンは主成分 しゅせいぶん 解析 かいせき を用 もち いて求 もと められた主成分 しゅせいぶん 軸 じく の張 は る空間 くうかん 上 じょう に整然 せいぜん と初期 しょき 配置 はいち される。また、全 すべ てのデータを各々 おのおの のニューロンに分類 ぶんるい し終 お わった後 のち で各々 おのおの のニューロンが同時 どうじ に学習 がくしゅう を行 おこな う。
バッチ学習 がくしゅう SOM (Batch Learning SOM, BL-SOM):全 すべ ての入力 にゅうりょく を与 あた えた後 のち に重 おも みベクトルの更新 こうしん を行 おこな うSOM(学習 がくしゅう 順序 じゅんじょ に依存 いぞん する性質 せいしつ が除去 じょきょ される)
木 き 構造 こうぞう SOM (Tree Structured SOM, TS-SOM):複数 ふくすう のSOMを木 き 構造 こうぞう にしたSOM(上位 じょうい のSOMが下位 かい のSOMをガイドすることで計算 けいさん 時間 じかん が短縮 たんしゅく される)
適応 てきおう 部分 ぶぶん 空間 くうかん SOM (Adaptive Subspace SOM, AS-SOM):各 かく ノードが線形 せんけい 部分 ぶぶん 空間 くうかん などの多様 たよう 体 たい を表現 ひょうげん するように作 つく られたSOM
球面 きゅうめん SOM (Spherical SOM):出力 しゅつりょく のマップを球面 きゅうめん にしたSOM(端 はし がなくなるため、学習 がくしゅう における偏 かたよ りが軽減 けいげん される)
中央 ちゅうおう 値 ち SOM (Median SOM): 非 ひ ベクトル的 てき データに応用 おうよう 可能 かのう にしたもの
階層 かいそう 的 てき SOM (Hierarchical Self-Organizing Map, Hierarchical Feature Map, HFM)
双 そう 曲面 きょくめん SOM (Hyperbolic SOM, HSOM)
この分野 ぶんや の代表 だいひょう 的 てき な書籍 しょせき としては、考案 こうあん 者 しゃ 自身 じしん による著書 ちょしょ 『自己 じこ 組織 そしき 化 か マップ』[2] が挙 あ げられる。
^ “How patterned neural connections can be set up by self-organization”. Proceedings of the Royal Society of London. Series B, Containing papers of a Biological character. 194 (1117): 431-45. (1976). PMID 12510 .
^ Teuvo Kohonen 著 ちょ 、徳 とく 高 だか 平蔵 ひらぞう 、堀尾 ほりお 恵一 けいいち 、大北 おおきた 正 ただし 昭 あきら 、大薮 おおやぶ 又 また 茂 しげる 、藤村 ふじむら 喜久郎 きくお 訳 やく 『自己 じこ 組織 そしき 化 か マップ』(改訂 かいてい 版 ばん )シュプリンガーフェアラーク東京 とうきょう 、2005年 ねん 6月 がつ (原著 げんちょ 2000年 ねん 12月28日 にち )。ISBN 978-4431711544 。