特徴とくちょう選択せんたく

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

特徴とくちょう選択せんたく(とくちょうせんたく、えい: feature selection)とは、機械きかい学習がくしゅう統計とうけいがく用語ようごであり、頑健がんけん学習がくしゅうモデルの構築こうちくのため、特徴とくちょう集合しゅうごうのうち意味いみのある部分ぶぶん集合しゅうごうだけを選択せんたくする手法しゅほうのことをす。特徴とくちょうりょう選択せんたく変数へんすう選択せんたく特徴とくちょう削減さくげん属性ぞくせい選択せんたく素性すじょう選択せんたく変数へんすう部分ぶぶん集合しゅうごう選択せんたくなどともばれる。生物せいぶつがく文脈ぶんみゃくでは、DNAマイクロアレイ実験じっけんもとづいて影響えいきょうりょくのある遺伝子いでんし検出けんしゅつする手法しゅほう場合ばあいもある。不要ふよう冗長じょうちょう特徴とくちょうりょうをデータから除去じょきょすることによって、特徴とくちょう選択せんたく学習がくしゅうモデルをつぎてん改善かいぜんする:

  • 次元じげんのろ効果こうか緩和かんわする。
  • ひろし性能せいのう向上こうじょうさせる。
  • 学習がくしゅう高速こうそくする。
  • モデルの可読かどくせい改善かいぜんする。

特徴とくちょう選択せんたくおこなうと、データのうちどの特徴とくちょうりょう重要じゅうようでありどのようにそれらが関係かんけいしているかなどといったてんについて、人間にんげん理解りかいしやすくなるという効果こうかもある。

導入どうにゅう[編集へんしゅう]

単純たんじゅん特徴とくちょう選択せんたくアルゴリズムは場当ばあたりてきなものだが、より系統けいとうだったアプローチも存在そんざいする。理論りろんてき観点かんてんからは、教師きょうしあり学習がくしゅう問題もんだいにおいて最適さいてき特徴とくちょう選択せんたくおこなうには、えらばれたおおきさのすべての部分ぶぶん集合しゅうごう特徴とくちょう集合しゅうごうからし、そうたりでため必要ひつようがあるということが証明しょうめいできる。特徴とくちょうかずおおくなれば、このやりかた実用じつようてきでなくなる。実用じつようてき教師きょうしあり学習がくしゅうアルゴリズムの特徴とくちょう選択せんたくでは、最適さいてき集合しゅうごうではなく満足まんぞくできる集合しゅうごうもとめることになる。

特徴とくちょう選択せんたくアルゴリズムは典型てんけいてきには、特徴とくちょうランキングと部分ぶぶん集合しゅうごう選択せんたくというふたつのカテゴリに分類ぶんるいされる。特徴とくちょうランキングでは、ある指標しひょうによって特徴とくちょうをランクづけし、一定いっていのスコアにたっしなかった特徴とくちょう除去じょきょする。部分ぶぶん集合しゅうごう選択せんたくでは、最適さいてき部分ぶぶん集合しゅうごう目指めざして特徴とくちょうわせを探索たんさくする。

統計とうけいがくでは、ステップワイズ回帰かいき英語えいごばんがもっともよくもちいられる特徴とくちょう選択せんたく形態けいたいである。この手法しゅほうは、かくステップにおいてもっとも特徴とくちょう追加ついかする(もしくはもっともわる特徴とくちょう除去じょきょする)貪欲どんよくアルゴリズムである。機械きかい学習がくしゅうでは交差こうさ検証けんしょうによって特徴とくちょうさを評価ひょうかすることがおおく、統計とうけいがくではなんらかの規準きじゅん最適さいてきすることがおおい。このやりかたにはがた特徴とくちょうりょうかんする問題もんだい内在ないざいしているため、ぶんえだ限定げんていほう区分くぶん線形せんけいネットワークなど、より頑健がんけん手法しゅほう研究けんきゅうされている。

部分ぶぶん集合しゅうごう選択せんたく[編集へんしゅう]

部分ぶぶん集合しゅうごう選択せんたくでは、特徴とくちょう集合しゅうごう部分ぶぶん集合しゅうごうがまとまりとして適切てきせつかどうかを評価ひょうかする。部分ぶぶん集合しゅうごう選択せんたくのアルゴリズムは、ラッパー、フィルター、みの三種さんしゅ分類ぶんるいできる。ラッパーは探索たんさくアルゴリズムをもちいて可能かのう特徴とくちょう空間くうかん探索たんさくし、それぞれの部分ぶぶん集合しゅうごうでモデルをはしらせて評価ひょうかおこなう。ラッパーは計算けいさん量的りょうてきにコストがたかく、モデルの過剰かじょう適合てきごうこす危険きけんせいがある。フィルターは探索たんさくおこなてんでラッパーにているが、モデルをはしらせるかわりにより単純たんじゅんなフィルターをもちいて評価ひょうかおこなう。がた方法ほうほうはモデルごとにとくしたものであり、モデルにまれている。

よくもちいられる探索たんさくのアプローチは貪欲どんよく山登やまのぼほうである。山登やまのぼほうでは、候補こうほとなる特徴とくちょう部分ぶぶん集合しゅうごう評価ひょうかし、部分ぶぶん集合しゅうごう一部いちぶえてそれがふる部分ぶぶん集合しゅうごう改善かいぜんしているかぎ手続てつづきをかえす。部分ぶぶん集合しゅうごう評価ひょうかでは、特徴とくちょう部分ぶぶん集合しゅうごうをスコアづけする指標しひょう必要ひつようとなる。そうたり探索たんさく通常つうじょう実用じつようてきでないため、実装じっそうしゃ停止ていしてんさだめ、その停止ていしてんまでにつかったうち最高さいこうのスコアを特徴とくちょう部分ぶぶん集合しゅうごう満足まんぞくできる特徴とくちょう部分ぶぶん集合しゅうごうとして採用さいようする。停止ていし規準きじゅんは、アルゴリズムによってことなるが、部分ぶぶん集合しゅうごうのスコアがしきいえる、プログラムの実行じっこう時間じかん規定きていえる、などである。

探索たんさく組合くみあわ最適さいてき)のアプローチには、

などがある。

フィルターの規準きじゅんとして、分類ぶんるい問題もんだいでは相関そうかん相互そうご情報じょうほうりょうふたつがよくもちいられる。これらのスコアは候補こうほとなる特徴とくちょう(もしくは特徴とくちょう部分ぶぶん集合しゅうごう)ともとめる出力しゅつりょくカテゴリのあいだ計算けいさんされる。

フィルターの規準きじゅんとしてはほかに、つぎのものがある:

  • クラスの分離ぶんりせい
    • あやま分類ぶんるいかくりつ
    • クラスない距離きょり
    • かくりつ分布ぶんぷ距離きょり
    • エントロピー
  • 一貫いっかんせいもとづく特徴とくちょう選択せんたく
  • 相関そうかんもとづく特徴とくちょう選択せんたく

最適さいてきせい規準きじゅん[編集へんしゅう]

特徴とくちょう選択せんたく制御せいぎょする最適さいてきせい規準きじゅんには様々さまざまなものがある。もっともふるいものとしてはマローズのCp統計とうけいりょう赤池あかいけ情報じょうほうりょう規準きじゅんがある。これらの手法しゅほうでは t統計とうけいりょう英語えいごばんえた変数へんすう採用さいようする。

その規準きじゅんとしては、 もちいるベイズ情報じょうほうりょう規準きじゅん (BIC) 、 近似きんじてきもちいる最小さいしょう記述きじゅつちょう(この近似きんじ計算けいさんただしくないとする議論ぎろんもある[よう出典しゅってん])、 もちいる Bonnferroni ほうや RIC 、にせ発見はっけんりつ英語えいごばんもとづいて 付近ふきんのしきいもちいる様々さまざま規準きじゅんがある。

正則せいそく[編集へんしゅう]

L1 正則せいそく、L0 正則せいそくもちいても特徴とくちょう選択せんたくできる。詳細しょうさい正則せいそく項目こうもく参照さんしょう

特徴とくちょう選択せんたくまれている手法しゅほう[編集へんしゅう]

特徴とくちょう選択せんたくのためのソフトウェア[編集へんしゅう]

MATLAB, Scilab, NumPy, R言語げんごなどのおおくの標準ひょうじゅんてきなデータ解析かいせきソフトウェア(参考さんこうen:Category:Data analysis software)では、特徴とくちょう選択せんたく機能きのう提供ていきょうされている。特徴とくちょう選択せんたくとくしたソフトウェアとしてはつぎのものがある。

関連かんれん項目こうもく[編集へんしゅう]

参考さんこう文献ぶんけん[編集へんしゅう]

外部がいぶリンク[編集へんしゅう]