(Translated by https://www.hiragana.jp/)
推計統計学 - Wikipedia コンテンツにスキップ

推計すいけい統計とうけいがく

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』
推測すいそく統計とうけいがくから転送てんそう

推計すいけい統計とうけいがく(すいけいとうけいがく、えい: inferential statistics, inductive statistics)あるいは統計とうけいてき推論すいろんえい: statistical inferenece)とは、母集団ぼしゅうだん全体ぜんたいることができない場合ばあいに、母集団ぼしゅうだんから抽出ちゅうしゅつされた部分ぶぶん集団しゅうだん抽出ちゅうしゅつ集団しゅうだん標本ひょうほん集団しゅうだん)をもとに、確率かくりつろんもちいて母集団ぼしゅうだん様子ようす推定すいていする統計とうけいがく分野ぶんやう。推計すいけいというかたりは、推定すいてい推論すいろん推測すいそくなどとやくされることもある。

概要がいよう[編集へんしゅう]

19世紀せいき後半こうはんから20世紀せいき初頭しょとうにかけて発達はったつした統計とうけいがくは、現在げんざいでは推計すいけい統計とうけいがく区別くべつして、「記述きじゅつ統計とうけいがく (descriptive statistics) 」とばれている。集団しゅうだん規則きそくせいもとめることが統計とうけいがく目的もくてきであるが、記述きじゅつ統計とうけいがくにおいては集団しゅうだん規則きそくせい大量たいりょう標本ひょうほん観察かんさつすることによってのみ発見はっけんすることができるものだとかんがえられていた。そのため記述きじゅつ統計とうけいがくは、現実げんじつてき制約せいやくにより少数しょうすう標本ひょうほんしかられない現象げんしょうについて、その帰属きぞくする母集団ぼしゅうだん規則きそくせいもとめることができなかった。そのような事例じれい対応たいおうするために発達はったつしたのが推計すいけい統計とうけいがくである。

推計すいけい統計とうけいがくじつ世界せかい様々さまざま分野ぶんや使つかわれているが、かりやすいれいとしては調査ちょうさによる品質ひんしつ管理かんり疫学えきがく調査ちょうさなどがげられる。

推計すいけい統計とうけいがくは、頻度ひんど主義しゅぎもとづいたものとベイズ統計とうけいがくもとづいたものにけられる。

頻度ひんど主義しゅぎにおける統計とうけいがくてき推論すいろんは、母集団ぼしゅうだん規定きていするりょう=パラメータ(ははすう)を既定きてい固定こていとしてそれを推定すいていするという方法ほうほう(パラメトリック推定すいてい)にもとづいて発展はってんしてきた。基礎きそてきなパラメトリック推定すいていにおける統計とうけいがくてき推測すいそくは、以下いかのように細分さいぶんされる。

最近さいきんは、確実かくじつせいかくりつ分布ぶんぷとして表現ひょうげんするベイズ統計とうけいがく注目ちゅうもくされている。

統計とうけいモデル[編集へんしゅう]

統計とうけいモデルとは、対象たいしょう統計とうけい母集団ぼしゅうだん標本ひょうほん)の側面そくめんから抽象ちゅうしょうしたものである。(推測すいそく統計とうけいがくでは母集団ぼしゅうだんかくりつてき標本ひょうほんすとかんがえるため、統計とうけいモデルはかくりつ分布ぶんぷ内包ないほうしたモデルとなる。たとえばコインりの統計とうけいモデルはベルヌーイ分布ぶんぷでモデルしうるし、ほかの分布ぶんぷでもモデルできるかもしれない。

統計とうけいモデルを設定せっていしようとする過程かてい全体ぜんたいのことを統計とうけいモデリングという。モデル選択せんたく統計とうけいモデリングの重要じゅうよう事項じこうの1つのである。選択せんたくされた統計とうけいモデルは母集団ぼしゅうだん一致いっちするように、データ(標本ひょうほん)にもとづいてとそのパラメータが推定すいていされる(統計とうけいてき推測すいそく)。母集団ぼしゅうだんとモデルのずれはひろし誤差ごさ過剰かじょう適合てきごう § ひろし誤差ごさ)で評価ひょうかされることもある。

統計とうけいてき機械きかい学習がくしゅう文脈ぶんみゃくでは、母集団ぼしゅうだん標本ひょうほん生成せいせいするモデルというめん着目ちゃくもくして生成せいせいモデルとばれることもある(くわしくは機械きかい学習がくしゅう § 統計とうけいてき機械きかい学習がくしゅう)。

統計とうけいてき推測すいそく[編集へんしゅう]

統計とうけいてき推測すいそくとは、「データがあたえられたとき、そのデータを発生はっせいしているかくりつ分布ぶんぷ推測すいそくすること」である[1]。すなわち、しんなる母集団ぼしゅうだんから標本ひょうほん(データ)がられたとき、その(一般いっぱんには観測かんそくできない)しんなる母集団ぼしゅうだんかくりつ分布ぶんぷ推測すいそくする過程かてい統計とうけいてき推測すいそくである。

一般いっぱんてきしんなる推測すいそくながれは、

  1. 標本ひょうほん(データ)x の取得しゅとく
  2. しんなる母集団ぼしゅうだん q(X|θしーた0) をした統計とうけいモデル p(X|θしーた) のモデリング
  3. 標本ひょうほん x にもとづいたパラメータ θしーた推測すいそく -> 推定すいてい
  4. しんなる母集団ぼしゅうだん統計とうけいてき推測すいそく結果けっかとして p (X| ) の提示ていじ

となる。

統計とうけいてき推論すいろん個別こべつ具体ぐたいてき事象じしょう(標本ひょうほん)から一般いっぱん普遍ふへんてき規則きそく原理げんり(母集団ぼしゅうだんモデル)をもとめる方法ほうほうろんであり、帰納きのうてき推論すいろん一種いっしゅである。

区間くかん推定すいてい[編集へんしゅう]

てん推定すいてい推定すいていしたパラメータのバラツキや信頼しんらい区間くかんしめすこと。

正規せいき分布ぶんぷ場合ばあいには標準ひょうじゅん誤差ごさ (Standard Error, SE) をもちいることがおおい。平均へいきん標準ひょうじゅん誤差ごさとくに SEM (standard error of the mean) とぶ。SEMは以下いかしき算出さんしゅつされる。

また、より具体ぐたいてき信頼しんらい区間くかん(95%信頼しんらい区間くかん、99%信頼しんらい区間くかんなどがもちいられる)を表示ひょうじすることもある。

仮説かせつ検定けんてい[編集へんしゅう]

区間くかん推定すいていから、母集団ぼしゅうだん特定とくてい分布ぶんぷしたがっているかどうかを検証けんしょうすること。
具体ぐたいてきには、データが特定とくてい分布ぶんぷしたが母集団ぼしゅうだんから抽出ちゅうしゅつされたとする仮説かせつて、この仮説かせつ検定けんていおこなう。この仮説かせつ仮説かせつ(きむかせつ)という。たとえば、「抽出ちゅうしゅつ集団しゅうだんは、平均へいきん50、標準ひょうじゅん偏差へんさ○の母集団ぼしゅうだんから抽出ちゅうしゅつされたものである。」、「抽出ちゅうしゅつ集団しゅうだんAと抽出ちゅうしゅつ集団しゅうだんBはともに平均へいきん標準ひょうじゅん偏差へんさが99%おな母集団ぼしゅうだんから抽出ちゅうしゅつされたものである。」といった仮説かせつ仮説かせつとなる。こうした仮説かせつから予想よそうされる統計とうけいりょうと、実際じっさい抽出ちゅうしゅつ集団しゅうだんのデータから計算けいさんされた統計とうけいりょう一致いっちするかくりつ(pという)をもとめ、そのかくりつあらかじめた基準きじゅん(有意ゆうい水準すいじゅん、5%または1%が使用しようされることがおおい)よりもちいさい(つまり「こりそうもない」)場合ばあいには「有意ゆういがある」として、うえ仮説かせつ棄却ききゃくされる。

仮説かせつ検定けんていには様々さまざま手法しゅほうがあり、仮説かせつにより使つかける必要ひつようがある。統計とうけいがくてき検定けんてい手法しゅほうは、データが特定とくていかくりつ分布ぶんぷしたがうことを仮定かていする「パラメトリックな手法しゅほう」と、それを仮定かていしない「ノンパラメトリック手法しゅほう」にけられる。

統計とうけいてき推測すいそくただしさとひろし誤差ごさ[編集へんしゅう]

統計とうけいてき推論すいろんでは観測かんそくされたデータをもとしん分布ぶんぷ ptrue(x)を統計とうけいモデル pmodel(x|θしーた)で近似きんじしようとする、いいかえれば2分布ぶんぷ誤差ごさ最小さいしょうしようとする。観測かんそくされたデータ=「しん分布ぶんぷ部分ぶぶん集合しゅうごう」からしん分布ぶんぷ全体ぜんたい推測すいそくをしたさい誤差ごさという意味いみで、これはひろし誤差ごさばれる。すなわち統計とうけいてき推測すいそく目的もくてきひろし誤差ごさ最小さいしょうする統計とうけいモデルの構築こうちくにある。

しかし実際じっさい統計とうけいてき推測すいそくをおこなうさいには ptrue(x) が不明ふめい場合ばあいおおい。ptrue(x) があきらかならばそもそも推論すいろんをおこなう必要ひつようがほぼないからである。つまり一般いっぱんにはひろし誤差ごさ直接ちょくせつ計算けいさんできない[2]ひろし誤差ごさ計算けいさんできないということは、統計とうけいモデルがただしいかかにはこたえられない、ということである。

だからといってひろし誤差ごさ無意味むいみなわけではない。データ(標本ひょうほん)はしん分布ぶんぷ ptrue(x) からランダムサンプリングされるかくりつ変数へんすうである。そして統計とうけいモデルはかくりつ変数へんすうたるデータによって学習がくしゅうされるため、ひろし誤差ごさもまたかくりつ変数へんすうである。かくりつ変数へんすうであるということは統計とうけいてき性質せいしつ見出みいだすことが可能かのうである(分布ぶんぷなど)。すなわち存在そんざいするデータで学習がくしゅうされた統計とうけいモデルのひろし誤差ごさ計算けいさんできないが、ひろし誤差ごさいは研究けんきゅうすることができる。これを利用りようし、

  • どのような分布ぶんぷ pmodel(X|θしーた)が
  • どのようなデータ x をあたえられたとき
  • どのような推測すいそくほうると

ひろし誤差ごさがいかにうか(れい: ガウス分布ぶんぷ十分じゅうぶんりょうのデータをあたさいゆう推定すいていをおこなうとひろし誤差ごさはxxxのようにふるまう)をることができる。この研究けんきゅう進展しんてんすれば、観測かんそくされたまえのデータにもとづいて学習がくしゅうされた pmodel(x|θしーた)のただしさにはこたえられなくても、その統計とうけいてきいをこたえることができる。

たとえばゆう着目ちゃくもくしたとき、ゆう最大さいだいすること(さいゆう推定すいてい)がひろし誤差ごさ期待きたい最小さいしょうするかはあきらかではない。ゆう最大さいだいではなく、ゆう周辺しゅうへん平均へいきん最大さいだいひろし誤差ごさ期待きたい最小さいしょうするかもしれない。ひろし誤差ごさいを解析かいせきすることで、この疑問ぎもんこたえることができる。

数学すうがくてき道具立どうぐだ[編集へんしゅう]

ひろし誤差ごさ議論ぎろんするにあたって、その基礎きそにあるのは分布ぶんぷあいだ差異さい距離きょりである。カルバック・ライブラー情報じょうほうりょう(KLダイバージェンス)やワッサースタイン計量けいりょうはそのいちれいである。KLダイバージェンスをもちいれば、さいゆう推定すいていはDKL最小さいしょう手法しゅほうとみることができる。

統計とうけいてき推測すいそくにおいてどの統計とうけいモデル(かくりつ分布ぶんぷとそのパラメータ)をえらぶべきか(統計とうけいてきモデル選択せんたく)の基準きじゅんには以下いかのような数学すうがくてき道具どうぐもちいられる[3]

方法ほうほうろんとそれらの比較ひかく[編集へんしゅう]

られたデータ(標本ひょうほん)にもとづいて母集団ぼしゅうだん分布ぶんぷ推定すいていする様々さまざま方法ほうほうろんがあり、それらはそれぞれの特徴とくちょうがある。

ひょう: 統計とうけいてき推測すいそく手法しゅほう
手法しゅほうめい ははすう θしーた 予測よそく分布ぶんぷ[4] 概要がいよう
さいゆう推定すいてい 最大さいだいゆうによるははすうてん推定すいてい+条件じょうけんづけ予測よそく分布ぶんぷ
MAP推定すいてい MAPによるははすうてん推定すいてい+条件じょうけんづけ予測よそく分布ぶんぷ
ベイズ推定すいてい ははすう事後じご分布ぶんぷ+事後じご予測よそく分布ぶんぷははすうによるモデル生成せいせい分布ぶんぷ平均へいきん[5]

それぞれを評価ひょうかする特徴とくちょうとしては、ひろし誤差ごさいなどがげられる。

出典しゅってん[編集へんしゅう]

  1. ^ 渡辺わたなべ. 統計とうけいてき推測すいそく学習がくしゅう. 東京工業大学とうきょうこうぎょうだいがく.
  2. ^ 渡辺わたなべ澄夫すみお, 「学習がくしゅう理論りろん基礎きそ概念がいねん」『計測けいそく制御せいぎょ』 44かん 5ごう 2005ねん p.293-298, doi:10.11499/sicejl1962.44.293, 計測けいそく自動じどう制御せいぎょ学会がっかい
  3. ^ 後藤ごとう正幸まさゆき、「統計とうけいてきモデル選択せんたく - データがえらいモデルとは? (PDF)
  4. ^ 将来しょうらい観測かんそくされるであろうデータx*の分布ぶんぷ予測よそく分布ぶんぷ(predictive distribution)といいます」豊田とよだ秀樹ひでき. (2016). はじめての統計とうけいデータ分析ぶんせき. p.38. 朝倉書店あさくらしょてん.
  5. ^ 事後じご予測よそく分布ぶんぷは『事後じご分布ぶんぷ f(θしーた|x)による統計とうけいモデルf(x*|θしーた)の平均へいきん』です。... これがははすうによるモデル生成せいせい分布ぶんぷ平均へいきんです。」豊田とよだ秀樹ひでき. (2016). はじめての統計とうけいデータ分析ぶんせき. p.38. 朝倉書店あさくらしょてん.

参考さんこう文献ぶんけん[編集へんしゅう]

  • 東京大学とうきょうだいがく教養きょうよう学部がくぶ統計とうけいがく教室きょうしつ(へん) へん統計とうけいがく入門にゅうもん東京大学とうきょうだいがく出版しゅっぱんかい、1991ねん 
  • 蓑谷みのたに せん凰彦『推定すいてい検定けんていのはなし』東京とうきょう図書としょ、1988ねん 
  • R. A. フィッシャー ちょ渋谷しぶや 政昭まさあき, 竹内たけうち あきら(わけ) へん統計とうけいてき方法ほうほう科学かがくてき推論すいろん』1962ねん 
  • 吉村よしむら(1971), 「アザラシじょう奇形きけい原因げんいん -サリドマイド仮説かせつ成立せいりつかんする統計とうけいがくじょうそうてんについて」『科学かがく』41(3) 146-154, 1971-03, NAID 40017543798: 推計すいけい統計とうけいがく好例こうれいとして