要約ようやく統計とうけいりょう

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』
代表だいひょうから転送てんそう

要約ようやく統計とうけい(ようやくとうけい、えい: summary statistic)あるいは、記述きじゅつ統計とうけいえい: descriptive statistic)とは、標本ひょうほん分布ぶんぷ特徴とくちょう定量ていりょうてき記述きじゅつ要約ようやくする統計とうけいがくうえであり、統計とうけいりょう一種いっしゅである。基本きほん統計とうけいえい: basic statistic)または代表だいひょう(えい: representative value)ともばれることもある[1][2]

概要がいよう[編集へんしゅう]

記述きじゅつ統計とうけいがくえい: descriptive statistics)は、こうした統計とうけいりょうもちいて分析ぶんせきする学問がくもん領域りょういきである。記述きじゅつ統計とうけいがくは、データをもちいてデータの標本ひょうほんあらわすとかんがえられる母集団ぼしゅうだんについてるのではなく、標本ひょうほん要約ようやくすることを目的もくてきとしているてんで、推計すいけい統計とうけいがくえい: inferential statistics, or inductive statistics)と区別くべつされる[3]。つまり、記述きじゅつ統計とうけい推計すいけい統計とうけいことなり、確率かくりつろんもとづいて発展はってんしたものではなく、ノンパラメトリック手法しゅほうであることがおお[4]

データ分析ぶんせきにおいては、推計すいけい統計とうけいもちいて主要しゅよう結論けつろん場合ばあいでも、一般いっぱんてきには記述きじゅつ統計とうけい提示ていじされる[3]。たとえば、ヒト被験者ひけんしゃについて報告ほうこくする論文ろんぶんでは、通常つうじょう全体ぜんたい標本ひょうほんすう英語えいごばん重要じゅうようなサブグループ(たとえば、かく治療ちりょうぐん曝露ばくろぐん)の標本ひょうほんすう平均へいきん年齢ねんれいかくせい被験者ひけんしゃ割合わりあい関連かんれんする併存へいそんしょう被験者ひけんしゃ割合わりあいなどの人口じんこう統計とうけいがくまたは臨床りんしょうてき特徴とくちょうしめひょうふくまれる。

データセットを記述きじゅつするために一般いっぱんてき使用しようされる指標しひょうには、中心ちゅうしん傾向けいこう英語えいごばん指標しひょうと、変動へんどうせいまたはばらつき指標しひょうがある。中心ちゅうしん傾向けいこう指標しひょうには平均へいきん中央ちゅうおうさいしきがあり、変動へんどうせい指標しひょうには標準ひょうじゅん偏差へんさ(または分散ぶんさん)、変数へんすう最小さいしょう最大さいだいとんがたびいびつがある[5]

統計とうけい分析ぶんせきでの利用りよう[編集へんしゅう]

記述きじゅつ統計とうけいは、標本ひょうほんおこなわれた観察かんさつについての簡単かんたん要約ようやく提供ていきょうする.このような要約ようやくは、要約ようやく統計とうけいりょう英語えいごばんのような定量ていりょうてきなものもあれば、わかりやすいグラフのような視覚しかくてきなものもある。また、これらの要約ようやくは、より広範こうはん統計とうけい解析かいせき一部いちぶとしてデータを最初さいしょ説明せつめいするさい基礎きそすこともあれば、特定とくてい調査ちょうさのためにはそれ自体じたい十分じゅうぶんなこともある。

たとえば、バスケットボールのシュート決定けっていりつは、選手せんしゅやチームの成績せいせき要約ようやくする記述きじゅつ統計とうけいりょうである。この数値すうちは、ゴールしたシュートすうはなったシュートすうったものである。たとえば、シュートりつ33%の選手せんしゅは、3かいに1かい割合わりあいでシュートをめている。パーセンテージは、複数ふくすう離散りさん事象じしょう要約ようやくまたは説明せつめいする。学生がくせい成績せいせき評価ひょうかかんがえてみよう。この単一たんいつ数値すうちは、ある学生がくせいのコース経験けいけん範囲はんい全体ぜんたいにわたる一般いっぱんてき成績せいせき記述きじゅつするものである[6]

記述きじゅつ統計とうけい要約ようやく統計とうけい使用しようには幅広はばひろ歴史れきしがあり、実際じっさい人口じんこう経済けいざいデータの単純たんじゅん集計しゅうけいは、統計とうけいがくというトピックが最初さいしょ登場とうじょうした手法しゅほうであった。最近さいきんでは、探索たんさくてきデータ解析かいせきという見出みだしのした要約ようやく手法しゅほうのコレクションが作成さくせいされている。そのような手法しゅほうれいとして、はこひげがある。ビジネスの世界せかいでは、記述きじゅつ統計とうけいおおくの種類しゅるいのデータにたいする有用ゆうよう要約ようやく提供ていきょうする。たとえば、投資とうしやブローカーは、将来しょうらいのより投資とうし決定けっていおこなうために、投資とうしかんする実証じっしょうてき分析ぶんせきおよび解析かいせきてき分析ぶんせきおこなうことによって、リターン動向どうこう歴史れきしてき根拠こんきょ活用かつようすることができる。

たん変量へんりょう解析かいせき[編集へんしゅう]

たん変量へんりょう解析かいせき英語えいごばんでは、中心ちゅうしん傾向けいこう平均へいきん中央ちゅうおうさいしき)と分散ぶんさん(データセットの範囲はんい英語えいごばんよんふんすう分散ぶんさん標準ひょうじゅん偏差へんさなどのひろがりの尺度しゃくど)をふくむ、たん一変いっぺんすう分布ぶんぷ記述きじゅつする。分布ぶんぷ形状けいじょうは、いびつとんがたびなどの指標しひょうによって記述きじゅつすることもできる。変数へんすう分布ぶんぷ特性とくせいは、ヒストグラムみき表示ひょうじなど、グラフまたはおもて形式けいしきあらわすこともできる。

正規せいき分布ぶんぷ場合ばあいは、平均へいきんと、分散ぶんさんまたは標準ひょうじゅん偏差へんさ分布ぶんぷ記述きじゅつできる。正規せいき分布ぶんぷからのずれをるためには、とんがたびいびつなどの高次こうじモーメントからもとめられる統計とうけいりょうもちいる。

正規せいき分布ぶんぷからいちじるしくはずれた場合ばあいには、より頑健がんけん中央ちゅうおうよんふんてん最大さいだい最小さいしょうさいしきもちいられる。「頑健がんけん」とは分布ぶんぷ非対称ひたいしょうせいはずなどの影響えいきょうけにくいことを意味いみする統計とうけい用語ようごである。たとえば、労働ろうどうしゃいちにんあたりの年収ねんしゅうれいれば、もっと収入しゅうにゅうすくなくても0未満みまんにはならないのにたいし、収入しゅうにゅうおおいほうではすうじゅうおくえんという年収ねんしゅうかせ少数しょうすうしゃがありる。この場合ばあい分布ぶんぷは、少数しょうすうしゃ上側うわがわにいることによって、上側うわがわ極端きょくたんいた非対称ひたいしょう分布ぶんぷとなる。平均へいきんはこれらの極端きょくたん高値たかね影響えいきょうけ、分布ぶんぷ代表だいひょうとして適切てきせつでないものとなってしまう。中央ちゅうおうさいしきでは、いかにけたであっても1れいとしてしかあつかわれないので、よりだい多数たすう実感じっかんちかしめすことができる。

変量へんりょう解析かいせきおよび変量へんりょう解析かいせき[編集へんしゅう]

標本ひょうほん複数ふくすう変数へんすう構成こうせいされている場合ばあい記述きじゅつ統計とうけい使用しようして、変数へんすうのペアあいだ関係かんけい記述きじゅつすることができる。この場合ばあい記述きじゅつ統計とうけいにはつぎにあげるようなものがある。

たん変量へんりょう解析かいせき変量へんりょう解析かいせき区別くべつするおも理由りゆうは、変量へんりょう解析かいせきたんなる記述きじゅつてき解析かいせきにとどまらず、ことなるふたつの変数へんすうあいだ関係かんけい記述きじゅつすることである[7]依存いぞんせい定量ていりょうてき尺度しゃくどには、相関そうかん両方りょうほう変数へんすう連続れんぞくがた場合ばあいはピアソンのr、一方いっぽうまたは両方りょうほう連続れんぞくがたでない場合ばあいスピアマンのrhoなど)ときょう分散ぶんさん尺度しゃくど変数へんすう対応たいおうしていることを反映はんえいする[訳語やくご疑問ぎもんてん])がある。回帰かいき分析ぶんせきでは、かたむ変数へんすうあいだ関連かんれんせい反映はんえいする。標準ひょうじゅんされていない勾配こうばいは、予測よそく変数へんすうの1単位たんい変化へんかたいする目的もくてき変数へんすう単位たんい変化へんかしめす。標準ひょうじゅんされている勾配こうばいは、この変化へんか標準ひょうじゅんされた単位たんい標準ひょうじゅん得点とくてん)でしめす。おおきくいがんだデータは、対数たいすうをとって変換へんかんされることがよくある。対数たいすうもちいると、グラフはより対称たいしょうてきになり、正規せいき分布ぶんぷちかくなるので、直感ちょっかんてき解釈かいしゃくしやすくなる[8]:47

モーメントからもとめられる要約ようやく統計とうけいりょう[編集へんしゅう]

N のデータ たいする統計とうけいりょうかんがえる。まず、平均へいきん と、平均へいきんまわりの m 中央ちゅうおうモーメント[9]

定義ていぎする。

平均へいきん[編集へんしゅう]

原点げんてんまわりの1モーメント 個数こすうったもの。

分散ぶんさん標準ひょうじゅん偏差へんさ[編集へんしゅう]

2中央ちゅうおうモーメントからもとめられる統計とうけいりょう分布ぶんぷひろがりをあらわす。

分散ぶんさん:  
標準ひょうじゅん偏差へんさ

いびつ[編集へんしゅう]

3中央ちゅうおうモーメントからもとめられる統計とうけいりょう分布ぶんぷ左右さゆう非対称ひたいしょう度合どあいをあらわす。

とんがたび[編集へんしゅう]

4中央ちゅうおうモーメントからもとめられる統計とうけいりょう分布ぶんぷみねするどさ(裾野すそのひろさ)をあらわす。

ただし、3 をかない定義ていぎもある。

順序じゅんじょからもとめられる要約ようやく統計とうけいりょう[編集へんしゅう]

以下いか昇順しょうじゅんソートされた N のデータ たいする統計とうけいりょう順序じゅんじょ統計とうけいりょう)をかんがえる。

中央ちゅうおう[編集へんしゅう]

メジアン、メディアン (えい: median) ともいう。データのおおきさにかんしてちょうど中央ちゅうおうたるデータ x (N + 1) / 2 。ただし、整数せいすうでない添数にたいする中央ちゅうおう線形せんけい補間ほかんによって定義ていぎする(つまり N偶数ぐうすうのときは xN / 2xN / 2 + 1平均へいきんとする)。

かりこみ平均へいきんトリム平均へいきん英語えいごばん[編集へんしゅう]

最大さいだい最小さいしょう除外じょがいした平均へいきん除外じょがいするかずやしてくと、最後さいご中央ちゅうおうになる。そのため、中央ちゅうおうかりこみ平均へいきんひとつである[10]

よんふんてん[編集へんしゅう]

集団しゅうだんおおきさで4等分とうぶんするとき、その境界きょうかいとなる。x (N + 3) / 4だい1よんふんてんx (3N + 1) / 4だい3よんふんてんという。x(2N + 2) / 4 、つまりだい2よんふんてん中央ちゅうおうである。

最小さいしょう最大さいだい[編集へんしゅう]

集団しゅうだんふくまれるもっとちいさい x1 と、もっとおおきい xN

これらの統計とうけいりょう視覚しかくするために、はこひげもちいる。

中点ちゅうてん[編集へんしゅう]

最大さいだい最小さいしょうして2でったものを中点ちゅうてん(えい: mid-range)とよび、代表だいひょうとしてもちいることがある[11]

範囲はんい[編集へんしゅう]

最大さいだい最小さいしょう範囲はんい(えい: range)とよび、代表だいひょうとしてもちいることがある[12]記号きごうはRをもちいる。

度数どすうからもとめられる要約ようやく統計とうけいりょう[編集へんしゅう]

さいしき[編集へんしゅう]

さいしきは、モード (えい: mode)または すう ともいい、データのうち、度数どすう分布ぶんぷにおいてもっとたか度数どすうしめ、つまりもっとおおあらわれているデータのである。

脚注きゃくちゅう[編集へんしゅう]

  1. ^ 西岡にしおか, p.1.
  2. ^ 伏見ふしみ, だいIIIあきら 記述きじゅつ統計とうけいりょう 13せつ かくりつ分布ぶんぷ統計とうけい分布ぶんぷ p.110.
  3. ^ a b “Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing”, Interpreting and Using Statistics in Psychological Research (2455 Teller Road, Thousand Oaks California 91320: SAGE Publications, Inc): pp. 145–183, (2017), doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, https://doi.org/10.4135/9781506304144.n6 2021ねん6がつ1にち閲覧えつらん 
  4. ^ Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4. https://archive.org/details/oxforddictionary0000unse 
  5. ^ Investopedia, Descriptive Statistics Terms
  6. ^ Trochim, William M. K. (2006ねん). “Descriptive statistics”. Research Methods Knowledge Base. 2011ねん3がつ14にち閲覧えつらん
  7. ^ Babbie, Earl R. (2009). The Practice of Social Research (12th ed.). Wadsworth. pp. 436–440. ISBN 978-0-495-59841-1. https://archive.org/details/isbn_9780495598428 
  8. ^ Nick, Todd G. (2007). “Descriptive Statistics”. Topics in Biostatistics. Methods in Molecular Biology. 404. New York: Springer. pp. 33–52. doi:10.1007/978-1-59745-530-5_3. ISBN 978-1-58829-531-6. PMID 18450044 
  9. ^ 用語ようごm 中央ちゅうおうモーメント」は、竹内たけうちあきら編集へんしゅう委員いいん代表だいひょう)『統計とうけいがく辞典じてん東洋経済新報社とうようけいざいしんぽうしゃ, 1989 による。
  10. ^ 西岡にしおか康夫やすお,数学すうがくチュートリアル やさしくかたかくりつ統計とうけい,ム社むしゃ, p.5, p.52013, ISBN 9784274214073
  11. ^ JIS Z 8101-1 : 1999, 2.16 中点ちゅうてん.
  12. ^ JIS Z 8101-1 : 1999, 2.17 範囲はんい.

参考さんこう文献ぶんけん[編集へんしゅう]

関連かんれん項目こうもく[編集へんしゅう]

外部がいぶリンク[編集へんしゅう]