(Translated by https://www.hiragana.jp/)
ヒストグラム - Wikipedia コンテンツにスキップ

ヒストグラム

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』
ヒストグラムのれい。アメリカで1973ねんから1978ねんにかけて事故死じこしした人数にんずうつきごと集計しゅうけいしたもの。よこじく各月かくつき事故死じこしした人数にんずうを500にんごと区切くぎった階級かいきゅうを、たてじくかく階級かいきゅうぞくするつきかず(=度数どすう)をあらわしている。ヒストグラムからは(a)ひとがつ事故死じこしする人数にんずう平均へいきんはおよそ8500にん前後ぜんこうであること、(b)ひとがつ事故死じこしする人数にんずうは6500-11500にんであること、(c)分布ぶんぷはおよそ対称たいしょうであること、などがれる。

ヒストグラム英語えいご: histogram[1])とは、たてじく度数どすうよこじく階級かいきゅうをとった統計とうけいグラフ一種いっしゅで、データの分布ぶんぷじょうきょう視覚しかくてき認識にんしきするためにおも統計とうけいがく数学すうがく画像がぞう処理しょりとうもちいられる。柱状ちゅうじょう柱状ちゅうじょうグラフ度数どすう分布ぶんぷともいう[1]

工業こうぎょう分野ぶんやでは、パレートチェックシート管理かんり特性とくせい要因よういんそう別法べっぽう散布さんぷならんで、品質ひんしつ管理かんりのためのQCなな道具どうぐとしてられている。

語源ごげん[編集へんしゅう]

histogram (ヒストグラム)の語源ごげんは、さだかではないが、古代こだいギリシャで「なにかを直立ちょくりつにする」(帆船はんせんマスト織機しょっきのバー、ヒストグラムのたてぼうなど)という意味いみἱστόςistos、イストス)と、「えがいたり、記録きろくしたり、いたりすること」という意味いみγράμμαgramma、グラマ)をわせた用語ようごだといわれている。この用語ようごは、イギリス統計とうけい学者がくしゃカール・ピアソン1891ねんに historical diagram から創案そうあんしたともいわれている[2]

定義ていぎ[編集へんしゅう]

日本工業規格にほんこうぎょうきかく JIS Z 8101-1:2015 (国際こくさい規格きかく ISO 3534-1:2006 と同等どうとう)の「1.61 ヒストグラム」では、つぎのとおりに規定きていしている[3]

底辺ていへんながさがきゅうはば(1.58)にひとしく,その面積めんせききゅう度数どすう比例ひれいする近接きんせつする長方形ちょうほうけいからなる度数どすう分布ぶんぷ(1.60)のグラフ表現ひょうげん

注記ちゅうき 1 きゅうはば均一きんいつ場合ばあいには,注意ちゅうい必要ひつようである。きゅうはば均一きんいつ場合ばあいには,きゅう面積めんせききゅう度数どすう比例ひれいさせるとよい。

注記ちゅうき 2 すべてのきゅうはばひとしくし,長方形ちょうほうけいたかさをきゅう度数どすう比例ひれいさせるのが一般いっぱんてきである。

おなじデータからつくられた一般いっぱんてきなヒストグラム(ひだり)と累積るいせき度数どすう。このデータは平均へいきん 0、標準ひょうじゅん偏差へんさ 1 の正規せいき分布ぶんぷから無作為むさくいえらんだ 10,000 てんのサンプルをしめしている。

ヒストグラム[編集へんしゅう]

ヒストグラムは、各々おのおのたがいにもとである区間くかん階級かいきゅうカテゴリ、これをビン (bins) という。ヒストグラムのグラフのはしらぼう)のこと)に分類ぶんるいできる、観察かんさつ結果けっかかずにしたもの。計算けいさんする関数かんすう mi である。ヒストグラムのは、階級かいきゅうひとめたときのヒストグラムを表現ひょうげんする方法ほうほうである。階級かいきゅうはばひとつの階級かいきゅうのデータすうぜんデータすう平方根へいほうこん程度ていどがよいとう見解けんかいをはじめなん種類しゅるい推奨すいしょうがある(後述こうじゅつ[4]基準きじゅんてんも0をふく場合ばあいには0を基準きじゅんてんにすることがある。それ以外いがい場合ばあいには、最小さいしょう最大さいだいふくりのよいにする方法ほうほうと、りのよいかず中央ちゅうおうとする方法ほうほうがある。すべての観察かんさつ結果けっかかず n とすべての階級かいきゅうかず k、ヒストグラム miあたえて、これらには以下いかしき関係かんけいつ。

累積るいせき度数どすう[編集へんしゅう]

累積るいせき度数どすうえい: cumulative histogram)は、特定とくてい階級かいきゅうまでのすべての階級かいきゅうふく観察かんさつ結果けっか累積るいせきすう記入きにゅうする。累積るいせき度数どすう関数かんすうMi はヒストグラム関数かんすう mjもちいて以下いかしきのように定義ていぎできる。

なお、累積るいせき度数どすう(cumulative frequency)を日本工業規格にほんこうぎょうきかくでは、「ある以下いか観測かんそく度数どすうまたは相対そうたい度数どすう」と定義ていぎしている[5]

具体ぐたいれい[編集へんしゅう]

ウィキペディア日本語にほんごばん記事きじ「ヒストグラム」(とう記事きじ)の2013ねん1がつ閲覧えつらん回数かいすう具体ぐたいれいとして、ヒストグラムの作成さくせいかんがえる。2013ねん1がつ各日かくじつ閲覧えつらんされた回数かいすう以下いかとおりである[6]

閲覧えつらん回数かいすう 閲覧えつらん回数かいすう
1 78 16 625
2 126 17 606
3 156 18 483
4 231 19 377
5 215 20 370
6 304 21 587
7 484 22 667
8 544 23 643
9 566 24 756
10 545 25 505
11 478 26 436
12 258 27 399
13 225 28 611
14 373 29 679
15 620 30 575
31 565

[ひょう見方みかた] 11 のらんが 478 となっているのは、2013ねん1がつ11にち記事きじ「ヒストグラム」の閲覧えつらん回数かいすうが 478 かいであったことを意味いみする。

1.ウィキペディア日本語にほんごばん記事きじ「ヒストグラム」の2013ねん1がつにおける閲覧えつらん回数かいすうから作成さくせいされたヒストグラム

これを集計しゅうけいすると、つぎのようになる。上述じょうじゅつとおり、階級かいきゅうかずはば設定せっていには諸説しょせつあるが、ここでは階級かいきゅうかずを 8、はばを 100 とした。

閲覧えつらん回数かいすう その回数かいすう記録きろくした日数にっすう
0 - 99 1
100 - 199 2
200 - 299 4
300 - 399 5
400 - 499 4
500 - 599 7
600 - 699 7
700 - 799 1

[ひょう見方みかた] 400 - 499 のらんが 4 となっているのは、1 にち記事きじ「ヒストグラム」の閲覧えつらん回数かいすうが 400 かいから 499 かいであったが2013ねん1がつに 4 にちあったことを意味いみする。

したがって、これをヒストグラムにすると、1のようになる。

階級かいきゅう個数こすうはば[編集へんしゅう]

階級かいきゅう個数こすうについての最良さいりょうはなく、階級かいきゅうおおきさがことなればことなったデータの特徴とくちょうしめ可能かのうせいがある。いくにんかの理論りろん最適さいてき階級かいきゅう個数こすう定義ていぎしようとこころみたが、これらの方法ほうほうがいして分布ぶんぷ形態けいたいかんするつよ仮定かてい設定せっていされてしまっている。実際じっさいのデータ分布ぶんぷ依存いぞんした分析ぶんせきさきとして、さまざまな階級かいきゅうはば適切てきせつである可能かのうせいがあり、通常つうじょう実験じっけんのたびに適切てきせつはば決定けっていする必要ひつようがある。しかし、さまざまな有用ゆうよう指針ししん経験けいけんてきられた方法ほうほうがある[7]

階級かいきゅうはば h は、直接的ちょくせつてきあたえられるか、したしめされる階級かいきゅう個数こすう k からつぎしきあたえられる。

うえしきだい括弧かっこ天井てんじょう関数かんすうしめす。
平方根へいほうこん選択せんたくえい: Square-root choice
標本ひょうほんちゅうのデータすう平方根へいほうこんをとるものである[8]
スタージェスの公式こうしきえい: Sturges' formula[9]
このしき階級かいきゅうおおきさに暗黙あんもく仮定かていいている。そのため、n < 30 (階級かいきゅうすうが7未満みまん)の場合ばあい、このしき使用しよう不適切ふてきせつである。また、標本ひょうほん一般いっぱんてき分布ぶんぷおおきくことなる場合ばあいも、このしきてきさないことがある。
スコットの選択せんたくえい: Scott's choice[10]
ここで σしぐま標本ひょうほん標準ひょうじゅん偏差へんさである。
フリードマン・ダイアコニスの選択せんたくえい: Freedman–Diaconis' choice[11]
IQR でしめされるよんふん範囲はんいもとづく。
L2 危険きけん関数かんすう推定すいてい最小さいしょうもとづく選択せんたく[12]
ここで mv は、階級かいきゅうはばh であるヒストグラムの平均へいきんおよび標本ひょうほん分散ぶんさんである。つまり、m = 1/kk
i = 1
mi
であり、v = 1/kk
i = 1
(mim)2
である。

種類しゅるい[編集へんしゅう]

つぎの4種類しゅるいけられる。

  1. Uがた分布ぶんぷ
  2. 均一きんいつ分布ぶんぷ
  3. やまがた分布ぶんぷ
  4. 歪曲わいきょく分布ぶんぷ の2種類しゅるい分類ぶんるいできる。
    1. ひだり歪曲わいきょく分布ぶんぷ
    2. みぎ歪曲わいきょく分布ぶんぷ

以下いか項目こうもくれいもちいて説明せつめいする。

Uがた分布ぶんぷ[編集へんしゅう]

最初さいしょ区間くかんから徐々じょじょがっていき、中間ちゅうかん(ほとんどの場合ばあい)で最小さいしょうとなり、ふたたがっていく。このようなヒストグラムをUがた分布ぶんぷ (U-shaped distribution) という。 階級かいきゅうかずを 10、はばを 10 とする。

点数てんすう この点数てんすうをとった学生がくせいかず
0.5-10.5 10
10.5-21.5 8
21.5-31.5 6
31.5-41.5 4
41.5-51.5 2
51.5-61.5 0
61.5-71.5 2
71.5-81.5 4
81.5-91.5 6
91.5-101.5 8

均一きんいつ分布ぶんぷ[編集へんしゅう]

すべての区間くかんかずひとしいとき、または、ちかいとき(だいたいが 2 以下いか)、このヒストグラムを均一きんいつ分布ぶんぷ (uniform distribution) という。一様いちよう分布ぶんぷともいう。つぎの 2 種類しゅるい分類ぶんるいできる。

  1. 連続れんぞくいちよう分布ぶんぷ (Continuous uniform distribution)
  2. 離散りさんいちよう分布ぶんぷ (Discrete uniform distibution)

やまがた分布ぶんぷ[編集へんしゅう]

中央ちゅうおう区間くかん最大さいだいになっているヒストグラムをやまがた分布ぶんぷ (mound-shaped distribution) という。

歪曲わいきょく分布ぶんぷ[編集へんしゅう]

スケートボードじょうのような屈曲くっきょくしたかたち分布ぶんぷ歪曲わいきょく分布ぶんぷ (skewed distribution) という。ひだりからがっていくのをみぎ歪曲わいきょく分布ぶんぷ (right-skewed distribution)みぎがっていくのをひだり歪曲わいきょく分布ぶんぷ (left-skewed sidtribution) という。

脚注きゃくちゅう[編集へんしゅう]

  1. ^ a b ヒストグラム”. J-GLOBAL. 2020ねん11月27にち閲覧えつらん
  2. ^ Magnello 2006.
  3. ^ JIS Z 8101-1.
  4. ^ 西岡にしおか, 1.4 すう分布ぶんぷ p.8.
  5. ^ JIS Z 8101-1 : 1999, 2.5 累積るいせき度数どすう.
  6. ^ 閲覧えつらん回数かいすうのデータはWikipedia article traffic statisticsによった。
  7. ^ たとえば Venables & Ripley 2002, § 5.6 "Density Estimation".
  8. ^ Microsoft Excelのヒストグラムやその多数たすう採用さいようされている。
  9. ^ Sturges 1926.
  10. ^ Scott 1979.
  11. ^ フリードマン=ダイアコニスの法則ほうそく出典しゅってんFreedman & Diaconis 1981
  12. ^ Shimazaki & Shinomoto 2007.

参考さんこう文献ぶんけん[編集へんしゅう]

関連かんれん項目こうもく[編集へんしゅう]

外部がいぶリンク[編集へんしゅう]