ヒストグラム

ヒストグラム（英語えいご: histogram^[1]）とは、縦たて軸じくに度数どすう、横よこ軸じくに階級かいきゅうをとった統計とうけいグラフの一種いっしゅで、データの分布ぶんぷ状じょう況きょうを視覚しかく的てきに認識にんしきするために主おもに統計とうけい学がくや数学すうがく、画像がぞう処理しょり等とうで用もちいられる。柱状ちゅうじょう図ず、柱状ちゅうじょうグラフ、度数どすう分布ぶんぷ図ずともいう^[1]。

工業こうぎょう分野ぶんやでは、パレート図ず、チェックシート、管理かんり図ず、特性とくせい要因よういん図ず、層そう別法べっぽう、散布さんぷ図ずと並ならんで、品質ひんしつ管理かんりのためのQC七ななつ道具どうぐとして知しられている。

語源ごげん[編集へんしゅう]

histogram （ヒストグラム）の語源ごげんは、定さだかではないが、古代こだいギリシャ語ごで「なにかを直立ちょくりつにする」（帆船はんせんのマスト、織機しょっきのバー、ヒストグラムの縦たて棒ぼうなど）という意味いみの ἱστός （istos、イストス）と、「描えがいたり、記録きろくしたり、書かいたりすること」という意味いみの γράμμα （gramma、グラマ）を合あわせた用語ようごだといわれている。この用語ようごは、イギリスの統計とうけい学者がくしゃカール・ピアソンが1891年ねんに historical diagram から創案そうあんしたともいわれている^[2]。

定義ていぎ[編集へんしゅう]

日本工業規格にほんこうぎょうきかく JIS Z 8101-1:2015 （国際こくさい規格きかく ISO 3534-1:2006 と同等どうとう）の「1.61 ヒストグラム」では、次つぎのとおりに規定きていしている^[3]。

底辺ていへんの長ながさが級きゅうの幅はば（1.58）に等ひとしく，その面積めんせきが級きゅうの度数どすうに比例ひれいする近接きんせつする長方形ちょうほうけいからなる度数どすう分布ぶんぷ（1.60）のグラフ表現ひょうげん。

注記ちゅうき 1　級きゅうの幅はばが不ふ均一きんいつな場合ばあいには，注意ちゅういが必要ひつようである。級きゅうの幅はばが不ふ均一きんいつな場合ばあいには，級きゅうの面積めんせきを級きゅうの度数どすうに比例ひれいさせるとよい。

注記ちゅうき 2　全すべての級きゅうの幅はばを等ひとしくし，長方形ちょうほうけいの高たかさを級きゅうの度数どすうに比例ひれいさせるのが一般いっぱん的てきである。

ヒストグラム[編集へんしゅう]

ヒストグラムは、各々おのおのが互たがいに素もとである区間くかん・階級かいきゅう（カテゴリ、これをビン (bins) という。ヒストグラムのグラフの柱はしら（棒ぼう）のこと）に分類ぶんるいできる、観察かんさつ結果けっかの数かずを図ずにしたもの。計算けいさんする関数かんすう $m i$ である。ヒストグラムの図ずは、階級かいきゅうを一ひとつ決きめた時ときのヒストグラムを表現ひょうげんする方法ほうほうである。階級かいきゅうの幅はばは一ひとつの階級かいきゅうのデータ数すうが全ぜんデータ数すうの平方根へいほうこん程度ていどがよいとう見解けんかいをはじめ何なん種類しゅるいか推奨すいしょうがある（後述こうじゅつ）^[4]。基準きじゅん点てんも０を含ふくむ場合ばあいには０を基準きじゅん点てんにすることがある。それ以外いがいの場合ばあいには、最小さいしょう値ち、最大さいだい値ちを含ふくむ切きりのよい値ねにする方法ほうほうと、切きりのよい数かずを中央ちゅうおう値ちとする方法ほうほうがある。すべての観察かんさつ結果けっかの数かず $n$ とすべての階級かいきゅうの数かず $k$ 、ヒストグラム $m i$ を与あたえて、これらには以下いかの式しきの関係かんけいが成なり立たつ。

n=\sum _{i=1}^{k}{m_{i}}.

累積るいせき度数どすう図ず[編集へんしゅう]

累積るいせき度数どすう図ず（英えい: cumulative histogram）は、特定とくていの階級かいきゅうまでのすべての階級かいきゅうに含ふくむ観察かんさつ結果けっかの累積るいせき数すうを記入きにゅうする。累積るいせき度数どすう関数かんすうと $M i$ はヒストグラム関数かんすう $m j$ を用もちいて以下いかの式しきのように定義ていぎできる。

M_{i}=\sum _{j=1}^{i}{m_{j}}.

なお、累積るいせき度数どすう(cumulative frequency)を日本工業規格にほんこうぎょうきかくでは、「ある値ね以下いかの観測かんそく値ちの度数どすうまたは相対そうたい度数どすう」と定義ていぎしている^[5]。

具体ぐたい例れい[編集へんしゅう]

ウィキペディア日本語にほんご版ばんの記事きじ「ヒストグラム」（当とう記事きじ）の2013年ねん1月がつの閲覧えつらん回数かいすうを具体ぐたい例れいとして、ヒストグラムの作成さくせいを考かんがえる。2013年ねん1月がつの各日かくじつに閲覧えつらんされた回数かいすうは以下いかの通とおりである^[6]。

日ひ	閲覧えつらん回数かいすう	日ひ	閲覧えつらん回数かいすう
1	78	16	625
2	126	17	606
3	156	18	483
4	231	19	377
5	215	20	370
6	304	21	587
7	484	22	667
8	544	23	643
9	566	24	756
10	545	25	505
11	478	26	436
12	258	27	399
13	225	28	611
14	373	29	679
15	620	30	575
		31	565

[表ひょうの見方みかた] 11 の欄らんが 478 となっているのは、2013年ねん1月がつ11日にちの記事きじ「ヒストグラム」の閲覧えつらん回数かいすうが 478 回かいであったことを意味いみする。

これを集計しゅうけいすると、次つぎのようになる。上述じょうじゅつの通とおり、階級かいきゅうの数かずと幅はばの設定せっていには諸説しょせつあるが、ここでは階級かいきゅうの数かずを 8、幅はばを 100 とした。

閲覧えつらん回数かいすう	その回数かいすうを記録きろくした日数にっすう
0 - 99	1
100 - 199	2
200 - 299	4
300 - 399	5
400 - 499	4
500 - 599	7
600 - 699	7
700 - 799	1

[表ひょうの見方みかた] 400 - 499 の欄らんが 4 となっているのは、1 日にちの記事きじ「ヒストグラム」の閲覧えつらん回数かいすうが 400 回かいから 499 回かいであった日ひが2013年ねん1月がつに 4 日にちあったことを意味いみする。

したがって、これをヒストグラムにすると、図ず1のようになる。

階級かいきゅうの個数こすうと幅はば[編集へんしゅう]

階級かいきゅうの個数こすうについての最良さいりょうの値ねはなく、階級かいきゅうの大おおきさが異ことなれば異ことなったデータの特徴とくちょうを示しめす可能かのう性せいがある。幾いく人にんかの理論りろん家かは最適さいてきな階級かいきゅうの個数こすうを定義ていぎしようと試こころみたが、これらの方法ほうほうは概がいして分布ぶんぷ形態けいたいに関かんする強つよい仮定かていが設定せっていされてしまっている。実際じっさいのデータ分布ぶんぷに依存いぞんした分析ぶんせきの行いき着つく先さきとして、さまざまな階級かいきゅう幅はばが適切てきせつである可能かのう性せいがあり、通常つうじょうは実験じっけんのたびに適切てきせつな幅はばを決定けっていする必要ひつようがある。しかし、さまざまな有用ゆうような指針ししんや経験けいけん的てきに得えられた方法ほうほうがある^[7]。

階級かいきゅうの幅はば $h$ は、直接的ちょくせつてきに与あたえられるか、下したで示しめされる階級かいきゅうの個数こすう $k$ から次つぎ式しきで与あたえられる。

h=\left\lceil {\frac {\max x-\min x}{k}}\right\rceil .

上うえ式しきの大だい括弧かっこは天井てんじょう関数かんすうを示しめす。

平方根へいほうこん選択せんたく（英えい: Square-root choice）: $k={\sqrt {n}},\,$; 標本ひょうほん中ちゅうのデータ数すうの平方根へいほうこんをとるものである^[8]。
スタージェスの公式こうしき（英えい: Sturges' formula）^[9]: $k=\lceil \log _{2}n+1\rceil ,\,$; この式しきは階級かいきゅうの大おおきさに暗黙あんもくの仮定かていを置おいている。そのため、n < 30 (階級かいきゅう数すうが7未満みまん)の場合ばあい、この式しきの使用しようは不適切ふてきせつである。また、標本ひょうほんが一般いっぱん的てきな分布ぶんぷと大おおきく異ことなる場合ばあいも、この式しきが適てきさないことがある。
スコットの選択せんたく（英えい: Scott's choice）^[10]: $h={\frac {3.5\,\sigma }{n^{1/3}}},$; ここで $σ しぐま$ は標本ひょうほんの標準ひょうじゅん偏差へんさである。
フリードマン・ダイアコニスの選択せんたく（英えい: Freedman–Diaconis' choice）^[11]: $h=2\,{\frac {\operatorname {IQR} (x)}{n^{1/3}}},$; IQR で示しめされる四よん分ふん位い範囲はんいに基もとづく。
$L 2$ 危険きけん関数かんすう推定すいていの最小さいしょう化かに基もとづく選択せんたく^[12]: ${\underset {h}{\operatorname {arg\,min} }}{\frac {2\,{\bar {m}}-v}{h^{2}}}$; ここで $m$ と $v$ は、階級かいきゅうの幅はばが $h$ であるヒストグラムの平均へいきん値ちおよび標本ひょうほん分散ぶんさんである。つまり、 $m = .mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}1/k ∑ki = 1 mi$ であり、 $v = 1 / k \sum k i = 1 (m i - m) 2$ である。

種類しゅるい[編集へんしゅう]

次つぎの4種類しゅるいに分わけられる。

U字じ型がた分布ぶんぷ
均一きんいつ分布ぶんぷ
山やま型がた分布ぶんぷ
歪曲わいきょく分布ぶんぷ次じの2種類しゅるいに分類ぶんるいできる。
1. 左ひだり歪曲わいきょく分布ぶんぷ
2. 右みぎ歪曲わいきょく分布ぶんぷ

以下いかの項目こうもくを例れいを用もちいて説明せつめいする。

U字じ型がた分布ぶんぷ[編集へんしゅう]

最初さいしょの区間くかんから徐々じょじょに下さがっていき、中間ちゅうかん（ほとんどの場合ばあい）で最小さいしょうとなり、再ふたたび上あがっていく。このようなヒストグラムをU字じ型がた分布ぶんぷ (U-shaped distribution) という。階級かいきゅうの数かずを 10、幅はばを 10 とする。

点数てんすう	この点数てんすうをとった学生がくせいの数かず
0.5-10.5	10
10.5-21.5	8
21.5-31.5	6
31.5-41.5	4
41.5-51.5	2
51.5-61.5	0
61.5-71.5	2
71.5-81.5	4
81.5-91.5	6
91.5-101.5	8

均一きんいつ分布ぶんぷ[編集へんしゅう]

詳細しょうさいは「連続れんぞく一いち様よう分布ぶんぷ」、「離散りさん一いち様よう分布ぶんぷ」、および「一様いちよう分布ぶんぷ」を参照さんしょう

すべての区間くかんの数かずが等ひとしいとき、または、近ちかいとき（だいたい差さが 2 以下いか）、このヒストグラムを均一きんいつ分布ぶんぷ (uniform distribution) という。一様いちよう分布ぶんぷともいう。次つぎの 2 種類しゅるいに分類ぶんるいできる。

連続れんぞく一いち様よう分布ぶんぷ (Continuous uniform distribution)
離散りさん一いち様よう分布ぶんぷ (Discrete uniform distibution)

山やま型がた分布ぶんぷ[編集へんしゅう]

中央ちゅうおう区間くかんが最大さいだいになっているヒストグラムを山やま型がた分布ぶんぷ (mound-shaped distribution) という。

歪曲わいきょく分布ぶんぷ[編集へんしゅう]

スケートボード場じょうのような屈曲くっきょくした形かたちの分布ぶんぷを歪曲わいきょく分布ぶんぷ (skewed distribution) という。左ひだりから下さがっていくのを右みぎ歪曲わいきょく分布ぶんぷ (right-skewed distribution)、右みぎへ上あがっていくのを左ひだり歪曲わいきょく分布ぶんぷ (left-skewed sidtribution) という。

脚注きゃくちゅう[編集へんしゅう]

^ ^a ^b “ヒストグラム”. J-GLOBAL. 2020年ねん11月27日にち閲覧えつらん。
^ Magnello 2006.
^ JIS Z 8101-1.
^ 西岡にしおか, 1.4 度ど数すう分布ぶんぷ p.8.
^ JIS Z 8101-1 : 1999, 2.5 累積るいせき度数どすう.
^ 閲覧えつらん回数かいすうのデータはWikipedia article traffic statisticsによった。
^ たとえば Venables & Ripley 2002, § 5.6 "Density Estimation".
^ Microsoft Excelのヒストグラムやその他た多数たすうで採用さいようされている。
^ Sturges 1926.
^ Scott 1979.
^ フリードマン＝ダイアコニスの法則ほうそくの出典しゅってんは Freedman & Diaconis 1981。
^ Shimazaki & Shinomoto 2007.

参考さんこう文献ぶんけん[編集へんしゅう]

日本にっぽん工業こうぎょう標準ひょうじゅん調査ちょうさ会かい『JIS Z 8101-1:2015 統計とうけい — 用語ようご及および記号きごう — 第だい１部ぶ：一般いっぱん統計とうけい用語ようご及および確かく率りつで用もちいられる用語ようご』日本にっぽん規格きかく協会きょうかい、2015年ねん10月がつ20日はつか。2018年ねん12月24日にち閲覧えつらん。
西岡にしおか康夫やすお『数学すうがくチュートリアルやさしく語かたる確かく率りつ統計とうけい』オおーム社むしゃ、2013年ねん。ISBN 9784274214073。
日本にっぽん数すう学会がっかい『数学すうがく辞典じてん』岩波書店いわなみしょてん、2007年ねん。ISBN 9784000803090。
伏見ふしみ康治こうじ『確かく率りつ論及ろんきゅう統計とうけい論ろん』河出かわで書房しょぼう、1942年ねん。ISBN 9784874720127。
文部省もんぶしょう編へん『学術がくじゅつ用語ようご集しゅう数学すうがく編へん』大だい日本にっぽん図書としょ、1954年ねん。ISBN 4-477-00170-3。 ^{[リンク切きれ]}
Magnello, M. Eileen (2006-12). “Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician”. The New Zealand Journal for the History and Philosophy of Science and Technology 1. ISSN 1177-1380.
Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer. ISBN 978-0-387-95457-8
Sturges, H. A. (1926). “The choice of a class interval”. J. American Statistical Association: 65–66. http://www.jstor.org/stable/2965501.
Scott, David W. (1979). “On optimal and data-based histograms”. Biometrika 66 (3): 605–610. doi:10.1093/biomet/66.3.605.
Scott, David W. (1992). Multivariate density estimation. Theory, practice, and visualization (Second ed.). John Wiley & Sons. ISBN 978-0-471-69755-8. MR3329609. "3. Histograms: theory and practice"
Freedman, D.; Diaconis, P. (1981). “On the histogram as a density estimator: L₂ theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. doi:10.1007/BF01025868.
Shimazaki, H.; Shinomoto, S. (2007). “A method for selecting the bin size of a time histogram”. Neural Computation 19 (6): 1503–1527. doi:10.1162/neco.2007.19.6.1503. PMID 17444758.
坂元さかもと慶けい行ぎょう、石黒いしぐろ真木まき夫おっと、北川きたがわ源みなもと四郎しろう、『情報じょうほう量りょう統計とうけい学がく (情報じょうほう科学かがく講座こうざ A・5・4)』共立きょうりつ出版しゅっぱん 1983/1 ISBN 978-4320021716

外部がいぶリンク[編集へんしゅう]

[1]ヒストグラム作成さくせいツールボックス

[terminology-1] “ヒストグラム”. J-GLOBAL. 2020年ねん11月27日にち閲覧えつらん。

[FOOTNOTEMagnello2006-2] Magnello 2006.

[FOOTNOTEJIS_Z_8101-1-3] JIS Z 8101-1.

[FOOTNOTE西岡1.4_度数分布_p.8-4] 西岡にしおか, 1.4 度ど数すう分布ぶんぷ p.8.

[FOOTNOTEJIS_Z_8101-1_:_19992.5_累積度数-5] JIS Z 8101-1 : 1999, 2.5 累積るいせき度数どすう.

[6] 閲覧えつらん回数かいすうのデータはWikipedia article traffic statisticsによった。

[7] たとえば Venables & Ripley 2002, § 5.6 "Density Estimation".

[8] Microsoft Excelのヒストグラムやその他た多数たすうで採用さいようされている。

[FOOTNOTESturges1926-9] Sturges 1926.

[FOOTNOTEScott1979-10] Scott 1979.

[11] フリードマン＝ダイアコニスの法則ほうそくの出典しゅってんは Freedman & Diaconis 1981。

[FOOTNOTEShimazakiShinomoto2007-12] Shimazaki & Shinomoto 2007.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]