ヒストグラムの例 れい 。アメリカで1973年 ねん から1978年 ねん にかけて事故死 じこし した人数 にんずう を月 つき 毎 ごと に集計 しゅうけい したもの。横 よこ 軸 じく は各月 かくつき に事故死 じこし した人数 にんずう を500人 にん 毎 ごと に区切 くぎ った階級 かいきゅう を、縦 たて 軸 じく は各 かく 階級 かいきゅう に属 ぞく する月 つき の数 かず (=度数 どすう )を表 あらわ している。ヒストグラムからは(a)ひと月 がつ に事故死 じこし する人数 にんずう の平均 へいきん はおよそ8500人 にん 前後 ぜんこう であること、(b)ひと月 がつ に事故死 じこし する人数 にんずう は6500-11500人 にん であること、(c)分布 ぶんぷ はおよそ対称 たいしょう であること、などが読 よ み取 と れる。
ヒストグラム (英語 えいご : histogram [1] )とは、縦 たて 軸 じく に度数 どすう 、横 よこ 軸 じく に階級 かいきゅう をとった統計 とうけい グラフ の一種 いっしゅ で、データの分布 ぶんぷ 状 じょう 況 きょう を視覚 しかく 的 てき に認識 にんしき するために主 おも に統計 とうけい 学 がく や数学 すうがく 、画像 がぞう 処理 しょり 等 とう で用 もち いられる。柱状 ちゅうじょう 図 ず 、柱状 ちゅうじょう グラフ 、度数 どすう 分布 ぶんぷ 図 ず ともいう[1] 。
工業 こうぎょう 分野 ぶんや では、パレート図 ず 、チェックシート 、管理 かんり 図 ず 、特性 とくせい 要因 よういん 図 ず 、層 そう 別法 べっぽう 、散布 さんぷ 図 ず と並 なら んで、品質 ひんしつ 管理 かんり のためのQC七 なな つ道具 どうぐ として知 し られている。
histogram (ヒストグラム)の語源 ごげん は、定 さだ かではないが、古代 こだい ギリシャ語 ご で「なにかを直立 ちょくりつ にする」(帆船 はんせん のマスト 、織機 しょっき のバー、ヒストグラムの縦 たて 棒 ぼう など)という意味 いみ の ἱστός (istos 、イストス)と、「描 えが いたり、記録 きろく したり、書 か いたりすること」という意味 いみ の γράμμα (gramma 、グラマ)を合 あ わせた用語 ようご だといわれている。この用語 ようご は、イギリス の統計 とうけい 学者 がくしゃ カール・ピアソン が1891年 ねん に historical diagram から創案 そうあん したともいわれている。
日本工業規格 にほんこうぎょうきかく JIS Z 8101-1:2015 (国際 こくさい 規格 きかく ISO 3534-1:2006 と同等 どうとう )の「1.61 ヒストグラム」では、次 つぎ のとおりに規定 きてい している。
底辺 ていへん の長 なが さが級 きゅう の幅 はば (1.58)に等 ひと しく,その面積 めんせき が級 きゅう の度数 どすう に比例 ひれい する近接 きんせつ する長方形 ちょうほうけい からなる度数 どすう 分布 ぶんぷ (1.60)のグラフ表現 ひょうげん 。
注記 ちゅうき 1 級 きゅう の幅 はば が不 ふ 均一 きんいつ な場合 ばあい には,注意 ちゅうい が必要 ひつよう である。級 きゅう の幅 はば が不 ふ 均一 きんいつ な場合 ばあい には,級 きゅう の面積 めんせき を級 きゅう の度数 どすう に比例 ひれい させるとよい。
注記 ちゅうき 2 全 すべ ての級 きゅう の幅 はば を等 ひと しくし,長方形 ちょうほうけい の高 たか さを級 きゅう の度数 どすう に比例 ひれい させるのが一般 いっぱん 的 てき である。
同 おな じデータから作 つく られた一般 いっぱん 的 てき なヒストグラム(左 ひだり )と累積 るいせき 度数 どすう 図 ず 。このデータは平均 へいきん 0、標準 ひょうじゅん 偏差 へんさ 1 の正規 せいき 分布 ぶんぷ から無作為 むさくい に選 えら んだ 10,000 点 てん のサンプルを示 しめ している。
ヒストグラム は、各々 おのおの が互 たが いに素 もと である区間 くかん ・階級 かいきゅう (カテゴリ 、これをビン (bins ) という。ヒストグラムのグラフの柱 はしら (棒 ぼう )のこと)に分類 ぶんるい できる、観察 かんさつ 結果 けっか の数 かず を図 ず にしたもの。計算 けいさん する関数 かんすう mi である。ヒストグラムの図 ず は、階級 かいきゅう を一 ひと つ決 き めた時 とき のヒストグラムを表現 ひょうげん する方法 ほうほう である。階級 かいきゅう の幅 はば は一 ひと つの階級 かいきゅう のデータ数 すう が全 ぜん データ数 すう の平方根 へいほうこん 程度 ていど がよいとう見解 けんかい をはじめ何 なん 種類 しゅるい か推奨 すいしょう がある(後述 こうじゅつ )。基準 きじゅん 点 てん も0を含 ふく む場合 ばあい には0を基準 きじゅん 点 てん にすることがある。それ以外 いがい の場合 ばあい には、最小 さいしょう 値 ち 、最大 さいだい 値 ち を含 ふく む切 き りのよい値 ね にする方法 ほうほう と、切 き りのよい数 かず を中央 ちゅうおう 値 ち とする方法 ほうほう がある。すべての観察 かんさつ 結果 けっか の数 かず n とすべての階級 かいきゅう の数 かず k 、ヒストグラム mi を与 あた えて、これらには以下 いか の式 しき の関係 かんけい が成 な り立 た つ。
n
=
∑
i
=
1
k
m
i
.
{\displaystyle n=\sum _{i=1}^{k}{m_{i}}.}
累積 るいせき 度数 どすう 図 ず [ 編集 へんしゅう ]
累積 るいせき 度数 どすう 図 ず (英 えい : cumulative histogram )は、特定 とくてい の階級 かいきゅう までのすべての階級 かいきゅう に含 ふく む観察 かんさつ 結果 けっか の累積 るいせき 数 すう を記入 きにゅう する。累積 るいせき 度数 どすう 関数 かんすう と Mi はヒストグラム関数 かんすう mj を用 もち いて以下 いか の式 しき のように定義 ていぎ できる。
M
i
=
∑
j
=
1
i
m
j
.
{\displaystyle M_{i}=\sum _{j=1}^{i}{m_{j}}.}
なお、累積 るいせき 度数 どすう (cumulative frequency)を日本工業規格 にほんこうぎょうきかく では、「ある値 ね 以下 いか の観測 かんそく 値 ち の度数 どすう または相対 そうたい 度数 どすう 」と定義 ていぎ している。
ウィキペディア日本語 にほんご 版 ばん の記事 きじ 「ヒストグラム」(当 とう 記事 きじ )の2013年 ねん 1月 がつ の閲覧 えつらん 回数 かいすう を具体 ぐたい 例 れい として、ヒストグラムの作成 さくせい を考 かんが える。2013年 ねん 1月 がつ の各日 かくじつ に閲覧 えつらん された回数 かいすう は以下 いか の通 とお りである[6] 。
日 ひ
閲覧 えつらん 回数 かいすう
日 ひ
閲覧 えつらん 回数 かいすう
1
78
16
625
2
126
17
606
3
156
18
483
4
231
19
377
5
215
20
370
6
304
21
587
7
484
22
667
8
544
23
643
9
566
24
756
10
545
25
505
11
478
26
436
12
258
27
399
13
225
28
611
14
373
29
679
15
620
30
575
31
565
[表 ひょう の見方 みかた ] 11 の欄 らん が 478 となっているのは、2013年 ねん 1月 がつ 11日 にち の記事 きじ 「ヒストグラム」の閲覧 えつらん 回数 かいすう が 478 回 かい であったことを意味 いみ する。
図 ず 1.ウィキペディア日本語 にほんご 版 ばん の記事 きじ 「ヒストグラム」の2013年 ねん 1月 がつ における閲覧 えつらん 回数 かいすう から作成 さくせい されたヒストグラム
これを集計 しゅうけい すると、次 つぎ のようになる。上述 じょうじゅつ の通 とお り、階級 かいきゅう の数 かず と幅 はば の設定 せってい には諸説 しょせつ あるが、ここでは階級 かいきゅう の数 かず を 8、幅 はば を 100 とした。
閲覧 えつらん 回数 かいすう
その回数 かいすう を記録 きろく した日数 にっすう
0 - 99
1
100 - 199
2
200 - 299
4
300 - 399
5
400 - 499
4
500 - 599
7
600 - 699
7
700 - 799
1
[表 ひょう の見方 みかた ] 400 - 499 の欄 らん が 4 となっているのは、1 日 にち の記事 きじ 「ヒストグラム」の閲覧 えつらん 回数 かいすう が 400 回 かい から 499 回 かい であった日 ひ が2013年 ねん 1月 がつ に 4 日 にち あったことを意味 いみ する。
したがって、これをヒストグラムにすると、図 ず 1のようになる。
階級 かいきゅう の個数 こすう と幅 はば [ 編集 へんしゅう ]
階級 かいきゅう の個数 こすう についての最良 さいりょう の値 ね はなく、階級 かいきゅう の大 おお きさが異 こと なれば異 こと なったデータの特徴 とくちょう を示 しめ す可能 かのう 性 せい がある。幾 いく 人 にん かの理論 りろん 家 か は最適 さいてき な階級 かいきゅう の個数 こすう を定義 ていぎ しようと試 こころ みたが、これらの方法 ほうほう は概 がい して分布 ぶんぷ 形態 けいたい に関 かん する強 つよ い仮定 かてい が設定 せってい されてしまっている。実際 じっさい のデータ分布 ぶんぷ に依存 いぞん した分析 ぶんせき の行 い き着 つ く先 さき として、さまざまな階級 かいきゅう 幅 はば が適切 てきせつ である可能 かのう 性 せい があり、通常 つうじょう は実験 じっけん のたびに適切 てきせつ な幅 はば を決定 けってい する必要 ひつよう がある。しかし、さまざまな有用 ゆうよう な指針 ししん や経験 けいけん 的 てき に得 え られた方法 ほうほう がある[7] 。
階級 かいきゅう の幅 はば h は、直接的 ちょくせつてき に与 あた えられるか、下 した で示 しめ される階級 かいきゅう の個数 こすう k から次 つぎ 式 しき で与 あた えられる。
h
=
⌈
max
x
−
min
x
k
⌉
.
{\displaystyle h=\left\lceil {\frac {\max x-\min x}{k}}\right\rceil .}
上 うえ 式 しき の大 だい 括弧 かっこ は天井 てんじょう 関数 かんすう を示 しめ す。
平方根 へいほうこん 選択 せんたく (英 えい : Square-root choice )
k
=
n
,
{\displaystyle k={\sqrt {n}},\,}
標本 ひょうほん 中 ちゅう のデータ数 すう の平方根 へいほうこん をとるものである[8] 。
スタージェスの公式 こうしき (英 えい : Sturges' formula )
k
=
⌈
log
2
n
+
1
⌉
,
{\displaystyle k=\lceil \log _{2}n+1\rceil ,\,}
この式 しき は階級 かいきゅう の大 おお きさに暗黙 あんもく の仮定 かてい を置 お いている。そのため、n < 30 (階級 かいきゅう 数 すう が7未満 みまん )の場合 ばあい 、この式 しき の使用 しよう は不適切 ふてきせつ である。また、標本 ひょうほん が一般 いっぱん 的 てき な分布 ぶんぷ と大 おお きく異 こと なる場合 ばあい も、この式 しき が適 てき さないことがある。
スコットの選択 せんたく (英 えい : Scott's choice )
h
=
3.5
σ しぐま
n
1
/
3
,
{\displaystyle h={\frac {3.5\,\sigma }{n^{1/3}}},}
ここで σ しぐま は標本 ひょうほん の標準 ひょうじゅん 偏差 へんさ である。
フリードマン・ダイアコニスの選択 せんたく (英 えい : Freedman–Diaconis' choice )[11]
h
=
2
IQR
(
x
)
n
1
/
3
,
{\displaystyle h=2\,{\frac {\operatorname {IQR} (x)}{n^{1/3}}},}
IQR で示 しめ される四 よん 分 ふん 位 い 範囲 はんい に基 もと づく。
L 2 危険 きけん 関数 かんすう 推定 すいてい の最小 さいしょう 化 か に基 もと づく選択 せんたく
a
r
g
m
i
n
h
2
m
¯
−
v
h
2
{\displaystyle {\underset {h}{\operatorname {arg\,min} }}{\frac {2\,{\bar {m}}-v}{h^{2}}}}
ここで m と v は、階級 かいきゅう の幅 はば が h であるヒストグラムの平均 へいきん 値 ち および標本 ひょうほん 分散 ぶんさん である。つまり、m = 1 / k ∑k i = 1 mi であり、v = 1 / k ∑k i = 1 (mi − m )2 である。
次 つぎ の4種類 しゅるい に分 わ けられる。
U字 じ 型 がた 分布 ぶんぷ
均一 きんいつ 分布 ぶんぷ
山 やま 型 がた 分布 ぶんぷ
歪曲 わいきょく 分布 ぶんぷ 次 じ の2種類 しゅるい に分類 ぶんるい できる。
左 ひだり 歪曲 わいきょく 分布 ぶんぷ
右 みぎ 歪曲 わいきょく 分布 ぶんぷ
以下 いか の項目 こうもく を例 れい を用 もち いて説明 せつめい する。
最初 さいしょ の区間 くかん から徐々 じょじょ に下 さ がっていき、中間 ちゅうかん (ほとんどの場合 ばあい )で最小 さいしょう となり、再 ふたた び上 あ がっていく。このようなヒストグラムをU字 じ 型 がた 分布 ぶんぷ (U-shaped distribution) という。
階級 かいきゅう の数 かず を 10、幅 はば を 10 とする。
点数 てんすう
この点数 てんすう をとった学生 がくせい の数 かず
0.5-10.5
10
10.5-21.5
8
21.5-31.5
6
31.5-41.5
4
41.5-51.5
2
51.5-61.5
0
61.5-71.5
2
71.5-81.5
4
81.5-91.5
6
91.5-101.5
8
すべての区間 くかん の数 かず が等 ひと しいとき、または、近 ちか いとき(だいたい差 さ が 2 以下 いか )、このヒストグラムを均一 きんいつ 分布 ぶんぷ (uniform distribution) という。一様 いちよう 分布 ぶんぷ ともいう。次 つぎ の 2 種類 しゅるい に分類 ぶんるい できる。
連続 れんぞく 一 いち 様 よう 分布 ぶんぷ (Continuous uniform distribution )
離散 りさん 一 いち 様 よう 分布 ぶんぷ (Discrete uniform distibution )
中央 ちゅうおう 区間 くかん が最大 さいだい になっているヒストグラムを山 やま 型 がた 分布 ぶんぷ (mound-shaped distribution) という。
スケートボード場 じょう のような屈曲 くっきょく した形 かたち の分布 ぶんぷ を歪曲 わいきょく 分布 ぶんぷ (skewed distribution) という。左 ひだり から下 さ がっていくのを右 みぎ 歪曲 わいきょく 分布 ぶんぷ (right-skewed distribution) 、右 みぎ へ上 あ がっていくのを左 ひだり 歪曲 わいきょく 分布 ぶんぷ (left-skewed sidtribution) という。
日本 にっぽん 工業 こうぎょう 標準 ひょうじゅん 調査 ちょうさ 会 かい 『JIS Z 8101-1:2015 統計 とうけい — 用語 ようご 及 およ び記号 きごう — 第 だい 1部 ぶ :一般 いっぱん 統計 とうけい 用語 ようご 及 およ び確 かく 率 りつ で用 もち いられる用語 ようご 』日本 にっぽん 規格 きかく 協会 きょうかい 、2015年 ねん 10月 がつ 20日 はつか 。http://kikakurui.com/z8/Z8101-1-2015-01.html 。2018年 ねん 12月24日 にち 閲覧 えつらん 。
西岡 にしおか 康夫 やすお 『数学 すうがく チュートリアル やさしく語 かた る 確 かく 率 りつ 統計 とうけい 』オ お ーム社 むしゃ 、2013年 ねん 。ISBN 9784274214073 。
日本 にっぽん 数 すう 学会 がっかい 『数学 すうがく 辞典 じてん 』岩波書店 いわなみしょてん 、2007年 ねん 。ISBN 9784000803090 。
伏見 ふしみ 康治 こうじ 『確 かく 率 りつ 論及 ろんきゅう 統計 とうけい 論 ろん 』河出 かわで 書房 しょぼう 、1942年 ねん 。ISBN 9784874720127 。http://ebsa.ism.ac.jp/ebooks/ebook/204 。
文部省 もんぶしょう 編 へん 『学術 がくじゅつ 用語 ようご 集 しゅう 数学 すうがく 編 へん 』大 だい 日本 にっぽん 図書 としょ 、1954年 ねん 。ISBN 4-477-00170-3 。http://sciterm.nii.ac.jp/cgi-bin/reference.cgi 。 [リンク切 き れ ]
Magnello, M. Eileen (2006-12). “Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician” . The New Zealand Journal for the History and Philosophy of Science and Technology 1 . ISSN 1177-1380 . http://www.rutherfordjournal.org/article010107.html .
Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer . ISBN 978-0-387-95457-8
Sturges, H. A. (1926). “The choice of a class interval” . J. American Statistical Association : 65–66. http://www.jstor.org/stable/2965501 .
Scott, David W. (1979). “On optimal and data-based histograms”. Biometrika 66 (3): 605–610. doi :10.1093/biomet/66.3.605 .
Scott, David W. (1992). Multivariate density estimation. Theory, practice, and visualization (Second ed.). John Wiley & Sons. ISBN 978-0-471-69755-8 . MR 3329609 . https://books.google.co.jp/books?id=XZ03BwAAQBAJ&pg=PA51 . "3. Histograms: theory and practice"
Freedman, D.; Diaconis, P. (1981). “On the histogram as a density estimator: L 2 theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. doi :10.1007/BF01025868 .
Shimazaki, H.; Shinomoto, S. (2007). “A method for selecting the bin size of a time histogram” . Neural Computation 19 (6): 1503–1527. doi :10.1162/neco.2007.19.6.1503 . PMID 17444758 . http://www.mitpressjournals.org/doi/abs/10.1162/neco.2007.19.6.1503 .
坂元 さかもと 慶 けい 行 ぎょう 、石黒 いしぐろ 真木 まき 夫 おっと 、北川 きたがわ 源 みなもと 四郎 しろう 、『情報 じょうほう 量 りょう 統計 とうけい 学 がく (情報 じょうほう 科学 かがく 講座 こうざ A・5・4) 』 共立 きょうりつ 出版 しゅっぱん 1983/1 ISBN 978-4320021716
ウィキメディア・コモンズには、
ヒストグラム に
関連 かんれん するカテゴリがあります。