(Translated by https://www.hiragana.jp/)
中央値 - Wikipedia

中央ちゅうおう

なか

中央ちゅうおう(ちゅうおうち、えい: median)あるいはメジアンメディアンとは、データ集合しゅうごう代表だいひょうひとつで、順位じゅんい中央ちゅうおうであるのことである。ただし、データのおおきさが偶数ぐうすう場合ばあいは、中央ちゅうおう順位じゅんい2算術さんじゅつ平均へいきんをとる。

たとえば5にん年齢ねんれい10さい、32さい、96さい、100さい、105さいからなるデータの中央ちゅうおうは、順位じゅんいうえからもしたからも3である96(とし)となる。0さい子供こどもが2にんえて7にんになると、中央ちゅうおうは32さいとなる。

平均へいきんとの関係かんけい

編集へんしゅう
 
さいしき中央ちゅうおう平均へいきん図示ずし

中央ちゅうおう平均へいきん同様どうよう集団しゅうだん代表だいひょう目的もくてき使つかう。たとえば年収ねんしゅうからなるデータの場合ばあいかんがえてみるとかりやすい。

一部いちぶ富裕ふゆうそう平均へいきん年収ねんしゅうをつりげてしまうれいかんがえる。人口じんこう100にん集落しゅうらくで、90にん年収ねんしゅう200まんえんだとしても、10にん年収ねんしゅう5000まんえんであれば平均へいきん年収ねんしゅうは680まんえんとなる。

一方いっぽう中央ちゅうおうは、年収ねんしゅうひくじゅんたかじゅん)に国民こくみんならべたときに丁度ちょうどなかになるひと年収ねんしゅうあらわしている。この場合ばあい中央ちゅうおうはあいかわらず200まんえんであり、一部いちぶ富裕ふゆうそう年収ねんしゅう中央ちゅうおうあたえる影響えいきょうはゼロになる。

たとえば一人ひとりおくまん長者ちょうじゃちいさなまちしてくれば平均へいきん年収ねんしゅうはつりがってしまうが、年収ねんしゅう中央ちゅうおうはたかだかいち順位じゅんいぶんわるにぎない。

厳密げんみつ定義ていぎ

編集へんしゅう

かくりつ変数へんすう X累積るいせき分布ぶんぷ関数かんすうF(x) とするとき、 F(x)じつ数値すうち単調たんちょう減少げんしょう関数かんすうみぎ連続れんぞく関数かんすうとなる。このときつぎ不等式ふとうしきたす実数じっすう m中央ちゅうおう(メディアン)とぶ。

 

ただし、積分せきぶん記号きごうリーマン=スティルチェス積分せきぶん意味いみである。

データのおおきさが有限ゆうげんn とする)である場合ばあいは、以下いかのように簡単かんたん記述きじゅつすることができる。(ただし、同一どういつ順位じゅんいいと仮定かていする。)

データのx1, x2, …, xn とする。それらをちいさいじゅんならえたものを x1, x2, …, x′n とするとき、 中央ちゅうおう  

 

により定義ていぎされる。なお、単純たんじゅん  とならないのは、 添字そえじ0, …, n ではなく 1, …, n だからである。

中央ちゅうおう平均へいきん絶対ぜったい誤差ごさ英語えいごばん (mean absolute error, MAE)

 

最小さいしょうにする性質せいしつをもっている(ただし、そうなる一意いちいではない)。データのおおきさが偶数ぐうすうのときは、その t一意いちいにはさだまらないが便宜上べんぎじょううえべた定義ていぎ採用さいようする。

平均へいきんとの関係かんけい数式すうしきてきなもの)

編集へんしゅう
  • 分布ぶんぷ対称たいしょうであるデータにたいしては、中央ちゅうおう平均へいきんひとしい。ただし、分布ぶんぷ対称たいしょうでなくても、中央ちゅうおう平均へいきんひとしくなることもある。
  • 以下いか性質せいしつにより、平均へいきんよりも、全体ぜんたい傾向けいこうあらわ代表だいひょうとして適切てきせつである場合ばあいおおい。
    • 平均へいきんは、測定そくていミスなどによって発生はっせいするはずよりいちじるしくことなる)におおきく影響えいきょうされ、誤差ごさおおきくなったり、無意味むいみとなることがある。そのため、ロバスト統計とうけいなどの対策たいさく必要ひつようになる。しかし、中央ちゅうおうはずにほとんど影響えいきょうされないので、対策たいさく不要ふようである。
    • たとえばデータがせいのみといったように限定げんていされている場合ばあい、そうでない場合ばあいくらべて分布ぶんぷはより非対称ひたいしょうになりやすく、少数しょうすうおおきなきずられて平均へいきんだい多数たすう分布ぶんぷよりおおきくずれることがある。しかし、中央ちゅうおうではそういった影響えいきょうはほとんどない。
    •  ふくむデータにたいしても中央ちゅうおう有限ゆうげんとなることがある。(平均へいきんは、かなら無限むげんまたは不定ふていとなる)
    • 分布ぶんぷたに位置いちするようなケースが、平均へいきんくらべてすくない。(平均へいきんは、2みね分布ぶんぷたいししばしばたに位置いちする)
  • 中央ちゅうおうもとめるには、線形せんけい汎用はんよう選択せんたくアルゴリズム使つかうと 計算けいさんりょうもとめられる(平均へいきん )。逐次ちくじデータがられる場合ばあいすべてのデータを保持ほじしておく必要ひつようがあり、  のメモリをようする(平均へいきん )。
  • 代表だいひょうとして平均へいきん使つかうときは、分布ぶんぷひろがりは分散ぶんさんまたは標準ひょうじゅん偏差へんさあらわすことがおおい。それにたいし、代表だいひょうとして中央ちゅうおう使つかうときは、分布ぶんぷひろがりはだい3よんふんてんだい1よんふんてんであるよんふん範囲はんいえい: interquartile range, IQR)であらわすことがおおい。

その性質せいしつ

編集へんしゅう
  • 誤差ごさはデータの誤差ごさどう程度ていどである。(平均へいきん誤差ごさはデータの誤差ごさ  ばいである)
  • 中央ちゅうおうは、だい2よんふんすう、50パーセンタイル、0.5クォンタイルでもある。

かくりつ分布ぶんぷ中央ちゅうおう

編集へんしゅう

1次元じげんかくりつ分布ぶんぷ f(x)たいし、

 

たす m を、中央ちゅうおうぶ。

関連かんれん項目こうもく

編集へんしゅう

外部がいぶリンク

編集へんしゅう