出典 しゅってん : フリー百科 ひゃっか 事典 じてん 『ウィキペディア(Wikipedia)』
冗長 じょうちょう 性 せい (じょうちょうせい、英 えい : Redundancy )とは、情報 じょうほう 理論 りろん において、あるメッセージを転送 てんそう するのに使 つか われているビット数 すう からそのメッセージの実際 じっさい の情報 じょうほう に必須 ひっす なビット数 すう を引 ひ いた値 ね である。冗長 じょうちょう 度 ど 、冗長 じょうちょう 量 りょう とも。大 おお まかに言 い えば、あるデータを転送 てんそう する際 さい に無駄 むだ に使 つか われている部分 ぶぶん の量 りょう に相当 そうとう する。好 この ましくない冗長 じょうちょう 性 せい を排除 はいじょ ・削減 さくげん する方法 ほうほう として、データ圧縮 あっしゅく がある。逆 ぎゃく にノイズ のある通信 つうしん 路 ろ 容量 ようりょう が有限 ゆうげん な通信 つうしん 路 ろ で誤 あやま り検出 けんしゅつ 訂正 ていせい を行 おこな う目的 もくてき で冗長 じょうちょう 性 せい を付与 ふよ するのが、チェックサム やハミング符号 ふごう などである。
データの冗長 じょうちょう 性 せい を表現 ひょうげん するにあたって、まず情報 じょうほう 源 げん のエントロピー率 りつ (レート)が記号 きごう ごとのエントロピーの平均 へいきん であることに注目 ちゅうもく する。メモリをもたない情報 じょうほう 源 げん では、これは単 たん に各 かく 記号 きごう のエントロピーだが、多 おお くの確 かく 率 りつ 過程 かてい では次 つぎ のようになる。
r
=
lim
n
→
∞
1
n
H
(
M
1
,
M
2
,
…
M
n
)
,
{\displaystyle r=\lim _{n\to \infty }{\frac {1}{n}}H(M_{1},M_{2},\dots M_{n}),}
これは n 個 こ の記号 きごう の結合 けつごう エントロピー を n で割 わ ったものの n が無限 むげん 大 だい になったときの極限 きょくげん である。情報 じょうほう 理論 りろん では、言語 げんご の「レート」や「エントロピー 」を扱 あつか うことが多 おお い。これは例 たと えば、情報 じょうほう 源 げん が英語 えいご などの言語 げんご の文 ぶん である場合 ばあい には適切 てきせつ である。メモリのない情報 じょうほう 源 げん では、その逐次 ちくじ 的 てき メッセージ列 れつ に相互 そうご 依存 いぞん が全 まった くないため、レートは定義 ていぎ から
H
(
M
)
{\displaystyle H(M)}
となる。
言語 げんご または情報 じょうほう 源 げん の絶対 ぜったい レート (absolute rate)は単純 たんじゅん に次 つぎ のようになる。
R
=
log
|
M
|
,
{\displaystyle R=\log |M|,\,}
これは、メッセージ空間 くうかん あるいはアルファベットの濃度 のうど (cardinality)の対数 たいすう である。この式 しき を「ハートレー関数 かんすう (Hartley function)」と呼 よ ぶこともある。これがそのアルファベットで転送 てんそう 可能 かのう な情報 じょうほう の最大 さいだい のレートとなる。対数 たいすう の底 そこ は測定 そくてい 単位 たんい を考慮 こうりょ して決定 けってい される。情報 じょうほう 源 げん にメモリがなく、一様 いちよう 分布 ぶんぷ であるとき、絶対 ぜったい レートは実際 じっさい のレートと等 ひと しい。
以上 いじょう から、絶対 ぜったい 冗長 じょうちょう 性 せい (絶対 ぜったい 冗長 じょうちょう 量 りょう )は次 つぎ のように定義 ていぎ される。
D
=
R
−
r
,
{\displaystyle D=R-r,\,}
これはつまり、絶対 ぜったい レートと実際 じっさい のレートの差 さ である。
D
R
{\displaystyle {\frac {D}{R}}}
を相対 そうたい 冗長 じょうちょう 性 せい (相対 そうたい 冗長 じょうちょう 量 りょう )と呼 よ び、可能 かのう な最大 さいだい データ圧縮 あっしゅく 比 ひ を表 あらわ している。すなわち、ファイルサイズがどれだけ削減 さくげん できるかということと等価 とうか である。冗長 じょうちょう 性 せい と対 たい をなす概念 がいねん として効率 こうりつ (efficiency)があり、
r
R
{\displaystyle {\frac {r}{R}}}
で表 あらわ される。したがって、
r
R
+
D
R
=
1
{\displaystyle {\frac {r}{R}}+{\frac {D}{R}}=1}
である。メモリのない一様 いちよう 分布 ぶんぷ の情報 じょうほう 源 げん は、冗長 じょうちょう 性 せい がゼロで効率 こうりつ が100%であり、圧縮 あっしゅく できない。
2つの確 かく 率 りつ 変数 へんすう の「冗長 じょうちょう 性 せい 」の尺度 しゃくど として、相互 そうご 情報 じょうほう 量 りょう あるいはその正規 せいき 化 か 形 がた がある。多数 たすう の確 かく 率 りつ 変数 へんすう の冗長 じょうちょう 性 せい の尺度 しゃくど としては、合計 ごうけい 相関 そうかん (total correlation)がある。
圧縮 あっしゅく 済 ず みデータの冗長 じょうちょう 性 せい は、
n
{\displaystyle n}
個 こ のメッセージを圧縮 あっしゅく したときの期待 きたい される長 なが さ
L
(
M
n
)
{\displaystyle L(M^{n})}
とそのエントロピー
n
r
{\displaystyle nr}
の差 さ で表 あらわ される。ここで、データはエルゴード的 てき で定常 ていじょう 的 てき であると仮定 かてい している。つまり、メモリのない情報 じょうほう 源 げん である。レートの差 さ
L
(
M
n
)
/
n
−
r
{\displaystyle L(M^{n})/n-r}
は
n
{\displaystyle n}
が増大 ぞうだい するに従 したが って小 ちい さくなるが、実際 じっさい の差 さ
L
(
M
n
)
−
n
r
{\displaystyle L(M^{n})-nr}
はそうならない。しかし、エントロピーが有限 ゆうげん なメモリのない情報 じょうほう 源 げん では、理論 りろん 上 じょう の上限 じょうげん が 1 となる。
Fazlollah M. Reza. An Introduction to Information Theory . New York: McGraw-Hill, 1961. New York: Dover, 1994. ISBN 0-486-68210-2
B. Schneier, Applied Cryptography: Protocols, Algorithms, and Source Code in C . New York: John Wiley & Sons, Inc., 1996. ISBN 0-471-12845-7