(Translated by https://www.hiragana.jp/)
MPEG-4 CELP - Wikipedia コンテンツにスキップ

MPEG-4 CELP

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

MPEG-4 CELPは、MPEG-4 オーディオ(MPEG-4 Part 3)で採用さいようされた音声おんせい符号ふごう方式ほうしきである。音声おんせい符号ふごうアルゴリズムとしてられている CELPcode excited linear prediction)をベースとし、様々さまざまなアプリケーションで使つかえるよう2つのサンプリング周波数しゅうはすう複数ふくすうビットレートとをサポートする。人間にんげん音声おんせいを 3.85 kbps ~ 23.8 kbps に符号ふごうできる。

MPEG-4 CELP は、デジタル放送ほうそう携帯けいたい電話でんわインターネット電話でんわ音声おんせいデータベースなどの様々さまざま用途ようと使つかうことができる。

概要がいよう

[編集へんしゅう]

MPEG-4 CELP は MPEG-4 オーディオのひくビットレート音声おんせい符号ふごう方式ほうしきの1つで、1999ねんISO/IEC 14496-3 Subpart 3 で定義ていぎされ[1]、 その MPEG-4 Audio バージョン 2(ISO/IEC 14496-3:1999/Amd 1:2000)でエラーたいせい無音むおん圧縮あっしゅく拡張かくちょうおこなわれた[2][3]

MPEG-4 CELP は人間にんげん音声おんせい符号ふごうおこなうためのもので、8 kHz と 16 kHz の 2 種類しゅるいサンプリング周波数しゅうはすうをサポートする。サンプリング周波数しゅうはすう 8 kHz(帯域たいいきはば 100 Hz - 3800 Hz)では 3.85~12.2 kbps の 28 種類しゅるいのビット・レートで、サンプリング周波数しゅうはすう 16 kHz(帯域たいいきはば 50 Hz - 7000 Hz)では 10.9~23.8 kbps の 30 種類しゅるいのビット・レートで符号ふごうができる[4][5]

符号ふごうビットストリーム階層かいそうてき構成こうせいになっており、コアとなる基本きほんそうとそれに追加ついかされたいくつかの拡張かくちょうそうからなる。基本きほんそう音声おんせい復号ふくごう必要ひつよう最低限さいていげん情報じょうほうあらわし、拡張かくちょうそうはそれにたいする追加ついか情報じょうほう表現ひょうげんする。使用しよう環境かんきょうおうじて必要ひつよう階層かいそう情報じょうほうすことで、おな符号ふごう結果けっかから音質おんしつ帯域たいいきはばことなる様々さまざまなビットレートの情報じょうほうすことができる。

使用しようする符号ふごうアルゴリズムは、MPE(multipulse excitation、マルチパルス励起れいき)あるいは RPE(regular pulse excitation、レギュラーパルス励起れいき)をもちいたもののいずれかを選択せんたくできる。 MPE をもちいたものは音質おんしつ拡張かくちょうせいすぐれ、RPE をもちいたものはそれらを犠牲ぎせいにするわりに符号ふごう必要ひつよう演算えんざんりょうすくない。

MPEG-4 CELP の特徴とくちょう以下いかとおりである[5]

また、無音むおん情報じょうほう圧縮あっしゅくのため、無音むおん期間きかん音声おんせい区間くかん検出けんしゅつ機能きのうvoice activity detector、VAD)で検出けんしゅつし SID(silence descriptor)とばれるデータのみを使つかひくいビットレートで符号ふごうする。復号ふくごうには、まったくの無音むおんけるため、SID を検出けんしゅつすると適度てきどなレベルの背景はいけい雑音ざつおん(コンフォートノイズ)を再生さいせいする。

MPEG-4 オーディオでの位置付いちづ

[編集へんしゅう]

MPEG-4 オーディオはおおくのツールのわせからなり、MPEG-4 CELP や MPEG-4 HVXCharmonic vector excitation coding) は人間にんげん自然しぜん音声おんせい符号ふごうおこな自然しぜん音声おんせい符号ふごうツール(natural speech coding tools)のひとつである[4]

自然しぜん音声おんせい符号ふごうツールは、MPEG-4 AAC などの汎用はんようてきなオーディオ符号ふごうツールでは十分じゅうぶん音質おんしつられないひくいビットレートで音声おんせい符号ふごうおこなうツールである。 HVXC は MPEG-4 CELP がカバーできないちょうていビットレート(2 - 4 kbps)での音声おんせい符号ふごう担当たんとうし、MPEG-4 CELP はそれ以上いじょうビットレートをカバーする。

さらにていビットレートでの音声おんせい表現ひょうげん必要ひつよう場合ばあいは、文字もじから音声おんせい合成ごうせいするツールである MPEG-4 TTS Interface(Text-to-speech interface)を使用しようする。

アルゴリズム

[編集へんしゅう]

MPEG-4 CELP のアルゴリズムは CELP に MPE(multipulse excitation)あるいは RPE(regular pulse excitation)をわせたものである。

MPEG-4 CELP のベースとなる CELP は、こえどう相当そうとうする合成ごうせいフィルターとして線形せんけい予測よそくフィルターもちい、有声音ゆうせいおんのようなかえしのおお波形はけい適応てきおうがたコードブックで効率こうりつてきにパラメータする。線形せんけい予測よそく適応てきおうがたコードブックで符号ふごうできなかったざん信号しんごう符号ふごうには固定こていがたコードブックを使用しようする。

最後さいござん信号しんごう符号ふごうにおいて、MPE では任意にんい間隔かんかくならんだ複数ふくすうのパルス信号しんごうわせ(マルチパルス)をコードブックとしてもちい、RPE では一定いってい間隔かんかく配置はいちした振幅しんぷくことなるパルス信号しんごうわせ(レギュラーパルス)で表現ひょうげんする。

RPE は MPE より音質おんしつおとるがアルゴリズムが単純たんじゅん必要ひつよう演算えんざんりょうすくない[5]単純たんじゅんのためサンプリング周波数しゅうはすうは 16 kHz のみを使用しようできる。符号ふごう/復号ふくごうさい演算えんざんりょうおさえたい場合ばあい使用しようする。全体ぜんたいのアルゴリズムは GSM-FullRate コーデック使用しようされる RPE-LTP同様どうようのものである。

MPE はよりたか音質おんしつ拡張かくちょうせい必要ひつよう場合ばあい使用しようする。サンプリング周波数しゅうはすうが 8/16 kHz の両方りょうほう使つかえ、またこういき成分せいぶんなどを拡張かくちょうそう情報じょうほうとしてあつかうことができるため、おな符号ふごう結果けっかから音質おんしつことなる様々さまざまなビットレートのビットストリームをすことができる。そのぶん全体ぜんたいのアルゴリズムは複雑ふくざつ必要ひつよう演算えんざんりょうおおい。

一般いっぱんてき意味いみでの MPE(マルチパルス励起れいき)は任意にんい位置いち/振幅しんぷくパルス列ぱるすれつもちいる手法しゅほうだが[6]、 MPEG-4 CELP の MPE は演算えんざんりょうおさえるためパルスの振幅しんぷくを+1/-1のみに制限せいげんした代数だいすうてきコードを使用しようする [7]。 これは ACELP使つかわれているものと同様どうよう手法しゅほうである。

以下いかに MPEG-4 CELP でのかく方式ほうしき特徴とくちょうをまとめる[5][8]

方式ほうしきごとの特徴とくちょう
方式ほうしき サンプリング周波数しゅうはすう ビットレート 特徴とくちょう
MPE 8 kHz / 16 kHz 3.85-23.8 kbps 高音こうおんしつ拡張かくちょうせいたか
RPE 16 kHz のみ 14.4-22.5 kbps 必要ひつよう演算えんざんりょうすくない

MPE をもちいた MPEG-4 CELP の符号ふごう処理しょり以下いか機能きのうつツールのわせからなる[7]

  1. CELP コアエンコーダ
  2. ビットレート拡張かくちょうツール(Bitrate Scalable Tool)
  3. バンドはば拡張かくちょうツール(Bandwidth Extension Tool)

CELP コアエンコーダは CELP アルゴリズムを使つかって符号ふごう結果けっかのコアとなる基本きほんそう符号ふごうおこなう。ビットレート拡張かくちょうツールは拡張かくちょうそう担当たんとうし、した階層かいそう符号ふごうできなかったもと信号しんごうとのざん符号ふごうおこなう。ビットレートを段階だんかいてき拡張かくちょうするため、ビットレート拡張かくちょうツールを最大さいだい3階層かいそうまでわせて使つかうことができる[8]。これら2つは入力にゅうりょく信号しんごうていいき成分せいぶんのみを処理しょりする。サンプリング周波数しゅうはすうが 16 kHz の場合ばあいは 8 kHz にダウンサンプリングする。

バンドはば拡張かくちょうツールは広帯域こうたいいき入力にゅうりょく信号しんごうあつかい、前記ぜんきのツールで符号ふごうできなかったこういき成分せいぶんていいきざん成分せいぶんとを CELP アルゴリズムで符号ふごうする。

符号ふごうしたビットストリームと同様どうようにツールあいだ関係かんけい階層かいそうてきになっており、のツールほど階層かいそうたかい。した階層かいそう抽出ちゅうしゅつしたパラメータを上位じょういのツールで使用しようざん符号ふごうおこなうことで、ツールあいだ整合せいごうせいをとる。

CELP コアエンコーダ

[編集へんしゅう]

CELP コアエンコーダは通常つうじょうCELP アルゴリズムと MPE を使つか符号ふごうおこなう。符号ふごう処理しょりおおまかに以下いかのようになる。

  1. 線形せんけい予測よそくパラメータの計算けいさん量子りょうし
  2. 適応てきおうがたコードブック検索けんさく
    • 適応てきおうがたコードブックのピッチディレイとピッチゲインのかく係数けいすうもとめる
  3. 固定こていがたコードブック(代数だいすうてきコードブック)探索たんさく
    • 線形せんけい予測よそく係数けいすうからもとめた合成ごうせいフィルターと適応てきおうがた/固定こていがたコードブック使つかって復号ふくごうおこな入力にゅうりょく信号しんごう比較ひかく合成ごうせいによる分析ぶんせき
    • 入力にゅうりょく信号しんごうとの誤差ごさ最小さいしょうになるようなパルス位置いち/振幅しんぷくわせ(MPE)とゲインとを探索たんさく

ビットレート拡張かくちょうツール

[編集へんしゅう]

ビットレート拡張かくちょうツールは下位かいのエンコーダで符号ふごうできなかったもと信号しんごうとのざん入力にゅうりょくとし、パルス位置いち/振幅しんぷくわせ(MPE)とゲインとでパラメータする。

パラメータさいには、コアエンコーダでもとめた線形せんけい予測よそく係数けいすうもちい、CELP での固定こていがたコードブック探索たんさくおな合成ごうせいによる分析ぶんせき手法しゅほう使つかって、線形せんけい予測よそく係数けいすうによる合成ごうせいフィルターをもちいた復号ふくごう結果けっか入力にゅうりょく信号しんごうとの誤差ごさ最小さいしょうになるようなパルス位置いち/振幅しんぷくわせ(MPE)とゲインとを探索たんさくする。また、パルス位置いち選択せんたくさいには下位かいのエンコーダでの固定こていがたコードブックのパルス位置いち考慮こうりょしてめる。

バンドはば拡張かくちょうツール

[編集へんしゅう]

バンドはば拡張かくちょうツールはサンプリング周波数しゅうはすうが 16kHzきろへるつ広帯域こうたいいき信号しんごう入力にゅうりょくとし、コアエンコーダとビットレート拡張かくちょうツールで符号ふごうできなかった成分せいぶんのみを符号ふごうする。

バンドはば拡張かくちょうツールの符号ふごう処理しょりおおまかに以下いかのようになる。

  1. 線形せんけい予測よそくパラメータの計算けいさん量子りょうし広帯域こうたいいきばん
  2. 固定こていがたコードブック(代数だいすうてきコードブック)探索たんさく
    • 線形せんけい予測よそく係数けいすうからもとめた合成ごうせいフィルターと適応てきおうがた/固定こていがたコードブック使つかって復号ふくごうおこな入力にゅうりょく信号しんごう比較ひかく合成ごうせいによる分析ぶんせき
    • 入力にゅうりょく信号しんごうとの誤差ごさ最小さいしょうになるようなパルス位置いち/振幅しんぷくわせ(MPE)とゲインとを探索たんさく

固定こていがたコードブック探索たんさくさいには以下いかの2つのパラメータももちい、下位かいツールで符号ふごうできている成分せいぶんのぞいてパラメータする。

  • コアエンコーダでもとめた適応てきおうがたコードブックのピッチディレイ/ピッチゲイン
  • コアエンコーダとビットレート拡張かくちょうツールのかく固定こていがたコードブック(パルス位置いち/振幅しんぷくわせ)の合成ごうせい

固定こていがたコードブックの合成ごうせいはサンプリング周波数しゅうはすうわせるためアップサンプリングしたものをもちいる。

脚注きゃくちゅう

[編集へんしゅう]
  1. ^ ISO (1999ねん). “ISO/IEC 14496-3:1999 - Information technology -- Coding of audio-visual objects -- Part 3: Audio”. ISO. 2010ねん8がつ15にち閲覧えつらん
  2. ^ ISO (2000ねん). “ISO/IEC 14496-3:1999/Amd 1:2000 - Audio extensions”. ISO. 2010ねん8がつ15にち閲覧えつらん
  3. ^ ISO/IEC JTC 1/SC 29/WG 11 (1999-07) (PDF), ISO/IEC 14496-3:/Amd.1 - Final Committee Draft - MPEG-4 Audio Version 2, ftp://ftp.tnt.uni-hannover.de/pub/MPEG/audio/mpeg4/documents/w2803/w2803_n.pdf 2010ねん8がつ15にち閲覧えつらん 
  4. ^ a b ISO/IEC (2009) (PDF), ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio, IEC, http://webstore.iec.ch/preview/info_isoiec14496-3%7Bed4.0%7Den.pdf 2010ねん8がつ15にち閲覧えつらん 
  5. ^ a b c d Karlheinz Brandenburg, Oliver Kunz, Akihiko Sugiyama. “MPEG-4 Natural Audio Coding - Natural Speech Coding Tools”. 2010ねん8がつ15にち閲覧えつらん
  6. ^ B.S. Atal, J.R. Remde: A new model of LPC excitation for producing natural-sounding speech at low bit rates, Proc. IEEE Int. Conf. Acoust. Speech Signal Process., pp.614-617, 1982.
  7. ^ a b Karlheinz Brandenburg, Oliver Kunz, Akihiko Sugiyama. “MPEG-4/CELP with MPE”. 2010ねん8がつ15にち閲覧えつらん
  8. ^ a b Jürgen Herre, Bernhard Grill (2000) (PDF), Overview of MPEG-4 Audio and its Applications in Mobile Communications, IEEE, https://web.archive.org/web/20031021020652/http://www.ifip.or.at/con2000/icct2000/icct483.pdf 2010ねん8がつ15にち閲覧えつらん 

参考さんこう文献ぶんけん

[編集へんしゅう]
  • ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2009, Fourth edition, 2009.
  • Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.

関連かんれん項目こうもく

[編集へんしゅう]

外部がいぶリンク

[編集へんしゅう]