(Translated by https://www.hiragana.jp/)
G.718 - Wikipedia コンテンツにスキップ

G.718

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

G.718ITU-T勧告かんこくした広帯域こうたいいき音声おんせいとオーディオようコーデックで、8 kbps~32 kbps広範囲こうはんいビットレートをサポートし、フレーム消失しょうしつつよ特徴とくちょうがある。テレビ会議かいぎシステムや VoIP よう使つかうことができる。

G.718 の正式せいしき名称めいしょう"Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s" (フレームエラーにつよせま帯域たいいき広帯域こうたいいきのエンベデッド可変かへんビットレート音声おんせい/オーディオよう 8-32 kbit/s 符号ふごう方式ほうしき)である。

概要がいよう

[編集へんしゅう]

G.718 は複数ふくすう音声おんせい符号ふごう方式ほうしき階層かいそうてきわせることでビットレート帯域たいいきはば柔軟じゅうなんせい向上こうじょうさせたものである。同様どうようのアイデアをもちいたものとして G.729.1 がある。 コアとなる音声おんせい符号ふごうアルゴリズムとして CELP一種いっしゅACELP使用しようする。 せま帯域たいいきばん広帯域こうたいいきばんがあり、入出力にゅうしゅつりょくサンプリング周波数しゅうはすう広帯域こうたいいき場合ばあい 16 kHzきろへるつせま帯域たいいき場合ばあい 8 kHzきろへるつ あるいは 16 kHzきろへるつ である。

コア部分ぶぶん性能せいのうがよいため、G.718 広帯域こうたいいきコーデックの 8 kbps での音質おんしつG.722.2 の 12.65 kbit/s の場合ばあい等価とうかで、G.718 せま帯域たいいきコーデックの8 kbps での音質おんしつG.722.2 の 11.8 kbit/s の場合ばあいひとしい [1]

G.718 がサポートする 8、12、16、24、32 kbps までの 5 種類しゅるいビットレート対応たいおうして、コーデック出力しゅつりょくするビット列びっとれつは 5 階層かいそう構造こうぞうになっている。符号ふごうしたビット列びっとれつから必要ひつよう階層かいそうのみを容易よういすことができる。

ビットレート 8 kbpsに対応たいおうするのがコアそうとなるだい1そうで、ACELP符号ふごうアルゴリズムとしてもちいる。だい2そうは 4 kbpsの ACELP 拡張かくちょうそうである。 だい3そうからだい5そうまでは MDCT修正しゅうせい離散りさんコサイン変換へんかん)をもちいた符号ふごうアルゴリズムをもちい、だい2そうまでで符号ふごうできなかった情報じょうほう符号ふごうおこなう。だい3そうには通信つうしんフレーム消失しょうしつした場合ばあい音質おんしつ低下ていかけるための補助ほじょ情報じょうほう格納かくのうされる。だい3そうは 4 kbps 、それ以上いじょうは 8 kbps 単位たんい情報じょうほうえていき、それにおうじて音質おんしつ向上こうじょうする。

それぞれの階層かいそう使用しようする技術ぎじゅつ以下いかにまとめる[1]せま帯域たいいきばんではだい1そうだい2そうしか実装じっそうされない。

G.729.1 の全体ぜんたい構成こうせい
階層かいそう 技術ぎじゅつ サンプリング周波数しゅうはすう ビットレート 説明せつめい
1 ACELP (algebraic CELP) 12.8 kHzきろへるつ 8 kbps コアそうVMR-WB 仕様しようがベース)
2 ACELP 拡張かくちょうそう 12.8 kHzきろへるつ +4 kbps コアそう追加ついか部分ぶぶん
3 MDCT 12.8/16 kHzきろへるつ +4 kbps フレーム消失しょうしつよう情報じょうほう + 付加ふか情報じょうほう
4-5 MDCT 16 kHzきろへるつ +8 kbps単位たんい 付加ふか情報じょうほう

G.718 の特徴とくちょう以下いかにまとめる。

  • 音声おんせい音楽おんがくなど一般いっぱんてきなオーディオ信号しんごう両方りょうほうをサポート
  • 入出力にゅうしゅつりょくサンプリング周波数しゅうはすう広帯域こうたいいき場合ばあい 16 kHzきろへるつせま帯域たいいき場合ばあい 8 kHzきろへるつ あるいは 16 kHzきろへるつ
  • 8~32 kbpsまでの 5 種類しゅるいビットレート (8、12、16、24、32 kbps
  • 5 階層かいそう構造こうぞうビットストリーム
  • 8 kbpsのコアそうACELP使用しよう
  • 20 msのフレームちょう符号ふごう遅延ちえん 42.875 ms(広帯域こうたいいき場合ばあい)、43.875 ms(せま帯域たいいき場合ばあい
  • 複数ふくすう音声おんせい符号ふごうアルゴリズム階層かいそうてきわせ

また、G.718 には同様どうよう目的もくてき使つかわれる ITU-T G.722.2AMR-WB) との相互そうご運用うんようせいのために、オプションとして G.722.2 (12.65 kbps) をサポートすることができる[1]。その場合ばあいだい1そうだい2そうG.722.2 mode 2 (12.65 kbps) とえる。

G.718 の符号ふごうデータを Real-time Transport Protocol(RTP)をもちいインターネットじょうおくるためのデータ形式けいしきは、IETF RFC のドラフトが提案ていあんされている。 [2]

アルゴリズム

[編集へんしゅう]

G.718 は、既存きそん広帯域こうたいいき音声おんせい符号ふごうアルゴリズムをコアとする複数ふくすうのアルゴリズムの階層かいそうてきわせからなる。 コアのアルゴリズムで入力にゅうりょく信号しんごう符号ふごうおこない、符号ふごうできなかったざん部分ぶぶんのアルゴリズムを使つか付加ふか情報じょうほうとして追加ついかする。

だい1そう

[編集へんしゅう]

コアとなるだい1そう3GPP2定義ていぎされただいさん世代せだい携帯けいたい電話でんわ広帯域こうたいいき音声おんせい符号ふごうコーデック VMR-WB仕様しようをベースにしたもので[1]音声おんせい符号ふごう代表だいひょうてきなアルゴリズムである ACELPalgebraic code excited linear prediction)を使つかう。コア部分ぶぶんサンプリング周波数しゅうはすう 16 kHzきろへるつ入力にゅうりょく信号しんごうを 12.8 kHzきろへるつさいサンプリングし、符号ふごう処理しょりおこなう。

だい1そうでは 20 ms のフレームたい以下いか処理しょりにより符号ふごうおこなう。

  • 12.8 kHzきろへるつリサンプリングハイパスフィルタによる直流ちょくりゅう成分せいぶん除去じょきょなどのぜん処理しょり
  • スペクトル分析ぶんせき音声おんせい区間くかん検出けんしゅつ雑音ざつおん抑制よくせいよう
  • 入力にゅうりょく広帯域こうたいいき/せま帯域たいいきかを検出けんしゅつ
  • スペクトル分析ぶんせき結果けっかより音声おんせい区間くかん検出けんしゅつvoice activity detection
  • スペクトル分析ぶんせき結果けっかより雑音ざつおんスペクトル推定すいてい
  • 推定すいていされた雑音ざつおんスペクトルをもちいて雑音ざつおん抑制よくせい
  • ACELPのための線形せんけい予測よそく係数けいすう計算けいさんなど
  • 聴感おもけされた音声おんせい信号しんごう計算けいさん
  • オープンループでのピッチ周波数しゅうはすう音声おんせい波形はけい基本きほんとなる周波数しゅうはすう分析ぶんせき
  • 背景はいけい雑音ざつおんスペクトルの推定すいてい更新こうしん
  • 信号しんごうフレーム内容ないようより処理しょりモードを選択せんたく

これらの処理しょりおこなったのち、、信号しんごうフレーム内容ないようにより以下いか処理しょりモードのいずれかの処理しょりにより符号ふごうおこなう。

無声音むせいおん場合ばあい処理しょり
周期しゅうきてきかえしのある有声音ゆうせいおん場合ばあい処理しょり
  • transition coding mode(遷移せんい符号ふごうモード)
有声音ゆうせいおん開始かいし時点じてん処理しょり
  • discontinuous transmission and comfort noise generation (DTX/CNG)(連続れんぞく送信そうしんとコンフォートノイズ生成せいせい
無音むおん無音むおんデータ(silence insertion descriptor、SID)か NO_DATA フレームの生成せいせい
まったくの無音むおんけるため、デコーダがわでの適切てきせつなレベルのバックグラウンドノイズ(コンフォートノイズ)生成せいせい
  • generic coding mode(ジェネリック符号ふごうモード)
上記じょうきのいずれにも分類ぶんるいできない場合ばあい処理しょり

また、G.718 はIPネットワークのようなパケットロスやパケット遅延ちえんおお環境かんきょうでの利用りよう想定そうていしているため、これらによるフレーム消失しょうしつ音質おんしつ低下ていかけるための補助ほじょ情報じょうほう同時どうじ抽出ちゅうしゅつする。これらの情報じょうほうだい3そう格納かくのうされ、必要ひつようおう復号ふくごう使用しようされる。

だい2そう

[編集へんしゅう]

コアの機能きのう拡張かくちょうであるだい2そうACELP使用しようし 12.8 kHzきろへるつ でサンプリングされたフレームにたい符号ふごう処理しょりおこなう。だい1そうでの符号ふごうモードやコードブックの使つかだい1そう符号ふごうできなかったざん信号しんごう計算けいさんし、それを ACELP のコードブックを使つかって符号ふごうする。動作どうさだい1そう符号ふごうモードによりことなるが、基本きほんてきには以下いかおこなう。

  • 12.8 kHzきろへるつ でサンプリングされた 6.4kHzきろへるつ 以下いか信号しんごう成分せいぶんについて、もと信号しんごうだい1そう符号ふごうした信号しんごうとのざん符号ふごう
  • AMR-WB のアルゴリズムを使用しようし 6.4kHzきろへるつ~7kHzきろへるつ信号しんごう成分せいぶん生成せいせい

だい3そう以上いじょう

[編集へんしゅう]

だい3そう以上いじょうそう広帯域こうたいいきばんでのみ使つかわれ、サンプリング周波数しゅうはすうは 16kHzきろへるつ である。 これらのそうでは、だい2そうまでで符号ふごうできなかったざん部分ぶぶんMDCTもちいて周波数しゅうはすう領域りょういき係数けいすう変換へんかんし、入力にゅうりょく信号しんごう性質せいしつ人間にんげん聴感特性とくせいわせてそれらを符号ふごうする。

一般いっぱんに、音声おんせい音楽おんがくではそのおと性質せいしつがかなりことなる。G.718 では、信号しんごう音声おんせい成分せいぶんおおいか音楽おんがく成分せいぶんおおいかを判定はんていし、だい3そうだい4そう使つかわれる符号ふごう方法ほうほうえる。

音声おんせい/音楽おんがく判定はんていにはだい2そう以下いか符号ふごうできた信号しんごう実際じっさい入力にゅうりょく信号しんごうとの周波数しゅうはすう領域りょういきでの調しらべることでおこなう。だい2そう以下いか音声おんせい符号ふごうようのアルゴリズムをもちいているため音楽おんがくなどをふく信号しんごうはうまく符号ふごうができず、実際じっさい入力にゅうりょく信号しんごうより符号ふごう信号しんごうのほうがエネルギーがおおきくなる領域りょういきおおくなる。これを利用りよう符号ふごうのエネルギーがおおきくなる領域りょういきのエネルギーの総和そうわもとめることで判定はんていおこなう。

音声おんせい成分せいぶんおお場合ばあいだい3そうだい3そうでは AVQ(algebraic vector quantization)とばれる方法ほうほう使つかわれる。 音楽おんがく成分せいぶんおお場合ばあいだい3そうでは BS-SGC(band-selective shape-gain vector quantization)が、だい4そうは FPC(factorial pulse coding)とばれる方法ほうほう使つかわれる。

だい5そうではつねに FPC(factorial pulse coding)が使つかわれる。それ以下いかそう符号ふごうできなかった周波数しゅうはすう領域りょういきでのざん符号ふごうする。

だい3そう以上いじょう使つかわれる MDCT 係数けいすう符号ふごう方式ほうしき以下いかひょうにまとめる。

G.729.1 のだい3そう以上いじょう使つかわれる符号ふごう方式ほうしき
階層かいそう 符号ふごう方式ほうしき 説明せつめい
3 AVGalgebraic vector quantization 音声おんせい(voice)成分せいぶんおお場合ばあい
BS-SGCband-selective shape-gain vector quantization 音楽おんがく(music)成分せいぶんおお場合ばあい
4 AVGalgebraic vector quantization 音声おんせい(voice)成分せいぶんおお場合ばあい
FPCfactorial pulse coding 音楽おんがく(music)成分せいぶんおお場合ばあい
5 FPCfactorial pulse coding

脚注きゃくちゅう

[編集へんしゅう]
  1. ^ a b c d ITU-T Recommendation G.718 (06/2008), Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s. ITU-T, 2008.
  2. ^ IETF Network Working Group. RFC Draft RTP payload format for G.718 speech/audio. IETF. April, 2009.

参考さんこう文献ぶんけん

[編集へんしゅう]
  • Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
  • ITU-T Recommendation G.718 (06/2008), Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s. ITU-T, 2008.
  • IETF Network Working Group. RFC Draft RTP payload format for G.718 speech/audio. IETF. April, 2009.

関連かんれん項目こうもく

[編集へんしゅう]

外部がいぶリンク

[編集へんしゅう]