確かく率りつ文脈ぶんみゃく自由じゆう文法ぶんぽう

確かく率りつ文脈ぶんみゃく自由じゆう文法ぶんぽう（英えい: Stochastic context-free grammar, SCFG, Probabilistic context-free grammar, PCFG）は、各かく生成せいせい規則きそくに確かく率りつが対応たいおうしている文脈ぶんみゃく自由じゆう文法ぶんぽうである。導出どうしゅつ（構文こうぶん解析かいせき）の確かく率りつは、その導出どうしゅつで使つかわれた生成せいせい規則きそく群ぐんの確かく率りつの積せきで表あらわされる。従したがって、導出どうしゅつ結果けっかは他たの文法ぶんぽうよりも確かく率りつ文法ぶんぽうにより近ちかい。SCFGの文脈ぶんみゃく自由じゆう文法ぶんぽうへの拡張かくちょうは、隠かくれマルコフモデルの正規せいき文法ぶんぽうへの拡張かくちょうと似にている。SCFGは主おもに自然しぜん言語げんご処理しょりとバイオインフォマティクスにおけるRNA分子ぶんしの研究けんきゅうで利用りようされている。SCFGは加重かじゅう文脈ぶんみゃく自由じゆう文法ぶんぽうの特殊とくしゅな形態けいたいと言いうことができる。

技法ぎほう[編集へんしゅう]

CYK法ほうの派生はせい手法しゅほうで、与あたえられたSCFGのビタビ構文こうぶん解析かいせきを見みつけることができる。ビタビ構文こうぶん解析かいせきは、SCFGによる適用てきよう規則きそく列れつの最もっとも尤もっともらしい導出どうしゅつ（構文こうぶん解析かいせき）である。

Inside-Outside アルゴリズムがあり、与あたえられた文字もじ列れつを何なんらかのSCFGで解析かいせきしたときの全ぜん解釈かいしゃくについて確かく率りつを求もとめるのに使つかわれる。これはSCFGで適用てきよう規則きそく列れつを生成せいせいするときの確かく率りつと等価とうかであり、直観ちょっかん的てきには、その規則きそく列れつが文法ぶんぽうに照てらしてどれだけ妥当だとうかを示しめす尺度しゃくどとなる。

Inside-Outside アルゴリズムは、無作為むさくいな文字もじ列れつ生成せいせいにおいて、ある文字もじ列れつが現あらわれる確かく率りつを計算けいさんするのにも使つかわれる。これは、SCFGがモデルとすべき訓練くんれん例れいに基もとづき、最さい尤ゆう確かく率りつを学習がくしゅうさせるために期待きたい値ち最大さいだい化か法ほうの一部いちぶとして使つかわれる。このアルゴリズムは隠かくれマルコフモデルで使つかわれるアルゴリズムに似にている。

応用おうよう[編集へんしゅう]

自然しぜん言語げんご処理しょり[編集へんしゅう]

文脈ぶんみゃく自由じゆう文法ぶんぽうは本来ほんらい、自然しぜん言語げんご（人間にんげんが話はなす言語げんご）のモデルとして考案こうあんされた。これを研究けんきゅう者しゃらが拡張かくちょうしたのが SCFG である。

以下いかに示しめすのは、2つの規則きそくからなる SCFG 文法ぶんぽうである。各かく規則きそくの前まえにある数値すうちは確かく率りつであり、それぞれがどのような頻度ひんどで出現しゅつげんするかを表あらわしている。

0.7 VP --> V NP

0.3 VP --> V NP NP

この文法ぶんぽうによれば、VP から生成せいせいされる NP の個数こすうの期待きたい値ちは 0.7 x 1 + 0.3 x 2 = 1.3 となる。

例たとえば、音声おんせい認識にんしきシステムでSCFGを使つかい、確かく率りつ推定すいてい能力のうりょくを高たかめ、性能せいのうを向上こうじょうさせるといった応用おうようが考かんがえられる。

最近さいきんでは、SCFG は接近せっきん度ど階層かいそうを説明せつめいするにあたって、重要じゅうような役割やくわりを果はたしている。接近せっきん度ど階層かいそうとは、文章ぶんしょう構造こうぞうによって理解りかいしやすさが異ことなる原因げんいんを説明せつめいする概念がいねんである。

尤もっともらしい構造こうぞうに関かんする確かく率りつ的てき記述きじゅつができるなら、その構造こうぞうについて情報じょうほう理論りろん的てき尺度しゃくど（エントロピー）が計算けいさんできることになる。情報じょうほう理論りろんに基もとづく文法ぶんぽう（構文こうぶん）認識にんしき装置そうちがあるとしたら、SCFG に類るいする技法ぎほうを使つかうであろうことは想像そうぞうに難かたくない^[1]。

RNA[編集へんしゅう]

文脈ぶんみゃく自由じゆう文法ぶんぽうは、RNAの二に次じ構造こうぞうのモデリングにも適用てきようされる^[2]^[3]。一本いっぽん鎖くさりRNA分子ぶんしにおけるヌクレオチドの二に次じ構造こうぞうは、相補そうほ的てきであり、対たいを形成けいせいする。この基本きほん対たいがRNA分子ぶんしの機能きのうにおいて生物せいぶつ学がく的てきに重要じゅうようである。基本きほん対たいの多おおくは文脈ぶんみゃく自由じゆう文法ぶんぽうで表現ひょうげんできる（例外れいがいとしてシュードノットがある）。

例たとえば、次つぎのような文法ぶんぽうがあるとする。ここで、a,c,g,u はヌクレオチドを表あらわし、S は開始かいし記号きごう（唯一ゆいいつの非終端ひしゅうたん記号きごう）である。

S → aSu | cSg | gSc | uSa

この単純たんじゅんな文脈ぶんみゃく自由じゆう文法ぶんぽうが、2つの完全かんぜんに相補そうほ的てきな領域りょういきから成なるRNA分子ぶんしを表あらわしている。ここでは、正規せいきの相補そうほ的てきな対たいしか許ゆるされない（すなわち、A-U と C-G）。

もっと複雑ふくざつな文脈ぶんみゃく自由じゆう文法ぶんぽうに確かく率りつを付与ふよすると、特定とくていのRNAパターンをある程度ていどモデル化かすることができる。Rfamデータベースでは、ノンコーディングRNAのパターンのモデル化かにSCFGを使つかっており、他たにありそうなゲノムシーケンスがないか探さがすのに使つかっている。比較ひかくゲノム解析かいせきでもRNA遺伝子いでんしを探さがすのにSCFGが使つかわれてきた。この場合ばあい、RNA遺伝子いでんしと思おもわれる部分ぶぶんの相あい同体どうたいが遺伝いでん的てきに近ちかい2つの個体こたいにあるとき、SCFGを使つかってそれらの二に次じ構造こうぞうが保持ほじされるかを確認かくにんする。もしそうなら、そのシーケンスはRNA遺伝子いでんしと考かんがえられそのRNA分子ぶんしの二に次じ構造こうぞうの推定すいていにもSCFGなどの手法しゅほうが使つかわれる（Stemloc など）。

生なま成文法せいぶんほうとの比較ひかく[編集へんしゅう]

ゴールドの定理ていり（1967年ねん）^[4]によれば、自然しぜん言語げんごの文法ぶんぽうを決定的けっていてきな規則きそくだけで説明せつめいすると、正ただしい例れいだけでは学習がくしゅうできないとされた。これは1980年ねんに発表はっぴょうされた「刺激しげきの貧困ひんこん」という主張しゅちょうの一部いちぶともなり^[5]、ノーム・チョムスキーは1950年代ねんだいごろからそのような主張しゅちょうを行おこなっていた。この考かんがえ方かたは心理しんり学がく的てき生得しょうとく主義しゅぎにつながり、自然しぜん言語げんごの文法ぶんぽうは生うまれたときから植うえつけられているという考かんがえ方かたにつながっていく。この考かんがえ方かたは、主しゅとして統率とうそつ・束縛そくばく理論りろん (GB) やミニマリスト・プログラム (MP) の理論りろんに制限せいげんされる。

文法ぶんぽうとは、言語げんごの構文こうぶんの説明せつめいである。理論りろん的てきモデルは、精神せいしん言語げんごや生なま成文法せいぶんほうに集中しゅうちゅうしている。それとは対照たいしょう的てきに、言語げんごの用法ようほうを説明せつめいする文法ぶんぽうを構築こうちくすべく構文こうぶんを研究けんきゅうする立場たちばもある^[6]。

形式けいしき文法ぶんぽう全般ぜんぱんに関かかわる問題もんだいとして、1つの文章ぶんしょう構造こうぞうに複数ふくすうの生成せいせい規則きそくが対応たいおう可能かのうである点てんが挙あげられる。多おおくの構文こうぶんを説明せつめいしようとすると、衝突しょうとつが発生はっせいしやすくなるため、文法ぶんぽう学者がくしゃは規則きそくの優先ゆうせん順位じゅんい付づけに多大ただいな労力ろうりょくを費ついやすようになり、最終さいしゅう的てきにそれが無駄むだであったことが判明はんめいする。別べつの問題もんだいとして、言語げんごとして意味いみを成なさない文章ぶんしょうまで生成せいせいできてしまうという問題もんだいがある。確かく率りつ文法ぶんぽうは、これらの問題もんだいへの対処たいしょとして生成せいせい規則きそくの使用しよう頻度ひんどでそれらを順位じゅんい付づけし、結果けっかとして最もっともそれらしい解釈かいしゃくができるが、定義ていぎ上じょう、その解釈かいしゃくも追加ついかデータによって無効むこう化かされる。構文こうぶんの使用しようパターンは時じと共ともに変化へんかするので、確かく率りつ的てき生成せいせい規則きそくも再さい学習がくしゅうが必要ひつようであり、それによって文法ぶんぽうが更新こうしんされる。

伝統でんとう的てきな形式けいしき文法ぶんぽうの全ぜん非終端ひしゅうたん記号きごうに実例じつれいデータから推定すいていした確率かくりつ値ちを付与ふよすることで確かく率りつ文法ぶんぽうを構築こうちくすることもできる。一般いっぱんに、一いちから精密せいみつに構築こうちくした文法ぶんぽうよりも、データから確かく率りつを調整ちょうせいした確かく率りつ文法ぶんぽうの方ほうがすぐれている（もっとも、規則きそくに基もとづいた文法ぶんぽうでもSCFGの正確せいかくさに近ちかいものが出現しゅつげんしている）。

最近さいきんでは、確かく率りつ文法ぶんぽうはある程度ていどの認識にんしき的てき尤ゆうもらしさを得えたように見みえる。異ことなる文法ぶんぽう構造こうぞうにアクセスするのが難むずかしいことはよく知しられている（例たとえば、関係かんけい節ぶしの接近せっきん度ど階層かいそう）。ミニマリスト文法ぶんぽうの確かく率りつバージョンは、わかりやすさと生成せいせいの困難こんなんさについて言語げんご心理しんり学がく的てきデータとよく相関そうかんするような情報じょうほう理論りろん的てきエントロピーを計算けいさんするのに使つかわれている^[1]。

脚注きゃくちゅう[編集へんしゅう]

^ ^a ^b John Hale (2006年ねん). “Uncertainty About the Rest of the Sentence”. Cognitive Science 30: 643-672. doi:10.1207/s15516709cog0000_64.
^ Durbin, Eddy, Krogh, Mitchison, Biological sequence analysis, Cambridge University Press, 1998. このバイオインフォマティクスの本ほんでは、RNAモデリングへのSCFGの適用てきよう方法ほうほうだけでなく、1998年ねんまでのそれに関かんする歴史れきしも解説かいせつしている。
^ Sean R. Eddy and Richard Durbin (1994), "RNA sequence analysis using covariance models", Nucleic Acids Research, 22 (11): 2079-88. [1]
^ Gold, E. (1967). Language identification in the limit. Information and Control 10, 447-474.
^ Chomsky, N. (1980). Rules and representations Oxford: Basil Blackwell.
^ George Lakoff and Mark Johnson (1999年ねん). Philosophy in the Flesh: The embodied mind and its challenge to Western thought. Part IV.. New York: Basic Books.

参考さんこう文献ぶんけん[編集へんしゅう]

Elena Rivas and Sean R. Eddy (2001), "Noncoding RNA gene detection using comparative sequence analysis", BMC Bioinformatics, 2 (1): 8. [2]

外部がいぶリンク[編集へんしゅう]

Rfam Database
確かく率りつ文脈ぶんみゃく自由じゆう文法ぶんぽうとRNA (PDF) 浅井あさい潔きよし、2003年ねん11月がつ10日とおか^{[リンク切きれ]}
EDRコーパスからの確かく率りつ文脈ぶんみゃく自由じゆう文法ぶんぽうの自動じどう抽出ちゅうしゅつに関かんする研究けんきゅう (PDF) 白井しらい清昭きよあき、徳永とくなが健けん伸しん、田中たなか穂積ほづみ、東京工業大学とうきょうこうぎょうだいがく^{[リンク切きれ]}

[#1-1] John Hale (2006年ねん). “Uncertainty About the Rest of the Sentence”. Cognitive Science 30: 643-672. doi:10.1207/s15516709cog0000_64.

[2] Durbin, Eddy, Krogh, Mitchison, Biological sequence analysis, Cambridge University Press, 1998. このバイオインフォマティクスの本ほんでは、RNAモデリングへのSCFGの適用てきよう方法ほうほうだけでなく、1998年ねんまでのそれに関かんする歴史れきしも解説かいせつしている。

[3] Sean R. Eddy and Richard Durbin (1994), "RNA sequence analysis using covariance models", Nucleic Acids Research, 22 (11): 2079-88. [1]

[4] Gold, E. (1967). Language identification in the limit. Information and Control 10, 447-474.

[5] Chomsky, N. (1980). Rules and representations Oxford: Basil Blackwell.

[6] George Lakoff and Mark Johnson (1999年ねん). Philosophy in the Flesh: The embodied mind and its challenge to Western thought. Part IV.. New York: Basic Books.

[1]

[2]

[3]

[4]

[5]

[6]