かくりつ文脈ぶんみゃく自由じゆう文法ぶんぽう

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

かくりつ文脈ぶんみゃく自由じゆう文法ぶんぽうえい: Stochastic context-free grammar, SCFG, Probabilistic context-free grammar, PCFG)は、かく生成せいせい規則きそくかくりつ対応たいおうしている文脈ぶんみゃく自由じゆう文法ぶんぽうである。導出どうしゅつ構文こうぶん解析かいせき)のかくりつは、その導出どうしゅつ使つかわれた生成せいせい規則きそくぐんかくりつせきあらわされる。したがって、導出どうしゅつ結果けっか文法ぶんぽうよりもかくりつ文法ぶんぽうによりちかい。SCFGの文脈ぶんみゃく自由じゆう文法ぶんぽうへの拡張かくちょうは、かくれマルコフモデル正規せいき文法ぶんぽうへの拡張かくちょうている。SCFGはおも自然しぜん言語げんご処理しょりバイオインフォマティクスにおけるRNA分子ぶんし研究けんきゅう利用りようされている。SCFGは加重かじゅう文脈ぶんみゃく自由じゆう文法ぶんぽう特殊とくしゅ形態けいたいうことができる。

技法ぎほう[編集へんしゅう]

CYKほう派生はせい手法しゅほうで、あたえられたSCFGのビタビ構文こうぶん解析かいせきつけることができる。ビタビ構文こうぶん解析かいせきは、SCFGによる適用てきよう規則きそくれつもっともっともらしい導出どうしゅつ構文こうぶん解析かいせき)である。

Inside-Outside アルゴリズムがあり、あたえられた文字もじれつなんらかのSCFGで解析かいせきしたときのぜん解釈かいしゃくについてかくりつもとめるのに使つかわれる。これはSCFGで適用てきよう規則きそくれつ生成せいせいするときのかくりつ等価とうかであり、直観ちょっかんてきには、その規則きそくれつ文法ぶんぽうらしてどれだけ妥当だとうかをしめ尺度しゃくどとなる。

Inside-Outside アルゴリズムは、無作為むさくい文字もじれつ生成せいせいにおいて、ある文字もじれつあらわれるかくりつ計算けいさんするのにも使つかわれる。これは、SCFGがモデルとすべき訓練くんれんれいもとづき、さいゆうかくりつ学習がくしゅうさせるために期待きたい最大さいだいほう一部いちぶとして使つかわれる。このアルゴリズムはかくれマルコフモデル使つかわれるアルゴリズムにている。

応用おうよう[編集へんしゅう]

自然しぜん言語げんご処理しょり[編集へんしゅう]

文脈ぶんみゃく自由じゆう文法ぶんぽう本来ほんらい自然しぜん言語げんご人間にんげんはな言語げんご)のモデルとして考案こうあんされた。これを研究けんきゅうしゃらが拡張かくちょうしたのが SCFG である。

以下いかしめすのは、2つの規則きそくからなる SCFG 文法ぶんぽうである。かく規則きそくまえにある数値すうちかくりつであり、それぞれがどのような頻度ひんど出現しゅつげんするかをあらわしている。

0.7 VP --> V NP
0.3 VP --> V NP NP

この文法ぶんぽうによれば、VP から生成せいせいされる NP の個数こすう期待きたいは 0.7 x 1 + 0.3 x 2 = 1.3 となる。

たとえば、音声おんせい認識にんしきシステムでSCFGを使つかい、かくりつ推定すいてい能力のうりょくたかめ、性能せいのう向上こうじょうさせるといった応用おうようかんがえられる。

最近さいきんでは、SCFG は接近せっきん階層かいそう説明せつめいするにあたって、重要じゅうよう役割やくわりたしている。接近せっきん階層かいそうとは、文章ぶんしょう構造こうぞうによって理解りかいしやすさがことなる原因げんいん説明せつめいする概念がいねんである。

もっともらしい構造こうぞうかんするかくりつてき記述きじゅつができるなら、その構造こうぞうについて情報じょうほう理論りろんてき尺度しゃくどエントロピー)が計算けいさんできることになる。情報じょうほう理論りろんもとづく文法ぶんぽう構文こうぶん認識にんしき装置そうちがあるとしたら、SCFG にるいする技法ぎほう使つかうであろうことは想像そうぞうかたくない[1]

RNA[編集へんしゅう]

文脈ぶんみゃく自由じゆう文法ぶんぽうは、RNAの構造こうぞうのモデリングにも適用てきようされる[2][3]一本いっぽんくさりRNA分子ぶんしにおけるヌクレオチド構造こうぞうは、相補そうほてきであり、たい形成けいせいする。この基本きほんたいがRNA分子ぶんし機能きのうにおいて生物せいぶつがくてき重要じゅうようである。基本きほんたいおおくは文脈ぶんみゃく自由じゆう文法ぶんぽう表現ひょうげんできる(例外れいがいとしてシュードノットがある)。

たとえば、つぎのような文法ぶんぽうがあるとする。ここで、a,c,g,u はヌクレオチドをあらわし、S は開始かいし記号きごう唯一ゆいいつ非終端ひしゅうたん記号きごう)である。

S → aSu | cSg | gSc | uSa

この単純たんじゅん文脈ぶんみゃく自由じゆう文法ぶんぽうが、2つの完全かんぜん相補そうほてき領域りょういきからるRNA分子ぶんしあらわしている。ここでは、正規せいき相補そうほてきたいしかゆるされない(すなわち、A-U と C-G)。

もっと複雑ふくざつ文脈ぶんみゃく自由じゆう文法ぶんぽうかくりつ付与ふよすると、特定とくていのRNAパターンをある程度ていどモデルすることができる。Rfamデータベースでは、ノンコーディングRNAのパターンのモデルにSCFGを使つかっており、にありそうなゲノムシーケンスがないかさがすのに使つかっている。比較ひかくゲノム解析かいせきでもRNA遺伝子いでんしさがすのにSCFGが使つかわれてきた。この場合ばあい、RNA遺伝子いでんしおもわれる部分ぶぶんあい同体どうたい遺伝いでんてきちかい2つの個体こたいにあるとき、SCFGを使つかってそれらの構造こうぞう保持ほじされるかを確認かくにんする。もしそうなら、そのシーケンスはRNA遺伝子いでんしかんがえられそのRNA分子ぶんし構造こうぞう推定すいていにもSCFGなどの手法しゅほう使つかわれる(Stemloc など)。

なま成文法せいぶんほうとの比較ひかく[編集へんしゅう]

ゴールドの定理ていり(1967ねん[4]によれば、自然しぜん言語げんご文法ぶんぽう決定的けっていてき規則きそくだけで説明せつめいすると、ただしいれいだけでは学習がくしゅうできないとされた。これは1980ねん発表はっぴょうされた「刺激しげき貧困ひんこん」という主張しゅちょう一部いちぶともなり[5]ノーム・チョムスキーは1950年代ねんだいごろからそのような主張しゅちょうおこなっていた。このかんがかた心理しんりがくてき生得しょうとく主義しゅぎにつながり、自然しぜん言語げんご文法ぶんぽうまれたときからえつけられているというかんがかたにつながっていく。このかんがかたは、しゅとして統率とうそつ束縛そくばく理論りろん (GB) やミニマリスト・プログラム (MP) の理論りろん制限せいげんされる。

文法ぶんぽうとは、言語げんご構文こうぶん説明せつめいである。理論りろんてきモデルは、精神せいしん言語げんごなま成文法せいぶんほう集中しゅうちゅうしている。それとは対照たいしょうてきに、言語げんご用法ようほう説明せつめいする文法ぶんぽう構築こうちくすべく構文こうぶん研究けんきゅうする立場たちばもある[6]

形式けいしき文法ぶんぽう全般ぜんぱんかかわる問題もんだいとして、1つの文章ぶんしょう構造こうぞう複数ふくすう生成せいせい規則きそく対応たいおう可能かのうであるてんげられる。おおくの構文こうぶん説明せつめいしようとすると、衝突しょうとつ発生はっせいしやすくなるため、文法ぶんぽう学者がくしゃ規則きそく優先ゆうせん順位じゅんいけに多大ただい労力ろうりょくついやすようになり、最終さいしゅうてきにそれが無駄むだであったことが判明はんめいする。べつ問題もんだいとして、言語げんごとして意味いみさない文章ぶんしょうまで生成せいせいできてしまうという問題もんだいがある。かくりつ文法ぶんぽうは、これらの問題もんだいへの対処たいしょとして生成せいせい規則きそく使用しよう頻度ひんどでそれらを順位じゅんいけし、結果けっかとしてもっともそれらしい解釈かいしゃくができるが、定義ていぎじょう、その解釈かいしゃく追加ついかデータによって無効むこうされる。構文こうぶん使用しようパターンはとも変化へんかするので、かくりつてき生成せいせい規則きそくさい学習がくしゅう必要ひつようであり、それによって文法ぶんぽう更新こうしんされる。

伝統でんとうてき形式けいしき文法ぶんぽうぜん非終端ひしゅうたん記号きごう実例じつれいデータから推定すいていした確率かくりつ付与ふよすることでかくりつ文法ぶんぽう構築こうちくすることもできる。一般いっぱんに、いちから精密せいみつ構築こうちくした文法ぶんぽうよりも、データからかくりつ調整ちょうせいしたかくりつ文法ぶんぽうほうがすぐれている(もっとも、規則きそくもとづいた文法ぶんぽうでもSCFGの正確せいかくさにちかいものが出現しゅつげんしている)。

最近さいきんでは、かくりつ文法ぶんぽうはある程度ていど認識にんしきてきゆうもらしさをたようにえる。ことなる文法ぶんぽう構造こうぞうにアクセスするのがむずかしいことはよくられている(たとえば、関係かんけいぶし接近せっきん階層かいそう)。ミニマリスト文法ぶんぽうかくりつバージョンは、わかりやすさと生成せいせい困難こんなんさについて言語げんご心理しんりがくてきデータとよく相関そうかんするような情報じょうほう理論りろんてきエントロピー計算けいさんするのに使つかわれている[1]

脚注きゃくちゅう[編集へんしゅう]

  1. ^ a b John Hale (2006ねん). “Uncertainty About the Rest of the Sentence”. Cognitive Science 30: 643-672. doi:10.1207/s15516709cog0000_64. 
  2. ^ Durbin, Eddy, Krogh, Mitchison, Biological sequence analysis, Cambridge University Press, 1998. このバイオインフォマティクスのほんでは、RNAモデリングへのSCFGの適用てきよう方法ほうほうだけでなく、1998ねんまでのそれにかんする歴史れきし解説かいせつしている。
  3. ^ Sean R. Eddy and Richard Durbin (1994), "RNA sequence analysis using covariance models", Nucleic Acids Research, 22 (11): 2079-88. [1]
  4. ^ Gold, E. (1967). Language identification in the limit. Information and Control 10, 447-474.
  5. ^ Chomsky, N. (1980). Rules and representations Oxford: Basil Blackwell.
  6. ^ George Lakoff and Mark Johnson (1999ねん). Philosophy in the Flesh: The embodied mind and its challenge to Western thought. Part IV.. New York: Basic Books. 

参考さんこう文献ぶんけん[編集へんしゅう]

  • Elena Rivas and Sean R. Eddy (2001), "Noncoding RNA gene detection using comparative sequence analysis", BMC Bioinformatics, 2 (1): 8. [2]

外部がいぶリンク[編集へんしゅう]