(Translated by https://www.hiragana.jp/)
日本語処理 - Wikipedia

日本語にほんご処理しょり(にほんごしょり)は、自然しぜん言語げんご処理しょり下位かい分類ぶんるいのひとつで、自然しぜん言語げんごのひとつである日本語にほんごコンピュータ処理しょりさせる技術ぎじゅつのこと。

アルファベット中心ちゅうしん欧米おうべいではタイプライターテレタイプ端末たんまつ各種かくしゅターミナルパーソナルコンピュータうえ端末たんまつエミュレータワープロソフトDTPなどが普及ふきゅうした。日本語にほんごわかちなしの漢字かんじ仮名がなじり表記ひょうき一般いっぱんてきなため、和文わぶんタイプライター1950年代ねんだいには漢字かんじテレタイプ端末たんまつとしても使用しようされた。

1972ねんには日本経済新聞にほんけいざいしんぶんグループと日本にっぽんIBM共同きょうどう開発かいはつ世界せかいはつコンピュータを利用りようした新聞しんぶん製作せいさくシステム ANNECS(アネックス)が稼働かどうし、さら1980ねんには朝日新聞あさひしんぶん日本にっぽんIBMと共同きょうどう開発かいはつしたNELSON(ネルソン)が稼働かどうした。これらはメインフレーム専用せんよう端末たんまつふくIBM漢字かんじシステムで、日本語にほんご新聞紙しんぶんしめん必要ひつようなかな漢字かんじぶん入力にゅうりょく表示ひょうじ禁則きんそく処理しょりなどに対応たいおうした[1]

並行へいこうして1960年代ねんだいから1970年代ねんだいにかけて九州大学きゅうしゅうだいがく沖電気おきでんきNHKNTT大阪大学おおさかだいがくなどでかな漢字かんじ変換へんかん技術ぎじゅつ研究けんきゅうされ、1978ねんには東芝とうしばはつ日本語にほんごワードプロセッサのJW-10発表はっぴょうした[2]

またパーソナルコンピュータでの日本語にほんご入力にゅうりょくシステムにはインプット メソッド エディタ(IME、当時とうじFEPとも)が普及ふきゅうした。Mac以外いがいでは、日本語にほんご高速こうそく表示ひょうじには各社かくしゃ独自どくじ仕様しようのハードウェアであるテキストVRAM使用しようされたが、1990ねん登場とうじょうしたDOS/VMicrosoft Windowsなどのグラフィカルユーザインタフェース(GUI)環境かんきょう普及ふきゅうにより、世界せかいデファクトスタンダードであるPC/AT互換ごかん日本にっぽんでも一般いっぱんてきとなった。

言語げんごがく国文法こくぶんぽうがくとの関連かんれん

編集へんしゅう

音声おんせい入出力にゅうしゅつりょくなどは音声おんせいがくなどの言語げんごがくてき要素ようそふくむ。しかし現在げんざいのところ、日本語にほんご処理しょりはテキストデータによる入出力にゅうしゅつりょく中心ちゅうしんとなっているため、やや関連かんれんうすい。いわゆる学校がっこう文法ぶんぽうとも(とく動詞どうし活用かつようなどについては)距離きょりがある。学校がっこう文法ぶんぽう国学こくがくほんきょはるにわなど)の影響えいきょうもあって五十音ごじゅうおん基盤きばんにしており、同時どうじ橋本はしもと進吉しんきち活用かつようひょう学生がくせい自身じしんの「づき」をうながすための素材そざいとしてとらえていたため、機械きかい学習がくしゅうなどをおこなわなければ、コンピュータの動作どうさにたいして正確せいかく反映はんえいさせることはむずかしい。そこで、日本語にほんご処理しょりにおける日本語にほんご文法ぶんぽうは、「音素おんそ」「指標しひょうおん」「形態素けいたいそ」「活用かつよう語尾ごび」といった独自どくじ用語ようご使つかわれており、学校がっこう文法ぶんぽうとはかなり異質いしつなものになっている。

とはいえ日本語にほんご教育きょういくとの相性あいしょうわるくない。具体ぐたいれいとしては、「く」は音素おんそベースでくならば「kak-a」(「ない」「ぬ」「ん」に接続せつぞく)「kak-i」(「ます」に接続せつぞく連用形れんようけい)「kak-u」(体言たいげん連体れんたいがた)「kak-e」(「ば」。いわゆる仮定かていがた正確せいかくには已然いぜんがた)「kak-o」(「う」。未然みぜんがた)となり、語幹ごかんは「kak」であり、「kai-ta」「kai-te」の場合ばあいには語幹ごかん末尾まつびおんの「k」が消失しょうしつ(あるいは「i」に変化へんか)する、と説明せつめいできるが、学校がっこう文法ぶんぽうにおいては「く」の活用かつよう五十音ごじゅうおんもとづくため「だん活用かつようぎょう」とされており、この説明せつめい整合せいごうさせようとすると煩瑣はんさになる。これにたいして日本語にほんご教育きょういくでは、日本語にほんご母語ぼごとしない学生がくせい対象たいしょうにしているため、「漢字かんじマ字まじじりぶん」をて「かなき」の習得しゅうとくて「漢字かんじかなじりぶん」にするというプロセスになじみやすい[ちゅう 1]

したがって、日本語にほんご処理しょりではひらがなをマ字まじ変換へんかんしてから形態素けいたいそ解析かいせきおこない、その結果けっかをひらがなにもどすと簡単かんたんになるのだが、おうこんうえひとつのテキストに和文わぶん欧文おうぶん混在こんざいするもの)などへの対応たいおう複雑ふくざつになる。そのため音素おんそベースの文法ぶんぽう記述きじゅつ五十音ごじゅうおんベースの記述きじゅつ変更へんこうすると、およそよんばい程度ていどふくらむ。

日本語にほんご処理しょりかんしては、「長尾ちょうび法則ほうそくいくつかられているが[ちゅう 2]根幹こんかんてき基幹きかんてきなものとして数学すうがく基礎きそろん島内しまうち剛一ごういちによる「島内とうないしきマ字まじかな変換へんかん」がある。

すなわち、

[文法ぶんぽう属性ぞくせいA] - {"パターンマッチング文字もじれつX"|"変換へんかん文字もじれつY"} - [文法ぶんぽう属性ぞくせいB];

といったくだりならびによって、文字もじれつたいするパターンマッチングによって文字もじれつ変換へんかんおこなうという手法しゅほうである。「sa・si・su・se・so」と「shi」、「ta・ti・tu・te・to」と「chi・tsu」の両方りょうほうをサポートするための記述きじゅつ面倒臭めんどうくささはあるが、変換へんかん精度せいどたかい。ただし、変換へんかん結果けっかとしてのデータ構造こうぞうPERTにおける「ネットワーク」(いわゆる、たば位相いそう同型どうけいはん順序じゅんじょ構造こうぞう位相いそう同型どうけいなデータ構造こうぞう)になるため、そうしたタイプのデータ構造こうぞうあつかえるプログラマが稀少きしょうであるという問題もんだいがある[ちゅう 3][ちゅう 4]

マッチングパターンの記述きじゅつはファイルじょういちぎょうくことができる。そのてんについてはPrologちかい。ただし小規模しょうきぼのプログラムにおいては問題もんだいがないが、実行じっこう順序じゅんじょ指定していされておらず、出力しゅつりょく結果けっかであるネットワーク構造こうぞうまさしくはん順序じゅんじょ構造こうぞうになっているかについての検証けんしょうをどうおこなうかという課題かだいがある。反面はんめん文法ぶんぽう記述きじゅつには実行じっこう順序じゅんじょたいする規制きせいがないため、複数ふくすうのファイルを実行じっこうに(動的どうてきに)えることができる。このとき、「巡回じゅんかい参照さんしょうがあるかどうか」を動的どうてきにチェックする(この場所ばしょ以前いぜんとおったところであるかをチェックする)か静的せいてきにチェックする(あらかじめ、文法ぶんぽう定義ていぎにおいてヌルストリングとマッチした場合ばあい巡回じゅんかい参照さんしょうがないかどうかをチェックする)かによって実行じっこう効率こうりつわってくるため、実装じっそうじょう判断はんだん必要ひつようになる。

このとき、有効ゆうこうなのは「文字もじれつなに文字もじか」という距離きょり空間くうかんちこむことであるが、マッチング文字もじれつがヌルストリングであった場合ばあい問題もんだいこりうるというてんである。実例じつれいとしては、「いている」を「いてる」とりゃくした場合ばあい、「いる」の語幹ごかん「い(i)」が省略しょうりゃくされているとして文法ぶんぽう記述きじゅつおこなうと、「動詞どうし連用形れんようけい用言ようげんかかる」という規則きそく競合きょうごうし、「いて」と「る」のあいだ無限むげん省略しょうりゃくされた「(い)」があると解釈かいしゃくされてシステムがちるという事例じれいがあった。なお、このケースでは動詞どうし連用形れんようけい過去かこまたは完了かんりょうがた活用かつよう語尾ごびに「いる」の省略形しょうりゃくけい追加ついかすることで回避かいひした。おなじく補助ほじょ動詞どうしである「おく」(いとく)「ゆく」(ってく)では、語幹ごかんにあたる「ok」「ik」「yuk」が省略しょうりゃくされても文法ぶんぽう記述きじゅつと交絡しないので、こうした問題もんだい発生はっせいしない。

脚注きゃくちゅう

編集へんしゅう

注釈ちゅうしゃく

編集へんしゅう
  1. ^ 実際じっさいインプット メソッド エディタマ字まじ入力にゅうりょくおこなっているときは、システム内部ないぶではこれにちかいことをおこなっている。
  2. ^ 橋田はしだ浩一こういちによれば、「かな漢字かんじ変換へんかんはブラックアートである」という。
  3. ^ ネットワークがたのデータのあつかいに熟達じゅくたつしていて、同時どうじ国文法こくぶんぽうたいするプログラマというのは、かなりのレアケースであり、そうした人員じんいん日本語にほんご処理しょりけい開発かいはつプロジェクトにたずさわるというのは、さらにまれである。「めくらかめ浮木うきぎ」「うどんげ」などを参照さんしょうのこと。
  4. ^ もっとも、初期しょきのかな漢字かんじ変換へんかんにおいては「接続せつぞくテーブルほう」という手法しゅほう使つかわれており、「どの品詞ひんしのあとに、どの品詞ひんしがくるか」という次元じげんのテーブルを使用しようしていたのだが、品詞ひんし分類ぶんるいえると品詞ひんしかず自乗じじょう比例ひれいしてテーブルがおおきくなり、しかもテーブルがスパース(「スカスカ」)だったためにあつかいきれなくなった。そのため、島内とうないしきマ字まじかな変換へんかんもと文法ぶんぽう定義ていぎ中間ちゅうかん言語げんごによって記述きじゅつするという発想はっそうまれたという経緯けいいがある。

出典しゅってん

編集へんしゅう
  1. ^ 石田いしだ信一しんいちコンピューターによる新聞紙しんぶんしめん製作せいさく」『テレビジョン』だい29かんだい5ごう映像えいぞう情報じょうほうメディア学会がっかい、1975ねん、379-388ぺーじCRID 1390282680373642368doi:10.3169/itej1954.29.379ISSN 03743470 
  2. ^ 漢字かんじ日本語にほんご処理しょり技術ぎじゅつ発展はってん日本語にほんごワードプロセッサの誕生たんじょうとその歴史れきし

参考さんこう文献ぶんけん

編集へんしゅう