(Translated by https://www.hiragana.jp/)
自然言語処理 - Wikipedia コンテンツにスキップ

自然しぜん言語げんご処理しょり

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

これはこのページの過去かこはんです。Eix.la.70 (会話かいわ | 投稿とうこう記録きろく) による 2024ねん6がつ19にち (水)すい 00:32個人こじん設定せってい設定せっていならUTC時点じてんはん (ChatGPTにリンクを追加ついか)であり、現在げんざいはんとはおおきくことなる場合ばあいがあります。

自然しぜん言語げんご処理しょり(しぜんげんごしょり、英語えいご: Natural language processing略称りゃくしょう:NLP)は、人間にんげん日常にちじょうてき使つかっている自然しぜん言語げんごコンピュータ処理しょりさせる一連いちれん技術ぎじゅつであり、人工じんこう知能ちのう言語げんごがくいち分野ぶんやである。「計算けいさん言語げんごがく」(computational linguistics)との類似るいじもあるが、自然しぜん言語げんご処理しょり工学こうがくてき視点してんからの言語げんご処理しょりをさすのにたいして、計算けいさん言語げんごがく言語げんごがくてき視点してん重視じゅうしする手法しゅほうをさすことおお[1]データベースうち情報じょうほう自然しぜん言語げんご変換へんかんしたり、自然しぜん言語げんご文章ぶんしょうをより形式けいしきてきな(コンピュータが理解りかいしやすい)表現ひょうげん変換へんかんするといった処理しょりふくまれる。おう用例ようれいとしては機械きかい翻訳ほんやく仮名漢字かなかんじ変換へんかんげられる。

自然しぜん言語げんご理解りかいをコンピュータにさせることは、自然しぜん言語げんご理解りかいとされている。自然しぜん言語げんご理解りかいと、自然しぜん言語げんご処理しょりは、意味いみあつかうか、あつかわないかというせつもあったが、最近さいきん数理すうりてき言語げんご解析かいせき手法しゅほう統計とうけいかくりつなど)がひろめられたためパーサ統語とうご解析かいせき)などの精度せいど速度そくど一段いちだんがり、その意味合いみあいはちがってきている。もともと自然しぜん言語げんご意味いみろんてき側面そくめんまった無視むしして達成たっせいできることは非常ひじょうかぎられている。このため、自然しぜん言語げんご処理しょりには形態素けいたいそ解析かいせき構文こうぶん解析かいせき文脈ぶんみゃく解析かいせき意味いみ解析かいせきなどをSyntaxなど表層ひょうそうてき観点かんてんから解析かいせきをする学問がくもんであるが、自然しぜん言語げんご理解りかいは、意味いみをどのように理解りかいするかという個々人ここじん理解りかい推論すいろん部分ぶぶんおも研究けんきゅう課題かだいになってきており、両者りょうしゃ境界きょうかい意思いし意図いとふくまれるかどうかになってきている。

基礎きそ技術ぎじゅつ

自然しぜん言語げんご処理しょり基礎きそ技術ぎじゅつにはさまざまなものがある。自然しぜん言語げんご処理しょりはその性格せいかくじょうあつか言語げんごによっておおきく処理しょりことなる部分ぶぶんがある。現在げんざいのところ、日本語にほんご処理しょりする基礎きそ技術ぎじゅつとしては以下いかのものがおも研究けんきゅうされている。

処理しょり内容ないようとその限界げんかい

現状げんじょう発達はったつしている言語げんごAI技術ぎじゅつは、多次元たじげんのベクトルから、単語たんご文書ぶんしょ意味いみちかさを、その相互そうご関係かんけいから推定すいていしているもので、「AIの言語げんご理解りかい」は「人間にんげん言語げんご理解りかい」は根本こんぽんてき別物べつものである[2]

自然しぜん言語げんご理解りかいは、AI完全かんぜん問題もんだい」とわれることがある。なぜなら、自然しぜん言語げんご理解りかいには世界せかい全体ぜんたいについての知識ちしきとそれを操作そうさする能力のうりょく必要ひつようおもわれるためである。「理解りかい; understanding」の定義ていぎは、自然しぜん言語げんご処理しょりおおきな課題かだいのひとつでもある。

人間にんげんとコンピュータのあいだのインタラクションのインタフェース(ヒューマンマシンインタフェース)として、自然しぜん言語げんごがもし使つかえたら非常ひじょう魅力みりょくてきである、といったこともあり、コンピュータの登場とうじょう初期しょき(1960ねんごろ)には自然しぜん言語げんご処理しょりにあるしゅ過剰かじょう期待きたいもあった。SHRDLUなどの初期しょきのシステムが、世界せかい限定げんていすることで非常ひじょうにうまくいったことにより、すぐにぎた楽観らっかん主義しゅぎおちいったが、現実げんじつ相手あいてにする曖昧あいまいさや複雑ふくざつさがわかると、楽観らっかんてき見方みかた過剰かじょう期待きたい基本きほんてきにはくなった。しかし、なに簡単かんたんなにむずかしいのか、といったようなことはなかなか共有きょうゆうされなかった。

やがて、21世紀せいきはいってしばらくのちに「音声おんせい認識にんしきによる便利べんりなシステム」がいくつか実用じつようじつ運用うんようされおおくのひと利用りようしたことで、なに簡単かんたんで、どういうこと使つかうのはむずかしいのかが理解りかいされるようになりつつある模様もようである。

2013ねんGoogleWord2vecいまでも使つかわれている[3][4]

2019ねんGPT-2BERTなど、ディープラーニング応用おうようした手法しゅほうおおきなブレークスルーがあった。

2022ねん以降いこうChatGPTのリリースにより自然しぜん言語げんご処理しょりおおきな注目ちゅうもくあつまっている。

具体ぐたいてき課題かだい

自然しぜん言語げんご処理しょり理解りかい)における課題かだいをいくつかのれいもちいてしめす。

  • つぎの2つのぶん
We gave the monkeys the bananas because they were hungry.さるはらかせていたので、バナナをあたえた。)
We gave the monkeys the bananas because they were over-ripe.(バナナはぎていたので、さるあたえた。)
は、品詞ひんしとしてはまったおな順序じゅんじょならびである。しかし、theyすものはことなっていて、前者ぜんしゃではさる後者こうしゃではバナナとなっている。この例文れいぶん場合ばあいthey内容ないよう英語えいご文型ぶんけい性質せいしつによって決定けっていすることができる。すなわち、「they主語しゅご)= hungry補語ほご)」の関係かんけいち、補語ほごには主語しゅご性質せいしつしめすものがくるので、hungryなのはthe monkeys、したがって、「they = the monkeys」とまる。後者こうしゃ同様どうように、over-ripeというのはthe bananas性質せいしつだから、「they = the bananas」となる。つまり、これらの文章ぶんしょう区別くべつただしく理解りかいするためには、意味いみ、すなわち、さる性質せいしつさる動物どうぶつ空腹くうふくになる)とバナナの性質せいしつ(バナナは果物くだもの成熟せいじゅくする)といったことをっていて解釈かいしゃくできなければならない。
  • 単語たんご文字もじれつ解釈かいしゃくする方法ほうほう様々さまざまである。たとえば、

Time flies like an arrow.光陰こういんごとし)

という文字もじれつ以下いかのように様々さまざま解釈かいしゃくできる。
  1. 典型てんけいてきには、比喩ひゆとして、「時間じかんのように素早すばやぎる」と解釈かいしゃくする。
  2. そら昆虫こんちゅう速度そくど速度そくどはかるように測定そくていせよ」つまり (You should) time flies as you would (time) an arrow.解釈かいしゃくする。
  3. そら昆虫こんちゅう速度そくどはかるように、あなたがそら昆虫こんちゅう速度そくど測定そくていせよ」つまり Time flies in the same way that an arrow would (time them).解釈かいしゃくする。
  4. のようにそら昆虫こんちゅう速度そくど測定そくていせよ」つまり Time those flies that are like arrows解釈かいしゃくする。
  5. "time-flies"ときバエ)という種類しゅるい昆虫こんちゅうは1つのこのむ」この解釈かいしゃくには集合しゅうごうてき解釈かいしゃく個別こべつてき解釈かいしゃくがありうる。
  6. TIMEという雑誌ざっしは、げると直線ちょくせんてき軌跡きせきえがく」

英語えいごではとく語形ごけい変化へんかによる語彙ごい区別くべつをする機能きのうよわいため、このような問題もんだいおおきくなる。

また、英語えいごふくめて、形容詞けいようし名詞めいし修飾しゅうしょく関係かんけい曖昧あいまいさもある。たとえば、"pretty little girls' school"(かわいいちいさな少女しょうじょ学校がっこう)という文字もじれつがあるとする。

  • その学校がっこうちいさいだろうか?
  • 少女しょうじょたちがちいさいのだろうか?
  • 少女しょうじょたちがかわいいのだろうか?
  • 学校がっこうがかわいいのだろうか?

ほかにものような課題かだいがある。

形態素けいたいそ解析かいせき
中国ちゅうごく日本語にほんごタイといった言語げんご単語たんごわかちをしない。そのため、単語たんご区切くぎりを特定とくていするのにテキストの解析かいせき必要ひつようとなり、それは非常ひじょう複雑ふくざつ作業さぎょうとなる。
音声おんせいにおける形態素けいたいそ解析かいせき
音声おんせい言語げんごにおいて、文字もじあらわおと前後ぜんごおとじっているのが普通ふつうである。したがって音声おんせいから文字もじすのは、非常ひじょうむずかしい作業さぎょうとなる。さらに、音声おんせい言語げんごでは単語たんご単語たんご区切くぎりも(おととしてのみれば)さだかではなく、文脈ぶんみゃく文法ぶんぽう意味いみといった情報じょうほう考慮こうりょしないと単語たんごせない。
語義ごぎ曖昧あいまいせい
おおくの単語たんご複数ふくすう意味いみつ。したがって、特定とくてい文脈ぶんみゃくにおいてもっともふさわしい意味いみ選択せんたくする必要ひつようがある。
構文こうぶん曖昧あいまいせい
自然しぜん言語げんご構文こうぶん構文こうぶん規則きそく)は曖昧あいまいである。1つのぶん対応たいおうする複数ふくすう構文こうぶん存在そんざいすることもおおい。もっとも適切てきせつ解釈かいしゃく構文こうぶん)を選択せんたくするには、意味いみてき情報じょうほう文脈ぶんみゃく情報じょうほう必要ひつようとする。
不完全ふかんぜん入力にゅうりょくあいだちがった入力にゅうりょく
主語しゅご省略しょうりゃく代名詞だいめいし対応たいおうなどの問題もんだい照応しょうおう解析かいせき)。音声おんせいにおけるアクセントのばらつき。構文こうぶんじょうあやまりのあるぶん解析かいせき光学こうがく文字もじ認識にんしきにおけるあやまりの認識にんしきなど。
言語げんご行為こうい
文章ぶんしょう文字通もじどおりに解釈かいしゃくできない場合ばあいがある。たとえば "Can you pass the salt?"しおをとってもらえますか?)といういにたいするこたえは、しお相手あいてわたすことである。これに "Yes" とだけこたえてなにもしないのはよいこたえとはえないが、"No" はむしろありうるこたえで、"I'm afraid that I can't see it" はさらによい(しおがどこにあるかわからないとき)。

統計とうけいてき自然しぜん言語げんご処理しょり

統計とうけいてき自然しぜん言語げんご処理しょりは、確率かくりつろんてきあるいは統計とうけいがくてき手法しゅほう使つかって、上述じょうじゅつ困難こんなんさになんらかの解決かいけつさくあたえようとするものである。ながぶんになればなるほど、従来じゅうらいがた自然しぜん言語げんご処理しょりでは解釈かいしゃく可能かのうせい組合くみあわせが指数しすう関数かんすうてき増大ぞうだいしていき、処理しょり困難こんなんとなる。そのような場合ばあい統計とうけいてき自然しぜん言語げんご処理しょり効果こうか発揮はっきする。コーパス言語げんごがくマルコフ連鎖れんさといった手法しゅほう使つかわれる。統計とうけいてき自然しぜん言語げんご処理しょり起源きげんは、人工じんこう知能ちのうなかでもデータからの学習がくしゅう研究けんきゅうする分野ぶんやである機械きかい学習がくしゅうデータマイニングといった分野ぶんやである。

一見いっけん統計とうけいてき自然しぜん言語げんご処理しょりかくりつモデルがた自然しぜん言語げんご処理しょりにのみ適用てきようされるようにえるが、じつは4だい自然しぜん言語げんご処理しょりの1つである注意ちゅういモデルがた自然しぜん言語げんご処理しょりにも統計とうけい概念がいねん必要ひつようなのである[よう説明せつめい][5]

おも応用おうよう

自然しぜん言語げんご処理しょり応用おうよう技術ぎじゅつとして、以下いかのような技術ぎじゅつ研究けんきゅう実用じつようされている。また、言語げんごがくへの応用おうようかんがえられている。

出典しゅってん

  1. ^ Mitkov, R. (2003) (英語えいご). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press. ISBN 0198238827. OCLC 49204433 
  2. ^ AIに言葉ことば意味いみはわかるか 進化しんかする自然しぜん言語げんご処理しょり 日経にっけいサイエンス2021/5/28 閲覧えつらん
  3. ^ Google Colaboratory”. colab.research.google.com. 2023ねん4がつ2にち閲覧えつらん
  4. ^ Google Code Archive - Long-term storage for Google Code Project Hosting.”. code.google.com. 2023ねん4がつ2にち閲覧えつらん
  5. ^ 自然しぜん言語げんご処理しょり”. Coursera. 2023ねん2がつ18にち閲覧えつらん

関連かんれん項目こうもく

外部がいぶリンク

資料しりょう
サーベイ
研究けんきゅうしゃ団体だんたい
オープン実装じっそう