自然 言語 処理
この
|
|
---|
|
|
|
|
基礎 技術
処理 内容 とその限界
「
やがて、21
2013
2019
2022
具体 的 な課題
次 の2つの文 、
We gave the monkeys the bananas because they were hungry.(猿 が腹 を空 かせていたので、バナナを与 えた。)
We gave the monkeys the bananas because they were over-ripe.(バナナは熟 れ過 ぎていたので、猿 に与 えた。)
- は、
品詞 としては全 く同 じ順序 の並 びである。しかし、they が指 すものは異 なっていて、前者 では猿 、後者 ではバナナとなっている。この例文 の場合 、theyの指 す内容 は英語 の文型 の性質 によって決定 することができる。すなわち、「they(主語 )= hungry(補語 )」の関係 が成 り立 ち、補語 には主語 の性質 を示 すものがくるので、hungryなのはthe monkeys、したがって、「they = the monkeys」と決 まる。後者 も同様 に、over-ripeというのはthe bananasの性質 だから、「they = the bananas」となる。つまり、これらの文章 を区別 し正 しく理解 するためには、意味 、すなわち、猿 の性質 (猿 は動物 で空腹 になる)とバナナの性質 (バナナは果物 で成熟 する)といったことを知 っていて解釈 できなければならない。
単語 の文字 列 を解釈 する方法 は様々 である。例 えば、
Time flies like an arrow.(
- という
文字 列 は以下 のように様々 に解釈 できる。
典型 的 には、比喩 として、「時間 が矢 のように素早 く過 ぎる」と解釈 する。- 「
空 を飛 ぶ昆虫 の速度 を矢 の速度 を測 るように測定 せよ」つまり (You should) time flies as you would (time) an arrow. と解釈 する。 - 「
矢 が空 を飛 ぶ昆虫 の速度 を測 るように、あなたが空 を飛 ぶ昆虫 の速度 を測定 せよ」つまり Time flies in the same way that an arrow would (time them). と解釈 する。 - 「
矢 のように空 を飛 ぶ昆虫 の速度 を測定 せよ」つまり Time those flies that are like arrows と解釈 する。 - 「"time-flies"(
時 バエ)という種類 の昆虫 は1つの矢 を好 む」この解釈 には集合 的 な解釈 と個別 的 解釈 がありうる。 - 「TIMEという
雑誌 は、投 げると直線 的 な軌跡 を描 く」
また、
- その
学校 は小 さいだろうか? 少女 たちが小 さいのだろうか?少女 たちがかわいいのだろうか?学校 がかわいいのだろうか?
形態素 解析 中国 語 、日本語 、タイ語 といった言語 は単語 のわかち書 きをしない。そのため、単語 の区切 りを特定 するのにテキストの解析 が必要 となり、それは非常 に複雑 な作業 となる。音声 における形態素 解析 音声 言語 において、文字 を表 す音 は前後 の音 と混 じっているのが普通 である。従 って音声 から文字 を切 り出 すのは、非常 に難 しい作業 となる。さらに、音声 言語 では単語 と単語 の区切 りも(音 としてのみ見 れば)定 かではなく、文脈 や文法 や意味 といった情報 を考慮 しないと単語 を切 り出 せない。語義 の曖昧 性 多 くの単語 は複数 の意味 を持 つ。従 って、特定 の文脈 においてもっともふさわしい意味 を選択 する必要 がある。構文 の曖昧 性 自然 言語 の構文 (構文 規則 )は曖昧 である。1つの文 に対応 する複数 の構文 木 が存在 することも多 い。もっとも適切 な解釈 (構文 木 )を選択 するには、意味 的 情報 や文脈 情報 を必要 とする。不完全 な入力 や間 違 った入力 主語 の省略 や代名詞 の対応 などの問題 (照応 解析 )。音声 におけるアクセントのばらつき。構文 上 の誤 りのある文 の解析 。光学 文字 認識 における誤 りの認識 など。言語 行為 文章 は文字通 りに解釈 できない場合 がある。例 えば "Can you pass the salt?"(塩 をとってもらえますか?)という問 いに対 する答 えは、塩 を相手 に渡 すことである。これに "Yes" とだけ答 えて何 もしないのはよい答 えとは言 えないが、"No" はむしろありうる答 えで、"I'm afraid that I can't see it" はさらによい(塩 がどこにあるかわからないとき)。
統計 的 自然 言語 処理
主 な応用
出典
- ^ Mitkov, R. (2003) (
英語 ). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press. ISBN 0198238827. OCLC 49204433 - ^ AIに
言葉 の意味 はわかるか進化 する自然 言語 処理 日経 サイエンス2021/5/28閲覧 - ^ “Google Colaboratory”. colab.research.google.com. 2023
年 4月 2日 閲覧 。 - ^ “Google Code Archive - Long-term storage for Google Code Project Hosting.”. code.google.com. 2023
年 4月 2日 閲覧 。 - ^ “
自然 言語 処理 ”. Coursera. 2023年 2月 18日 閲覧 。
関連 項目
外部 リンク
資料
言語 情報処理 ポータル- Foundations of Statistical Natural Language Processing
- Language Technology Documentation Centre in Finland (FiLT)
- サーベイ
渡辺 太郎 「ニューラルネットワークによる構造 学習 の発展 (<特集 >ニューラルネットワーク研究 のフロンティア)」『人工 知能 』第 31巻 第 2号 、人工 知能 学会 、2016年 3月 、202-209頁 、doi:10.11517/jjsai.31.2_202、ISSN 2188-2266、NAID 110010039602、2020年 7月 7日 閲覧 。
研究 者 の団体
- オープン
実装
- General Architecture for Text Engineering (GATE) - Javaベース
- Natural Language Toolkit (NLTK) - Pythonベース
- Stanford's JavaNLP toolchain
- OpenNLP Apacheプロジェクト。
固有 表現 抽出 、文書 分類 、言語 判定 が日本語 対応 。商用 利用 可 。 - DELPH-IN: integrated technology for deep language processing
- MARF: Modular Audio Recognition Framework
音声 および統計 的 自然 言語 処理