出典: フリー百科事典『ウィキペディア(Wikipedia)』
| この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "情報抽出" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2022年12月) |
| この 記事は 英語版の対応するページを翻訳することにより充実させることができます。(2022年7月)翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
- 英語版記事を日本語へ機械翻訳したバージョン(Google翻訳)。
- 万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。
- 信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。
- 履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。
- 翻訳後、
{{翻訳告知|en|Information extraction|…}} をノートに追加することもできます。
- Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手順・指針についての説明があります。
|
情報抽出 (じょうほうちゅうしゅつ、英語: Information Extraction、略称: IE) は非構造化文書と機械が読み取れる (machine-readableな) 半構造化文書の両方またはいずれから自動的に構造化データを抽出するタスクである。
多くの場合、この作業は人間の言葉で書かれた文書を自然言語処理 (英: Natural Language Processing、略: NLP) の手法を用いて処理することを指す。画像・音楽・動画の自動アノテーションやコンテンツ抽出のような、近年のマルチメディア文書の処理もまた情報抽出として捉えられる。
その問題の難しさから、IEに対する現在のアプローチは狭く制限されたドメインに焦点を当てている。例として、ニュースサービスの企業合併についての報道からの情報抽出があり、次のようなフォーマルな関係による情報
- ,
を次のようなニュース文
- "Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp."
から抜き出す。
IEの広い目標は、蓄積された非構造化データのうえで処理を行えるようにすることである。より具体的な目標は、入力データの論理的内容に基づいて推論を行う論理的推論を可能にすることである。