情報じょうほう抽出ちゅうしゅつ

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

情報じょうほう抽出ちゅうしゅつ (じょうほうちゅうしゅつ、英語えいご: Information Extraction略称りゃくしょう: IE) は構造こうぞう文書ぶんしょ機械きかいれる (machine-readableな) はん構造こうぞう文書ぶんしょ両方りょうほうまたはいずれから自動的じどうてき構造こうぞうデータを抽出ちゅうしゅつするタスクである。

おおくの場合ばあい、この作業さぎょう人間にんげん言葉ことばかれた文書ぶんしょ自然しぜん言語げんご処理しょり (えい: Natural Language Processingりゃく: NLP) の手法しゅほうもちいて処理しょりすることをす。画像がぞう音楽おんがく動画どうが自動じどうアノテーションやコンテンツ抽出ちゅうしゅつのような、近年きんねんのマルチメディア文書ぶんしょ処理しょりもまた情報じょうほう抽出ちゅうしゅつとしてとらえられる。

その問題もんだいむずかしさから、IEにたいする現在げんざいのアプローチはせま制限せいげんされたドメインに焦点しょうてんてている。れいとして、ニュースサービスの企業きぎょう合併がっぺいについての報道ほうどうからの情報じょうほう抽出ちゅうしゅつがあり、つぎのようなフォーマルな関係かんけいによる情報じょうほう

,

つぎのようなニュースぶん

"Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp."

からす。

IEのひろ目標もくひょうは、蓄積ちくせきされた構造こうぞうデータのうえで処理しょりおこなえるようにすることである。より具体ぐたいてき目標もくひょうは、入力にゅうりょくデータの論理ろんりてき内容ないようもとづいて推論すいろんおこな論理ろんりてき推論すいろん可能かのうにすることである。

関連かんれん項目こうもく[編集へんしゅう]

こちらも参照さんしょう[編集へんしゅう]

  • Generative Pre-trained Transformer (GPT) は、テキスト生成せいせい機能きのうられる最先端さいせんたん言語げんごモデルです。
  • Bidirectional Encoder Representations from Transformers (BERT) は、自然しぜん言語げんご理解りかいタスクよう設計せっけいされたトランスフォーマー ベースのモデルです。
  • LLaMA(Large Language Model Meta AI) は、さまざまなアプリケーションけにテキストとビジョンをわせた革新かくしんてきな AI モデルです。
  • spaCy は、トークン固有こゆう表現ひょうげん認識にんしきなどのタスクに使用しようされる、人気にんきのあるオープンソースの自然しぜん言語げんご処理しょりライブラリです。