情報じょうほう抽出ちゅうしゅつ

情報じょうほう抽出ちゅうしゅつ (じょうほうちゅうしゅつ、英語えいご: Information Extraction、略称りゃくしょう: IE) は非ひ構造こうぞう化か文書ぶんしょと機械きかいが読よみ取とれる (machine-readableな) 半はん構造こうぞう化か文書ぶんしょの両方りょうほうまたはいずれから自動的じどうてきに構造こうぞう化かデータを抽出ちゅうしゅつするタスクである。

多おおくの場合ばあい、この作業さぎょうは人間にんげんの言葉ことばで書かかれた文書ぶんしょを自然しぜん言語げんご処理しょり (英えい: Natural Language Processing、略りゃく: NLP) の手法しゅほうを用もちいて処理しょりすることを指さす。画像がぞう・音楽おんがく・動画どうがの自動じどうアノテーションやコンテンツ抽出ちゅうしゅつのような、近年きんねんのマルチメディア文書ぶんしょの処理しょりもまた情報じょうほう抽出ちゅうしゅつとして捉とらえられる。

その問題もんだいの難むずかしさから、IEに対たいする現在げんざいのアプローチは狭せまく制限せいげんされたドメインに焦点しょうてんを当あてている。例れいとして、ニュースサービスの企業きぎょう合併がっぺいについての報道ほうどうからの情報じょうほう抽出ちゅうしゅつがあり、次つぎのようなフォーマルな関係かんけいによる情報じょうほう

\mathrm {MergerBetween} (company_{1},company_{2},date)

,

を次つぎのようなニュース文ぶん

"Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp."

から抜ぬき出だす。

IEの広ひろい目標もくひょうは、蓄積ちくせきされた非ひ構造こうぞう化かデータのうえで処理しょりを行おこなえるようにすることである。より具体ぐたい的てきな目標もくひょうは、入力にゅうりょくデータの論理ろんり的てき内容ないように基もとづいて推論すいろんを行おこなう論理ろんり的てき推論すいろんを可能かのうにすることである。

こちらも参照さんしょう[編集へんしゅう]

Generative Pre-trained Transformer (GPT) は、テキスト生成せいせい機能きのうで知しられる最先端さいせんたんの言語げんごモデルです。
Bidirectional Encoder Representations from Transformers (BERT) は、自然しぜん言語げんご理解りかいタスク用ように設計せっけいされたトランスフォーマーベースのモデルです。
LLaMA（Large Language Model Meta AI) は、さまざまなアプリケーション向むけにテキストとビジョンを組くみ合あわせた革新かくしん的てきな AI モデルです。
spaCy は、トークン化かや固有こゆう表現ひょうげん認識にんしきなどのタスクに使用しようされる、人気にんきのあるオープンソースの自然しぜん言語げんご処理しょりライブラリです。

関連かんれん項目こうもく[編集へんしゅう]

こちらも参照さんしょう[編集へんしゅう]