(Translated by https://www.hiragana.jp/)
テキストマイニング - Wikipedia コンテンツにスキップ

テキストマイニング

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

テキストマイニングえい: text mining)は、文字もじれつ対象たいしょうとしたデータマイニングのことである。通常つうじょう文章ぶんしょうからなるデータを単語たんご文節ぶんせつなどの単位たんい区切くぎり、それらの出現しゅつげん頻度ひんどきょう出現しゅつげん相関そうかん共起きょうき関係かんけい出現しゅつげん傾向けいこうとき系列けいれつなどを解析かいせきすることで有用ゆうよう情報じょうほうす、テキストデータの分析ぶんせき方法ほうほうである[1]計算けいさんてきテキスト分析ぶんせき(computational text analysis)、テキストアナリシス(text analysis)とぶこともあるが、情報処理じょうほうしょり分野ぶんやではテキストマイニングとばれている。

テキストデータのおおくは形式けいしきさだまっておらず、また日本語にほんご英語えいごなどとくらべて単語たんご境界きょうかい判別はんべつ必要ひつようせい(→わかち)や文法ぶんぽうゆらぎがおおきいてんにおいて形態素けいたいそ解析かいせき困難こんなんであったが、自然しぜん言語げんご処理しょり発展はってんにより実用じつようてき水準すいじゅん分析ぶんせき可能かのうとなった。テキストマイニングの対象たいしょうとしては、顧客こきゃくからのアンケート回答かいとうコールセンターせられる質問しつもん意見いけん電子でんし掲示板けいじばんメーリングリスト蓄積ちくせきされたテキストデータなどがある[2]。また、だい世界せかい大戦たいせんにはプロパガンダ発信はっしんしていたマスメディアの分析ぶんせきだい規模きぼおこなわれたほか、近年きんねんでは政治せいじなどの演説えんぜつ分析ぶんせきすることがある。

歴史れきし

[編集へんしゅう]

テキストを統計とうけいてき分析ぶんせきする分野ぶんやとしてふるくから計量けいりょう文体ぶんたいがくがあった。この分野ぶんやにおいて、文章ぶんしょう構成こうせいする要素ようそ特徴とくちょう定量ていりょうてき分析ぶんせきし、その文章ぶんしょう執筆しっぴつしゃ推定すいていするこころみが100ねん以上いじょうまえにあった。さいたるれい地球ちきゅう物理ぶつり学者がくしゃトマス・メンデンホール研究けんきゅうである[3]

光学こうがくにおけるスペクトル分析ぶんせき単語たんご分析ぶんせき適用てきよう単語たんごながさは著者ちょしゃ特徴とくちょうになることをサイエンス投稿とうこうした。ここで、単語たんごのスペクトルとは、単語たんご構成こうせいするアルファベットすう着目ちゃくもくした単語たんご分布ぶんぷす。このさい、メンデンホールはウィリアム・シェイクスピア戯曲ぎきょくフランシス・ベーコン著作ちょさく分析ぶんせきした。

このころ分析ぶんせき手法しゅほう集計しゅうけいしたいデータをかぞえカウントするという原始げんしてき手法しゅほうであったが、構造こうぞうされていないテキストデータをテキストを構成こうせいするなんらかの要素ようそ区切くぎって構造こうぞうし、分析ぶんせきするというてんでは基本きほんてきなアイディアは現在げんざいのテキストマイニングと同様どうようである。

また、内容ないよう分析ぶんせき分野ぶんやでは、19世紀せいきから20世紀せいき初頭しょとう欧米おうべい新聞しんぶん印刷いんさつ部数ぶすう増大ぞうだいしたことをけて新聞しんぶん記事きじ計量けいりょうてき分析ぶんせきおこなわれるようになった。当時とうじ関心事かんしんじは、いかに価値かちのない記事きじ紙面しめんめているかであった。

 20世紀せいき後半こうはんだい世界せかい大戦たいせん前後ぜんこう社会しゃかいがくてき概念がいねん価値かちかん世論せろんなど)を追求ついきゅうするために新聞しんぶん分析ぶんせきが、またドイツとその同盟どうめいこくについてマスメディアの分析ぶんせき、すなわちプロパガンダ分析ぶんせきだい規模きぼおこなわれた。この時代じだい社会しゃかい科学かがく理論りろん概念がいねんくわえてこころ理学りがく実験じっけん市場いちば調査ちょうさ分野ぶんやから統計とうけい手法しゅほうまれた。現在げんざいはこれらがテキストマイニングを理論りろんてきささえている。

その研究けんきゅうでは質問しつもんにおける自由じゆう回答かいとうなど調査ちょうさ補助ほじょてき手段しゅだんとして、あるいは大量たいりょう資料しりょう小説しょうせつ処理しょりをするために、実務じつむてき商業しょうぎょうてき分野ぶんやでも利用りようされるようになった。

テキストマイニングは1990年代ねんだい中頃なかごろまではテキスト解析かいせき、ドキュメント解析かいせきなどとばれ、1990年代ねんだい後半こうはんからはテキストデータマイニング(text data mining)などとばれるようになり、それ以降いこうテキストマイニングとばれるのが一般いっぱんてきになった。現在げんざいではテキストアナリティクスまたはテキストアナリシスと傾向けいこうにある。

分析ぶんせき

[編集へんしゅう]

ここで、内容ないよう分析ぶんせき分析ぶんせき手法しゅほうには、KHCoderを開発かいはつした樋口ひぐちによれば、Correlational アプローチとDictionary-based アプローチが存在そんざいするという[4]前者ぜんしゃは、分析ぶんせきを(すべて)変量へんりょう解析かいせきまかせ、自動的じどうてきにテキストの分類ぶんるい発見はっけんさせる手法しゅほうで、分析ぶんせきしゃ介在かいざいする余地よちのない手法しゅほうである。後者こうしゃ分析ぶんせきしゃ設定せっていしたコーディング・ルールにしたがって分類ぶんるいしていく手法しゅほうである。

樋口ひぐちはテキストマイニングにおいて、この2つのアプローチを統合とうごうした「接合せつごうアプローチ」を提唱ていしょうする[4]。すなわち、Correlational アプローチにならい、恣意しいてきなものを一切いっさいまじえずにデータを要約ようやく提示ていじする段階だんかい1と、Dictionary-based アプローチにならい、コーディングルール作成さくせいによって理論りろん仮説かせつないし問題もんだい意識いしき明示めいじてき操作そうさする段階だんかい2とを明確めいかく峻別しゅんべつしたうえで、これらをする方法ほうほうである。

このアプローチにより、Correlational アプローチのつ、分析ぶんせきしゃ理論りろん問題もんだい意識いしき操作そうさ分析ぶんせきするじょうでの限界げんかいをDictionary-based アプローチにゆるされている自由じゆう発想はっそうおぎなうことができる。またDictionary-based アプローチのつ、分析ぶんせき恣意しいてきになってしまう可能かのうせいがあるという欠点けってんもCorrelational アプローチをわせ変量へんりょう解析かいせきによってデータ全体ぜんたい要約ようやく提示ていじしたうえでコーディングルールを公開こうかいするという手続てつづきをめば第三者だいさんしゃ研究けんきゅう把握はあくしやすくなり、信頼しんらいせい客観きゃっかんせい向上こうじょうつながる。

なお、このかんがかたはKHCoderの想定そうていする分析ぶんせき方法ほうほうとしてれられている。

これをまえて、一般いっぱんてきには準備じゅんび作業さぎょう(テキストの電子でんし表記ひょうきゆれなどのクリーニング)、加工かこう処理しょり形態素けいたいそ解析かいせき構文こうぶん解析かいせき意味いみ解析かいせきひとし)、データ集計しゅうけい分析ぶんせき(データの抽出ちゅうしゅつ分析ぶんせき視覚しかく)をおこなう。

テキストの視覚しかく

[編集へんしゅう]

テキストをなんらかの単位たんい分解ぶんかいし、その要素ようそ頻度ひんど集計しゅうけいし、それをまとめたり、視覚しかくしたりすることは、テキストマイニングにおいてもっと基本きほんてき作業さぎょうである。

一般いっぱんてきにとられる手法しゅほうぼうグラフやせんグラフにかぎらず、ワードクラウド共起きょうきネットワーククラスター分析ぶんせき多次元たじげん尺度しゃくど構成こうせいほう(MDS)、対応たいおう分析ぶんせき数量すうりょうIIIるい)、自己じこ組織そしきマップ機械きかい学習がくしゅう(ナイーブベイズ)などの変量へんりょう解析かいせき手法しゅほうもちいられる。

視覚しかく作業さぎょうはKHCoderなどのソフトで分析ぶんせき同時どうじおこなうことができることがおおい。

テキストマイニングの効果こうか

[編集へんしゅう]

テキストマイニングは、言葉ことばてきにはデータマイニングとているが、その効果こうかことなる。データマイニングが顧客こきゃく個人こじん購買こうばい傾向けいこう分析ぶんせきするなどの目的もくてきおこなわれるのにたいし、テキストマイニングは顧客こきゃく個人こじん特性とくせいよりも提供ていきょうがわ状態じょうたい把握はあくするめんにおいて威力いりょく発揮はっきする。たとえば商品しょうひん評価ひょうか顧客こきゃくサービスの問題もんだいてんなどを把握はあくすることができる[5]

また、計量けいりょうてき手法しゅほう導入どうにゅうすることで分析ぶんせきしゃ恣意しいてき判断はんだんからはなれることができる、第三者だいさんしゃ確認かくにんできるなどのてん分析ぶんせき客観きゃっかんせい信頼しんらいせいたかめることに貢献こうけんする。

さらに、分析ぶんせき結果けっか視覚しかくされることがおおいためデータ全体ぜんたい視覚しかくてきながめることができるようになる、ながいテキストデータでも要約ようやくができるなどのメリットも存在そんざいする。

ソフトウェアのれい

[編集へんしゅう]

脚注きゃくちゅう

[編集へんしゅう]
  1. ^ はやし俊克としかつ (2002). Excelでまなぶテキストマイニング入門にゅうもん. ム社むしゃ. p. 2. ISBN 9784274064937. https://books.google.co.jp/books?id=-TkKyEXmWZQC&pg=PA2#v=onepage&q&f=false 
  2. ^ 山内やまうちちょううけたまわ (2017). Pythonによるテキストマイニング入門にゅうもん. ム社むしゃ. p. 2. ISBN 9784274221415. https://books.google.co.jp/books?id=t5NDDwAAQBAJ&pg=PA2#v=onepage&q&f=false 
  3. ^ きむ明哲めいてつ『テキストアナリティクスの基礎きそ実践じっせん岩波書店いわなみしょてん、2021ねん 
  4. ^ a b 樋口ひぐち耕一こういち社会しゃかい調査ちょうさのための計量けいりょうテキスト分析ぶんせき だい2はん』ナカニシヤ出版しゅっぱん、2020ねん 
  5. ^ 小林こばやし雄一郎ゆういちろう (2018). Rによるやさしいテキストマイニング. ム社むしゃ. p. 7. ISBN 9784274222771. https://books.google.co.jp/books?id=j2lyDwAAQBAJ&pg=PA7#v=onepage&q&f=false 

関連かんれん項目こうもく

[編集へんしゅう]

外部がいぶリンク

[編集へんしゅう]