(Translated by http://www.hiragana.jp/)
形態素解析とマルコフ連鎖で綴るワードサラダ日記: ドラクエ二次創作小説|無料Webアプリ - Script Boy

形態素けいたいそ解析かいせきとマルコフ連鎖れんさつづるワードサラダ日記にっき


ワードサラダ日記にっき」は、形態素けいたいそ解析かいせきエンジン「MeCab」を使つかい、文章ぶんしょう意味いみ最小さいしょう言語げんご単位たんい形態素けいたいそ)に分割ぶんかつしたあと、自動的じどうてき文章ぶんしょうなおこころみのスクリプトです。
このようなスクリプトで作成さくせいされた文章ぶんしょうは、文法ぶんぽうじょうただしくてもほとんど意味いみ文章ぶんしょうになり、統合とうごう失調しっちょうしょう患者かんじゃにみられる言語げんご障害しょうがい(Word salad、言葉ことばのサラダ)にていることから「ワードサラダ」とばれています。

ワードサラダとスパム
ワードサラダは、人間にんげんにとっては無意味むいみ文章ぶんしょうでしかありませんが、現在げんざいのコンピュータのアルゴリズムではワードサラダと人間にんげんつく通常つうじょう文章ぶんしょう区別くべつすることができません。そのため、検索けんさくロボットはワードサラダでかれているブログをスパムと判定はんていすることができず、機械きかいてき大量たいりょう作成さくせいされたそのようなスパムブログの検索けんさく順位じゅんいげてしまうのです。
Googleにはスパムサイトを通報つうほうできる仕組しくみが用意よういされています。そのような悪質あくしつなサイトをつけたら、ただちに検索けんさくサイトに報告ほうこくしましょう。

MeCabとは
ワードサラダ日記にっき」は、MeCabで文字もじれつ形態素けいたいそ解析かいせきし、マルコフ連鎖れんさ文章ぶんしょう生成せいせいしています。MeCabはオープンソースの形態素けいたいそ解析かいせきエンジンで、奈良先端科学技術大学院大学ならせんたんかがくぎじゅつだいがくいんだいがく出身しゅっしんげんGoogleソフトウェアエンジニアでGoogle 日本語にほんご入力にゅうりょく開発かいはつしゃ一人ひとりである工藤くどうたくによって開発かいはつされました。開発かいはつしゃ工藤くどう好物こうぶつが「和布わかめかぶら(めかぶ)」であったため、MeCabとづけられたそうです。

マルコフ連鎖れんさとは、ひとまえ状態じょうたいにおける情報じょうほうだけを参考さんこうにして現在げんざい状態じょうたい決定けっていするというアルゴリズムです。
ワードサラダ日記にっき」では、まずもと文章ぶんしょう形態素けいたいそ解析かいせきによって品詞ひんしごとに分割ぶんかつかちき)したあと、3単語たんごずつひとまとめにしてテーブルを作成さくせいし、その3つの単語たんごのうちまえ2つの単語たんごをキーにしてつぎ単語たんご乱数らんすうによって選択せんたくしながら連鎖れんさつづ文章ぶんしょう生成せいせいしています。

ワードサラダ日記にっき今後こんご
ワードサラダ日記にっき」はそののとおりげん段階だんかいでは意味いみ不明ふめい文章ぶんしょう自動じどう生成せいせいするだけのスクリプトですが、最終さいしゅうてき目標もくひょう日記にっき定型ていけい部分ぶぶん自動じどうです。
日記にっきにつづられる天気てんき時事じじ情報じょうほうなどの定型ていけいてき部分ぶぶんをスクレイピング技術ぎじゅつによってネットから取得しゅとくし、意味いみとおった文章ぶんしょうみなおして、日記にっき作成さくせい手助てだすけをするスクリプトを目指めざしています。

Webスクレイピングとは
Webスクレイピングによる完全かんぜん自動じどう更新こうしんブログ
誕生たんじょうはな花言葉はなことば誕生たんじょうカレンダー』

入力にゅうりょくまどにオリジナルぶん形態素けいたいそ解析かいせきをおためしください。
Unsupported browser!
Unsupported browser!

トラックバックURL

このエントリーのトラックバックURL:
http://script.boy.jp/mt-tb.cgi/6

コメントする