「
ワードサラダ日記」は、
形態素解析エンジン「MeCab」を
使い、
文章を
意味を
持つ
最小の
言語単位(
形態素)に
分割したあと、
自動的に
文章を
組み
直す
試みのスクリプトです。
このようなスクリプトで
作成された
文章は、
文法上は
正しくてもほとんど
意味の
無い
文章になり、
統合失調症の
患者にみられる
言語障害(Word salad、
言葉のサラダ)に
似ていることから「
ワードサラダ」と
呼ばれています。
ワードサラダとスパム
ワードサラダは、
人間にとっては
無意味な
文章でしかありませんが、
現在のコンピュータのアルゴリズムではワードサラダと
人間が
作る
通常の
文章を
区別することができません。そのため、
検索ロボットはワードサラダで
書かれているブログをスパムと
判定することができず、
機械的に
大量に
作成されたそのようなスパムブログの
検索順位を
上げてしまうのです。
Googleにはスパムサイトを
通報できる
仕組みが
用意されています。そのような
悪質なサイトを
見つけたら、
直ちに
検索サイトに
報告しましょう。
MeCabとは
「
ワードサラダ日記」は、MeCabで
文字列を
形態素解析し、マルコフ
連鎖で
文章を
生成しています。MeCabはオープンソースの
形態素解析エンジンで、
奈良先端科学技術大学院大学出身の
現GoogleソフトウェアエンジニアでGoogle
日本語入力開発者の
一人である
工藤拓氏によって
開発されました。
開発者の
工藤氏の
好物が「
和布蕪(めかぶ)」であったため、MeCabと
名づけられたそうです。
マルコフ
連鎖とは、
1つ
前の
状態における
情報だけを
参考にして
現在の
状態が
決定するというアルゴリズムです。
「
ワードサラダ日記」では、まず
元の
文章を
形態素解析によって
品詞ごとに
分割(
分かち
書き)したあと、3
単語ずつひとまとめにしてテーブルを
作成し、その3つの
単語のうち
前2つの
単語をキーにして
次の
単語を
乱数によって
選択しながら
連鎖を
続け
文章を
生成しています。
ワードサラダ日記の今後
「
ワードサラダ日記」はその
名のとおり
現段階では
意味不明な
文章を
自動生成するだけのスクリプトですが、
最終的な
目標は
日記の
定型部分の
自動化です。
日記につづられる
天気、
時事情報などの
定型的な
部分をスクレイピング
技術によってネットから
取得し、
意味の
通った
文章に
組みなおして、
日記作成の
手助けをするスクリプトを
目指しています。
●
Webスクレイピングとは
Webスクレイピングによる
完全自動更新ブログ
●
『誕生花・花言葉 & 誕生日カレンダー』
▼入力窓にオリジナル文を入れ形態素解析をお試しください。
コメントする