ROUGE (評価ひょうか指標しひょう)

ROUGE（英えい: Recall-Oriented Understudy for Gisting Evaluation） ^[1]は、自然しぜん言語げんご処理しょりにおいて自動じどう要約ようやくや機械きかい翻訳ほんやくを評価ひょうかするために使用しようされる指標しひょう。システムにより自動じどう生成せいせいされた要約ようやくや翻訳ほんやくと、人間にんげんが作成さくせいした要約ようやくや翻訳ほんやくを比較ひかくし、その質しつを評価ひょうかする。

指標しひょうの種類しゅるい

主おもに以下いかの5つの評価ひょうか指標しひょうが利用りようされる。

ROUGE-N：システムと参照さんしょうの要約ようやくの間あいだのn-gram ^[2]
- ROUGE-1は、システム要約ようやくと正解せいかい要約ようやくの間あいだの1-gram（単語たんご）の共起きょうきを評価ひょうかする。
- ROUGE-2は、システム要約ようやくと正解せいかい要約ようやくの間あいだの2-gramの共起きょうきを評価ひょうかする。
ROUGE-L：最長さいちょう共通きょうつう部ぶ分列ぶんれつ（LCS） ^[3]ベースの評価ひょうか。システム要約ようやくと正解せいかい要約ようやく間あいだで文ぶんの順番じゅんばんに沿そって共起きょうきしている単語たんごの個数こすうで評価ひょうかするため、文ぶん単位たんいの類似るいじ性せいを自然しぜんに評価ひょうかできる。
ROUGE-W：重おもみ付づけされたLCSベースの指標しひょう。
ROUGE-S：Skip-bigram^[3]ベースの共起きょうき指標しひょう。
ROUGE-SU：Skip-bigramと1-gramベースの共起きょうき指標しひょう。

脚注きゃくちゅう

[脚注きゃくちゅうの使つかい方かた]

参考さんこう文献ぶんけん

[1] Lin, Chin-Yew. 2004. ROUGE: a Package for Automatic Evaluation of Summaries. In Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, July 25 - 26, 2004.

[2] Lin, Chin-Yew and E.H. Hovy 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), Edmonton, Canada, May 27 - June 1, 2003.

[lin-acl-2004-3] Lin, Chin-Yew and Franz Josef Och. 2004. Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics. In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL 2004), Barcelona, Spain, July 21 - 26, 2004.

[1]

[2]

[3]

指標しひょうの種類しゅるい

脚注きゃくちゅう

関連かんれん項目こうもく

参考さんこう文献ぶんけん