ROUGE (評価 指標 )
ROUGE(
指標 の種類
[- ROUGE-N:システムと
参照 の要約 の間 のn-gram [2]- ROUGE-1は、システム
要約 と正解 要約 の間 の1-gram(単語 )の共起 を評価 する。 - ROUGE-2は、システム
要約 と正解 要約 の間 の2-gramの共起 を評価 する。
- ROUGE-1は、システム
- ROUGE-L:
最長 共通 部 分列 (LCS) [3]ベースの評価 。システム要約 と正解 要約 間 で文 の順番 に沿 って共起 している単語 の個数 で評価 するため、文 単位 の類似 性 を自然 に評価 できる。 - ROUGE-W:
重 み付 けされたLCSベースの指標 。 - ROUGE-S:Skip-bigram[3]ベースの
共起 指標 。 - ROUGE-SU:Skip-bigramと1-gramベースの
共起 指標 。
脚注
[- ^ Lin, Chin-Yew. 2004. ROUGE: a Package for Automatic Evaluation of Summaries. In Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, July 25 - 26, 2004.
- ^ Lin, Chin-Yew and E.H. Hovy 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), Edmonton, Canada, May 27 - June 1, 2003.
- ^ a b Lin, Chin-Yew and Franz Josef Och. 2004. Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics. In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL 2004), Barcelona, Spain, July 21 - 26, 2004.
関連 項目
[- BLEU
- F
値 - METEOR
- NIST(
評価 指標 ) 単語 誤 り率 (WER)
参考 文献
[