Mahjong中ちゅう文ぶん分ぶん词

简介

麻あさ将しょう一直是广受欢迎的传统娱乐活动，字じ牌ぱい的てき组合千せん变万化か。汉字的てき组合也是变化多端たたん，Mahjong这个项目希望きぼう能のう从汉字じ组合中ちゅう发现汉语的てき秘密ひみつ，为自然しぜん语言处理提供ていきょう好こう的中てきちゅう文ぶん分ぶん词工具ぐ。

Mahjong是ぜ基もと于Scala语言实现的中てきちゅう文ぶん分ぶん词软件けん包つつみ。这个项目的もくてき核心かくしん是ぜ最大さいだい概がい率りつ分ぶん词，整せい个项目め专为搜索そうさく引擎、文ぶん本ほん信しん息いき抽取和わ自然しぜん语言处理设计，参考さんこう我が关于中ちゅう文ぶん分ぶん词的一いち些思考しこう来らい实现。性能せいのう优异、速度そくど快かい。整せい个分词包易えき于使用しよう，测试覆盖率高だか。

在ざい线展示てんじ

打だ开链接せっ http://mahjong.yingrui.me/，您可以自己じこ测试它的功こう能のう。有ゆう任にん何なん问题，可か以发邮件至いたり： yingrui.f@gmail.com。

分ぶん词歧义解决方案あん

分ぶん词的方法ほうほう有ゆう很多，现在越来ごえく越えつ多た的てき研究けんきゅう认为分ぶん词是一个的序列标注问题。但ただし是ぜ基もと于词典てん的てき方法ほうほう速度そくど快かい，容易ようい快速かいそく应用在ざい领域应用中ちゅう。

如何いか平衡へいこう基もと于词典てん的てき最大さいだい概がい率りつ分ぶん词与基もと于标注ちゅう的てき分ぶん词算法ほう呢？Mahjong将はた这两种算法ほう结合起おこり来らい，用もちい来らい解かい决分词歧义的问题。

Mahjong的中てきちゅう文ぶん分ぶん词歧义解决方案あん

Mahjong的てき使用しよう方法ほうほう

在ざいpom.xml中ちゅう加入かにゅう以下いか依よ赖即可か使用しよう：

<dependency>
    <groupId>me.yingrui.mahjong</groupId>
    <artifactId>lib-segment</artifactId>
    <version>1.2</version>
</dependency>
<dependency>
    <groupId>org.scala-lang</groupId>
    <artifactId>scala-library</artifactId>
    <version>2.11.8</version>
</dependency>
<dependency>
    <groupId>org.scala-lang.modules</groupId>
    <artifactId>scala-parser-combinators_2.11</artifactId>
    <version>1.0.5</version>
</dependency>

在ざいJava中ちゅう使用しよう

Map<String, String> params = new HashMap<String, String>();
params.put("minimize.word", "true");
SegmentWorker worker = SegmentWorkerBuilder.build(params);
SegmentResult result = worker.segment(sentence);
System.out.println(result);

在ざいScala中ちゅう使用しよう

val worker = SegmentWorker("minimize.word" -> "true")
val words = worker.segment(str)
println(words)

Mahjong的てき默だま认参数すう

# 支持しじ查询语法，常つね在ざい搜索そうさく引擎内ない使用しよう，对搜索そうさく表ひょう达式中ちゅう的てき特殊とくしゅ符号ふごう不ふ分ぶん词
support.querysyntax     = false

# 加か载用户词典てん
load.userdictionary     = true

# 加か载领域いき词典
load.domaindictionary   = true

# 加か载英语词典てん
load.englishdictionary  = true

# 分ぶん词结果はて的てき颗粒度ど尽つき可能かのう小しょう
minimize.word           = false

# 识别姓名せいめい
recognize.chinesename   = true
# 将はた姓名せいめい的てき姓せい和名わみょう分ぶん开
separate.xingming       = false

# 识别词性
recognize.partOfSpeech  = true

# 全角ぜんかく半角はんかく转换
convert.tohalfshape     = false
# 字母じぼ的てき大小だいしょう写うつし转换
convert.touppercase     = false

# 汉字转拼音おん，基き于隐马尔可か夫おっと模型もけい实现
recognize.pinyin        = false

# 基もと于文章ぶんしょう的てき上下じょうげ文ぶん分ぶん词
segment.context         = false

实验性せい功こう能のう

CRF 目前もくぜん被ひ广泛应用来らい解かい决序列じょれつ标注问题，Mahjong实现了りょうCRF算法さんぽう，并基于此构建了りょう自己じこ的てき分ぶん词器。并结合あい基もと于词典てん的てき分ぶん词，形成けいせい了りょう独特どくとく的てき歧义解かい决方案あん。

深度しんど学がく习 随ずい着ぎ深度しんど学がく习越来ごえく越えつ火ひ， Mahjong实现了りょうWord2Vec算法さんぽう，并基于字向むこう量りょう实现了りょう基もと于神经网络的分ぶん词器。

实现结果显示，基き于字向こう量的りょうてき分ぶん词并不ふ理想りそう，必须按照歧义解かい决方案あん类似，使用しよう基もと于词向むこう量りょう来らい实现分ぶん词器。

更さら多た阅读

2.0计划新しん增ぞう功こう能のう

项目计划

新しん功こう能のう

支持しじ微ほろ博はく的てき用よう户ID和わ主ぬし题的语法
支持しじIP地ち址し、邮件、URL、GUID、英えい语数字すうじ、中ちゅう英文えいぶん混合こんごう词
支持しじ日本にっぽん姓名せいめい的てき识别
支持しじ中ちゅう文ぶん日び期き、英文えいぶん日び期き转ISO日び期き格式かくしき
支持しじBarcode的てき解析かいせき

增强ぞうきょう

在ざい核心かくしん词典中ちゅう增加ぞうか著名ちょめい地区ちく和わ景けい点てん
更新こうしん世界せかい名人めいじん、商しょう标、商品しょうひん、公司こうし等とう
优化核心かくしん词典，加か快かい分ぶん词速度そくど
增强ぞうきょう地名ちめい识别

试验功こう能のう

RNN分ぶん词
支持しじ中ちゅう文ぶん繁体字はんたいじ分ぶん词

Name		Name	Last commit message	Last commit date
Latest commit History 478 Commits
lib-segment-apps		lib-segment-apps
lib-segment		lib-segment
mahjong-lucene4		mahjong-lucene4
mahjong-lucene5		mahjong-lucene5
mahjong-web		mahjong-web
scripts		scripts
test/performance-test		test/performance-test
.gitignore		.gitignore
.travis.yml		.travis.yml
Procfile		Procfile
about.md		about.md
cloudformation.json		cloudformation.json
disambiguation.md		disambiguation.md
experiments.md		experiments.md
license.txt		license.txt
pom.xml		pom.xml
readme.md		readme.md
system.properties		system.properties

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Mahjong中ちゅう文ぶん分ぶん词

简介

在ざい线展示てんじ

分ぶん词歧义解决方案あん

Mahjong的てき使用しよう方法ほうほう

在ざいJava中ちゅう使用しよう

在ざいScala中ちゅう使用しよう

Mahjong的てき默だま认参数すう

实验性せい功こう能のう

2.0计划新しん增ぞう功こう能のう

新しん功こう能のう

增强ぞうきょう

试验功こう能のう

About

Releases

Packages

Contributors 3

Languages

License

yingrui/mahjong

Folders and files

Latest commit

History

Repository files navigation

Mahjong中ちゅう文ぶん分ぶん词

简介

在ざい线展示てんじ

分ぶん词歧义解决方案あん

Mahjong的てき使用しよう方法ほうほう

在ざいJava中ちゅう使用しよう

在ざいScala中ちゅう使用しよう

Mahjong的てき默だま认参数すう

实验性せい功こう能のう

2.0计划新しん增ぞう功こう能のう

新しん功こう能のう

增强ぞうきょう

试验功こう能のう

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages