(Translated by https://www.hiragana.jp/)
GitHub - yingrui/mahjong: 开源中文分词工具包,中文分词Web API,Lucene中文分词,中英文混合分词
Skip to content

开源ちゅうぶんぶん词工つつめちゅうぶんぶん词Web API,Luceneちゅうぶんぶん词,ちゅう英文えいぶん混合こんごうぶん

License

Notifications You must be signed in to change notification settings

yingrui/mahjong

Repository files navigation

Mahjongちゅうぶんぶん

简介

あさしょう一直是广受欢迎的传统娱乐活动,ぱいてき组合せん变万。汉字てき组合也是变化多端たたんMahjong这个项目希望きぼうのう从汉组合ちゅう发现汉语てき秘密ひみつ,为自然しぜん语言处理提供ていきょうこう的中てきちゅうぶんぶん词工

Build Status Maven Central

Mahjongもと于Scala语言实现的中てきちゅうぶんぶん词软けんつつみ。这个项目的もくてき核心かくしん最大さいだいがいりつぶん词,せい个项专为搜索そうさく引擎、ぶんほんしんいき抽取自然しぜん语言处理设计,参考さんこう关于ちゅうぶんぶん词的いち思考しこうらい实现。性能せいのう优异、速度そくどかいせい个分词包えき使用しよう,测试覆盖率だか

ざい线展示てんじ

开链せっ http://mahjong.yingrui.me/,您可以自己じこ测试它的こうのうゆうにんなん问题,以发邮件いたりyingrui.f@gmail.com

ぶん词歧义解决方あん

ぶん词的方法ほうほうゆう很多,现在越来ごえくえつてき研究けんきゅう认为ぶん词是一个的序列标注问题。ただしもと于词てんてき方法ほうほう速度そくどかい容易ようい快速かいそく应用ざい领域应用ちゅう

如何いか平衡へいこうもと于词てんてき最大さいだいがいりつぶん词与もと于标ちゅうてきぶん词算ほう呢?Mahjongはた这两种算ほう结合おこりらいもちいらいかい决分词歧义的问题。

Mahjong的中てきちゅうぶんぶん词歧义解决方あん

Mahjongてき使用しよう方法ほうほう

ざいpom.xmlちゅう加入かにゅう以下いか赖即使用しよう

<dependency>
    <groupId>me.yingrui.mahjong</groupId>
    <artifactId>lib-segment</artifactId>
    <version>1.2</version>
</dependency>
<dependency>
    <groupId>org.scala-lang</groupId>
    <artifactId>scala-library</artifactId>
    <version>2.11.8</version>
</dependency>
<dependency>
    <groupId>org.scala-lang.modules</groupId>
    <artifactId>scala-parser-combinators_2.11</artifactId>
    <version>1.0.5</version>
</dependency>

ざいJavaちゅう使用しよう

Map<String, String> params = new HashMap<String, String>();
params.put("minimize.word", "true");
SegmentWorker worker = SegmentWorkerBuilder.build(params);
SegmentResult result = worker.segment(sentence);
System.out.println(result);

ざいScalaちゅう使用しよう

val worker = SegmentWorker("minimize.word" -> "true")
val words = worker.segment(str)
println(words)

Mahjongてきだま认参すう

# 支持しじ查询语法,つねざい搜索そうさく引擎ない使用しよう,对搜索そうさくひょう达式ちゅうてき特殊とくしゅ符号ふごうぶん词
support.querysyntax     = false

# 载用户词てん
load.userdictionary     = true

# 载领いき词典
load.domaindictionary   = true

# 载英语词てん
load.englishdictionary  = true

# ぶん词结はててき颗粒つき可能かのうしょう
minimize.word           = false

# 识别姓名せいめい
recognize.chinesename   = true
# はた姓名せいめいてきせい和名わみょうぶん开
separate.xingming       = false

# 识别词性
recognize.partOfSpeech  = true

# 全角ぜんかく半角はんかく转换
convert.tohalfshape     = false
# 字母じぼてき大小だいしょううつし转换
convert.touppercase     = false

# 汉字转拼おん于隐马尔おっと模型もけい实现
recognize.pinyin        = false

# もと文章ぶんしょうてき上下じょうげぶんぶん词
segment.context         = false

实验せいこうのう

CRF 目前もくぜん广泛应用らいかい序列じょれつ标注问题,Mahjong实现りょうCRF算法さんぽう,并基于此构建りょう自己じこてきぶん词器。并结あいもと于词てんてきぶん词,形成けいせいりょう独特どくとくてき歧义かい决方あん

深度しんどがく ずい深度しんどがく越来ごえくえつ, Mahjong实现りょうWord2Vec算法さんぽう,并基于字むこうりょう实现りょうもと于神经网络的ぶん词器。

实现结果显示,于字こう量的りょうてきぶん词并理想りそう,必须按照歧义かい决方あん类似,使用しようもと于词むこうりょうらい实现ぶん词器。

さら阅读

2.0计划しんぞうこうのう

项目计划

しんこうのう

  1. 支持しじほろはくてきよう户IDぬし题的语法
  2. 支持しじIP、邮件、URL、GUID、えい数字すうじちゅう英文えいぶん混合こんごう
  3. 支持しじ日本にっぽん姓名せいめいてき识别
  4. 支持しじちゅうぶん英文えいぶん转ISO格式かくしき
  5. 支持しじBarcodeてき解析かいせき

增强ぞうきょう

  1. ざい核心かくしん词典ちゅう增加ぞうか著名ちょめい地区ちくけいてん
  2. 更新こうしん世界せかい名人めいじんしょう标、商品しょうひん公司こうしとう
  3. 优化核心かくしん词典,かいぶん速度そくど
  4. 增强ぞうきょう地名ちめい识别

试验こうのう

  1. RNNぶん
  2. 支持しじちゅうぶん繁体字はんたいじぶん

About

开源ちゅうぶんぶん词工つつめちゅうぶんぶん词Web API,Luceneちゅうぶんぶん词,ちゅう英文えいぶん混合こんごうぶん

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published