Mahjong
<dependency>
<groupId>me.yingrui.mahjong</groupId>
<artifactId>lib-segment</artifactId>
<version>1.2</version>
</dependency>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>2.11.8</version>
</dependency>
<dependency>
<groupId>org.scala-lang.modules</groupId>
<artifactId>scala-parser-combinators_2.11</artifactId>
<version>1.0.5</version>
</dependency>
Map<String, String> params = new HashMap<String, String>();
params.put("minimize.word", "true");
SegmentWorker worker = SegmentWorkerBuilder.build(params);
SegmentResult result = worker.segment(sentence);
System.out.println(result);
val worker = SegmentWorker("minimize.word" -> "true")
val words = worker.segment(str)
println(words)
# 支持 查询语法,常 在 搜索 引擎内 使用 ,对搜索 表 达式中 的 特殊 符号 不 分 词
support.querysyntax = false
# 加 载用户词典
load.userdictionary = true
# 加 载领域 词典
load.domaindictionary = true
# 加 载英语词典
load.englishdictionary = true
# 分 词结果 的 颗粒度 尽 可能 小
minimize.word = false
# 识别姓名
recognize.chinesename = true
# 将 姓名 的 姓 和名 分 开
separate.xingming = false
# 识别词性
recognize.partOfSpeech = true
# 全角 半角 转换
convert.tohalfshape = false
# 字母 的 大小 写 转换
convert.touppercase = false
# 汉字转拼音 ,基 于隐马尔可 夫 模型 实现
recognize.pinyin = false
# 基 于文章 的 上下 文 分 词
segment.context = false
CRF
实现结果显示,
支持 微 博 的 用 户ID和 主 题的语法支持 IP地 址 、邮件、URL、GUID、英 语数字 、中 英文 混合 词支持 日本 姓名 的 识别支持 中 文 日 期 、英文 日 期 转ISO日 期 格式 支持 Barcode的 解析
在 核心 词典中 增加 著名 地区 和 景 点 更新 世界 名人 、商 标、商品 、公司 等 - 优化
核心 词典,加 快 分 词速度 增强 地名 识别
- RNN
分 词 支持 中 文 繁体字 分 词