- 词库
工具 包 学 习资料
很多
长期
1. textfilter:
>>> f = DFAFilter()
>>> f.add("sexy")
>>> f.filter("hello sexy baby")
hello **** baby
2. langid:97种语
pip install langid
>>> import langid
>>> langid.classify("This is a test")
('en', -54.41310358047485)
3. langdetect:另一个语言检测https://code.google.com/archive/p/language-detection/
pip install langdetect
from langdetect import detect
from langdetect import detect_langs
s1 = "本 篇 博 客 主要 介 绍两款语言 探 测工具 ,用 于区分 文 本 到底 是 什么语言,"
s2 = 'We are pleased to introduce today a new technology'
print(detect(s1))
print(detect(s2))
print(detect_langs(s3)) # detect_langs()输出探 测出的 所有 语言类型及其所 占 的 比例
输出结果如下:
跟上一个语言检测比较,
4. phone
已 集成 到 python package cocoNLP中 ,欢迎试用
from phone import Phone
p = Phone()
p.find(18100065143)
#return {'phone': '18100065143', 'province': '上海 ', 'city': '上海 ', 'zip_code': '200000', 'area_code': '021', 'phone_type': '电信'}
记录
5. phone
npm install phone
import phone from 'phone';
phone('+852 6569-8900'); // return ['+85265698900', 'HKG']
phone('(817) 569-8900'); // return ['+18175698900, 'USA']
6. ngender
pip install ngender
>>> import ngender
>>> ngender.guess('赵本山 ')
('male', 0.9836229687547046)
>>> ngender.guess('宋 丹 丹 ')
('female', 0.9759486128949907)
7. 抽取email
已 集成 到 python package cocoNLP中 ,欢迎试用
email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'
emails = re.findall(email_pattern, text, flags=0)
8. 抽取phone_number
已 集成 到 python package cocoNLP中 ,欢迎试用
cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'
phoneNumbers = re.findall(cellphone_pattern, text, flags=0)
9. 抽取
IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)
10.
人名 抽取功 能 python package cocoNLP,欢迎试用
中 文 (现代、古代 )名字 、日 文名 字 、中 文 的 姓 和名 、称呼 (大 姨妈、小 姨妈等 )、英文 ->中 文名 字 (李 约翰)、成 语词典
(
11.
全国 人 大 : 全国 /n 人民 /n 代表 大会 /n
中国 : 中 华人民 共和 国 /ns
女 网赛: 女子 /n 网球/n 比 赛/vn
12. 汉语拆字词典:kfcd/chaizi
漢字 拆法 (一 ) 拆法 (二 ) 拆法 (三 )
拆 手 斥 扌 斥 才 斥
13. 词汇
山 泉水 充 沛 0.400704566541 0.370067395878
视野 宽广 0.305762728932 0.325320747491
大 峡谷 惊险 0.312137906517 0.378594957281
14.
此package
15. 汉字转拼
16.
17.
say wo i ni
#说:我 爱你
18.
我 在 这里中 的 夜 里
就像一场是一种生命的意旪
就像我 的 生活 变得在 我 一 样
可 我 们这是 一 个知道
我 只 是 一天 你会怎吗
19.
20. 无空
>>> import wordninja
>>> wordninja.split('derekanderson')
['derek', 'anderson']
>>> wordninja.split('imateapot')
['im', 'a', 'teapot']
21. IP
(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)
22. 腾讯QQ
[1-9]([0-9]{5,11})
23.
[0-9-()()]{7,18}
24.
[A-Za-z0-9_\-\u4e00-\u9fa5]+
25. 汽车
见本repo的 data文 件 [data](https://github.com/fighting41love/funNLP/tree/master/data)
26. 时间抽取:
已 集成 到 python package cocoNLP中 ,欢迎试用
在 2016年 6月 7日 9:44执行測 試 ,结果如下
Hi,all。下 周一 下 午 三 点 开会
>> 2016-06-13 15:00:00-false
周 一 开会
>> 2016-06-13 00:00:00-true
下下 周 一 开会
>> 2016-06-20 00:00:00-true
27.
28.
29.
30. THU
IT词库、财经词库、成 语词库、地名 词库、历史名人 词库、诗词词库、医学 词库、饮食词库、法律 词库、汽车词库、动物词库
31.
该库搜 集 了 包含 :豆 瓣 多 轮, PTT八卦 语料, 青 云 语料, 电视剧对白 语料, 贴吧论坛回 帖 语料,微 博 语料,小 黄 鸡语料
32.
该数据 文 件 中 ,每 一 行 为一 条 json格式 的 谣言数 据 ,字 段 释义如下:
rumorCode: 该条谣言的 唯 一 编码,可 以通过该编码直接 访问该谣言 举报页面。
title: 该条谣言被 举报的 标题内容
informerName: 举报者 微 博 名称
informerUrl: 举报者 微 博 链接
rumormongerName: 发布谣言者 的 微 博 名称
rumormongerUr: 发布谣言者 的 微 博 链接
rumorText: 谣言内容
visitTimes: 该谣言 被 访问次数
result: 该谣言 审查结果
publishTime: 该谣言 被 举报时间
33.
词库
本 repo项目是 一个通过与人对话获得其情感值波动图谱, 内用 词库在 data文 件 夹中.
34.
35.
36. bert资源:
- bert论文
中 文 翻 译: link
-
bert
原作 者 的 slides: link提 取 码: iarj -
文 本分 类实践: github -
bert tutorial
文 本分 类教程 : github -
bert pytorch实现: github
-
bert
用 于中文 命名 实体识别 tensorflow版本 : github -
BERT
生成 句 向 量 ,BERT做文本分 类、文 本 相似 度 计算github -
bert
基 于 keras的 封 装 分 类标注 框 架 Kashgari,几分钟即可 搭建一个分类或者序列标注模型: github -
bert、ELMO
的 图解: github -
BERT: Pre-trained models and downstream applications: github
37. Texar - Toolkit for Text Generation and Beyond: github
基 于Tensorflow的 开源工具 包 ,旨 在 支持 广泛的 机 器 学 习,特 别是文 本 生成 任 务,如机器 翻 译、对话、摘要 、内容 处置、语言建 模 等
38.
中 文 复合事件 抽取,包括 条件 事件 、因果 事件 、顺承事件 、反 转事件 等 事件 抽取,并形成 事理 图谱。
39. cocoNLP: github
pip install cocoNLP
>>> from cocoNLP.extractor import extractor
>>> ex = extractor()
>>> text = '急 寻特朗 普 ,男 孩,于2018年 11月27号 11时在陕西省 安康 市 汉滨区 走 失 。丢失发型短 发,...如有线索,请迅速 与 警方联系:18100065143,132-6156-2938,baizhantang@sina.com.cn 和 yangyangfuture at gmail dot com'
# 抽取邮箱
>>> emails = ex.extract_email(text)
>>> print(emails)
['baizhantang@sina.com.cn', 'yangyangfuture@gmail.com.cn']
# 抽取手 机 号
>>> cellphones = ex.extract_cellphone(text,nation='CHN')
>>> print(cellphones)
['18100065143', '13261562938']
# 抽取手 机 归属地 、运营商
>>> cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones]
>>> print(cell_locs)
cellphone_location [{'phone': '18100065143', 'province': '上海 ', 'city': '上海 ', 'zip_code': '200000', 'area_code': '021', 'phone_type': '电信'}]
# 抽取地 址 信 息
>>> locations = ex.extract_locations(text)
>>> print(locations)
['陕西省 安康 市 汉滨区 ', '安康 市 汉滨区 ', '汉滨区 ']
# 抽取时间点
>>> times = ex.extract_time(text)
>>> print(times)
time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"}
# 抽取人名
>>> name = ex.extract_name(text)
>>> print(name)
特 朗 普
40.
41.
总数 | ||||
---|---|---|---|---|
32,009 | 150,241 | 326,518 | 508,768 | |
实例 |
1,629,591 | 640,622 | 1,235,178 | 3,505,391 |
157,370 | 45,190 | 26,723 | 229.283 | |
InstanceOf | 7,584,931 | 1,449,925 | 3,032,515 | 12,067,371 |
SubClassOf | 2,784 | 191,577 | 555,538 | 749,899 |
- | 10,216/336,890 | 4,846/303,108 | |
10,216/336,890 | - | 28,921/454,579 | |
4,846/303,108 | 28,921/454,579 | - |
42.
自然 语言处理 link知 识图谱 link数 据 挖掘 link自 动驾驶 link机 器 翻 译 link区 块链 link机 器 人 link- 计算
机 图形学 link - 3D
打 印 link 人 脸识别 link人工 智能 芯 片 link等 等
43.
- Ehud Reiter
教授 的 博 客 北大 万小军教授强力推荐,该博客 对NLG技 术、评价与应用进行了 深入 的 探 讨与反 思 。 文 本 生成 相 关资源 大 列 表 自然 语言生成 :让机器 掌握 自 动创作 的 本 领 - 开放域 对话生成 及在微 软小冰中的 实践文 本 生成 控 制 自然 语言生成 相 关资源 大 列 表 用 BLEURT评价自然 语言生成
45.NLP
来 到 杨过曾经生活 过的地方 ,小 龙女动情地 说:“我 也想过过过儿过过的 生活 。” 来 到 儿子等 校 车的地方 ,邓超对孙俪说:“我 也想等 等 等 等 等 过的那 辆车。”- 赵敏说:
我 也想控 忌 忌 己 不 想 无忌。 - 你也
想 犯 范范范玮琪犯过的错吗 - 对叙
打 击是一 次 性行 为?
46.
70
潇洒难书 |
|
如此 |
这般 |
47.
administrator
administration
autoconfig
autodiscover
broadcasthost
domain
editor
guest
host
hostmaster
info
keybase.txt
localdomain
localhost
master
mail
mail0
mail1
48.
包含 856项罪名 知 识图谱, 基 于280万罪名训练库的罪名预测,基 于20W法 务问答 对的13类问题分类与法律 资讯问答功 能
49.
3G语料,
50.cs224n
51.
52.
54.
提 取 码: pea6- keras实现
的 基 于Bi-LSTM + CRF的中 文 分 词+词性标注 基 于Universal Transformer + CRF的中 文 分 词和词性标注快速 神 经网络分词包 java version
55. NLP
56.
【
57. ASR 语音
-
Data Sets
数 据 集 -
清 华大学 THCHS30中 文 语音数 据 集 data_thchs30.tgz OpenSLR
国内 镜像 OpenSLR国外 镜像test-noise.tgz OpenSLR
国内 镜像 OpenSLR国外 镜像resource.tgz OpenSLR
国内 镜像 OpenSLR国外 镜像 -
Free ST Chinese Mandarin Corpus
ST-CMDS-20170001_1-OS.tar.gz OpenSLR
国内 镜像 OpenSLR国外 镜像 -
AIShell-1 开源
版 数 据 集 data_aishell.tgz OpenSLR
国内 镜像 OpenSLR国外 镜像
注 :数 据 集 解 压方法 $ tar xzf data_aishell.tgz $ cd data_aishell/wav $ for tar in *.tar.gz; do tar xvf $tar; done
-
Primewords Chinese Corpus Set 1
primewords_md_2018_set1.tar.gz OpenSLR
国内 镜像 OpenSLR国外 镜像
-
58.
59. Microsoft
60. chinese-xinhua
61.
- TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method。输入
一 篇 文 档,将文 档进行 关键信 息 提 取 ,进行结构化 ,并最终组织成图谱组织形式 ,形成 对文章 语义信 息 的 图谱化 展示
62. SpaCy
包含 Parser, NER, 语法树等功 能 。有 一 些英文 package使用 spacy的 英文 模型 的 ,如果要 适配中 文 ,可能 需要 使用 spacy中 文 模型 。
63. Common Voice语音识别
包括 来 自 42,000名 贡献者 超 过1,400小 时的语音样本,涵github
64.
- 暂不
支持 中 文
65.
- 暂不
支持 中 文
66. 关键词(Keyphrase)抽取
pke: an open source python-based keyphrase extraction toolkit
- 暂不
支持 中 文 ,我 于近期 对其进行修 改 ,使 其适配 中 文 。 请关注 我 的 github动态,谢谢!
67.
- 该repo
参考 了 github
68.
69.
70. cnocr:
71.
中 文人 物 关系图谱构建基 于知识库的 数 据 回 标基 于远程 监督与 bootstrapping方法 的 人物 关系抽取基 于知识图谱的知 识问答 等 应用
72.
文 本 生成 、文 本 摘要 :Byte Cup 2018国 际机器 学 习竞赛知 识图谱:瑞 金 医院 MMC人工 智能 辅助构建知 识图谱大赛- 视频识别 问答:2018
之 江 杯 全 球 人工 智能 大 赛:视频识别&问答
73.
- 简/
繁 体 汉字笔顺 矢 量 笔画
74. speech-aligner: 从“
75. AmpliGraph:
埃 森 哲 出品 ,目前 尚 不 支持 中 文
76. Scattertext
- 很好
用 的 工具 包 ,简单修 改 后 可 支持 中 文 能否 分 析出 某 个类别的文 本 与 其他文 本 的 用 词差异
77. 语言/
百 度 出品 ,ERNIE也号称 在 多 项nlp任 务中击败了 bert
78.
79. Synonyms
- Synonyms
中 文 近 义词工具 包 ,可 以用于自然 语言理解 的 很多任 务:文 本 对齐,推荐算法 ,相似 度 计算,语义偏 移 ,关键字 提 取 ,概念 提 取 ,自 动摘要 ,搜索 引擎等
80. HarvestText领域
81. word2word:(Python)
82. 语音识别语料
83. ASR语音
84. 构建
85. 单文档非监督
86. Kashgari
87. 开源
88.
89.
90. 一些关于自然语言的基本模型 github
91.
92.
提供 了 10万个训练样本
93.
94.
95. LitBank:NLP
96. 百度开源的基准信息抽取系统 github
97.
98. Facebook: LAMA语言
用 于分析预训练语言模型 中 包含 的 事 实和常 识知识的探 针。
99. CommonsenseQA:
100.
101.
102.
103.
104.
105.
基 于京东网站的1300种商品 上下 级概念 ,约10万 商品 品 牌 ,约65万品牌销售关系,商品 描述维度等 知 识库,基 于该知 识库可 以支持 商品 属性 库构建 ,商品 销售问答,品 牌 物品 生 产等知 识查询服务,也可用 于情感 分析 等 下 游 应用.
106.
基 于mongodb存 储的军事领域知 识图谱问答 项目,包括 飞行器 、太 空 装 备等8大 类,100余 小 类,共 计5800项的军事武器 知 识库,该项目 不 使用 图数据 库进行 存 储,通 过jieba进行问句解析 ,问句实体项识别,基 于查询模板 完成 多 类问题的查询,主要 是 提供 一种工业界的问答思想demo。
107.
108. 语音
109.
110. 一个拍照做题程序。输入一张包含数学计算题的图片,输出识别
111.
112. 一个利用有趣中文语料库 qingyun 训练
使用 了 青 云 语料10万 语料,本 repo中 也有 该语料 的 链接
113.
根 据 自己 的 语料训练出 自己 想 要 的 聊天机 器 人 ,可 以用于智能 客 服 、在 线问答 、智能 聊天等 场景。加入 seqGAN版本 。- repo
中 提供 了 一份质量不太高的语料
114.
国家 统计局 中 的 省 市区 镇行政 区 划数据 带拼音 标注,高德 地 图的坐 标和行政 区域 边界范围,在 浏览器 里 面 运行js代 码采集 的 2019年 发布的 最新 数 据 ,含采集 源 码,提供 csv格式 数 据 ,支持 csv转成省 市区 多 级联动js代 码坐 标、边界范围、名称 、拼音、行政 区 等 多 级地址
115.
116. 开放
117.
118. masr:
119. Python
120.
- DRCD
数 据 集 由 中国 台湾 台 达研究 院 发布,其形式 与 SQuAD相 同 ,是 基 于繁体 中 文 的 抽取式 阅读理解 数 据 集 。 - CMRC 2018
数 据 集 是 哈工大 讯飞联合实验室 发布的中 文机 器 阅读理解 数 据 。根 据 给定问题,系 统需要 从篇章 中 抽取出 片 段 作 为答案 ,形式 与 SQuAD相 同 。
121. ConvLab:开源
122.
123.
124.
- Entity and Relation Extraction Based on TensorFlow and BERT.
基 于TensorFlow和 BERT的 管 道 式 实体及关系 抽取,2019语言与 智能 技 术竞赛信息 抽取任 务解决方案 。Schema based Knowledge Extraction, SKE 2019
125. 一个小型的证券知识图谱/
126. 复盘
127. OpenCLaP:
民事 文 书BERT bert-base全部 民事 文 书 2654万 篇 文 书 22554词 370MB刑事 文 书BERT bert-base全部 刑事 文 书 663万 篇 文 书 22554词 370MB百 度 百科 BERT bert-base百 度 百科 903万 篇 词条 22166词 367MB
128. UER:
基 于PyTorch的 预训练模型 框 架 ,支持 对编码器,目 标任务等进行任意 的 组合,从而复现已 有 的 预训练模型 ,或 在 已 有 的 预训练模型 上 进一 步 改 进。基 于UER训练了 不 同性 质的预训练模型 (不同 语料、编码器 、目 标任务),构成了 中 文 预训练模型 仓库,适用于不同 的 场景。
129.
包括 字 向 量 ,拼音向 量 ,词向量 ,词性向 量 ,依存 关系向 量 .共 5种类型 的 向 量
130.
- 其中
的 主要 模 块有信 息 抽取、NLU、NLG、知 识图谱等,并且利用 Django整合 了 前 端 展示 ,目前 已 经封装 了 nlp和 kg的 restful接 口
131. g2pC:
132. Zincbase
133. 诗歌质量评价/细粒
134.
中 文 、阿 拉 伯 数字 互转中 文 与 阿 拉 伯 数字 混合 的 情 况,在 开发中
135. 百度知道问答语料库 github
超 过580万 的 问题,938万 的 答案 ,5800个分类标签。基 于该问答语料库,可 支持 多 种应用 ,如闲聊问答 ,逻辑挖掘
136.
- BERT做
命名 实体识别和 句 子 相似 度 ,分 为online和 outline模 式
137. jieba_fast
使用 cpython重 写 了 jieba分 词库中 计算DAG和 HMM中 的 vitrebi函数 ,速度 得 到 大幅 提 升
138.
139.
140.
141. Python
142.
深度 学 习与自然 语言处理、知 识图谱、对话系 统。包括 知 识获取、知 识库构建、知 识库应用三大技术研究与应用
143. 维基
- 85种语
言 、1620种语言 对、135M对照句
144. StanfordNLP 0.2.0:纯Python
145. NeuralNLP-NeuralClassifier:腾讯开源
146.
147.
148.
- An exploration for Eventline (important news Rank organized by pulic time),针对
某 一事件话题下的新闻报道集合,通 过使用 docrank算法 ,对新闻报道 进行重要 性 识别,并通过新闻报道 时间挑选出 时间线上重要 新 闻
149. 2019
150.
151.
152. ML-NLP -
153. nlp4han:
154. XLM:Facebook
155.
156.
157. CoupletAI -
158.
159. MiningZhiDaoQACorpus - 580
160. brat rapid annotation tool:
161.
162.
163. allennlp阅读
164. PDF
165. Graphbrain:AI开源软件库和
166. 简历
167.
168.
169. 树洞 OCR
一 个c++ OCR github
170. 从
171. 语声迁移 github
172. Python
173. similarity:
用 于词语、短 语、句 子 、词法分析 、情感 分析 、语义分析 等 相 关的相似 度 计算
174.
175. Transformers 2.0 github
支持 TensorFlow 2.0和 PyTorch的 自然 语言处理预训练语言 模型 (BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8种架构/33种预训练模型 /102种语言
176.
177. Poplar:网页
178. 图片
179. 186种语
180. Amazon发布
181.
182.
183. Python实现
184. 类似于人
185. 东南
186.
from spellchecker import SpellChecker
spell = SpellChecker()
# find those words that may be misspelled
misspelled = spell.unknown(['something', 'is', 'hapenning', 'here'])
for word in misspelled:
# Get the one `most likely` answer
print(spell.correction(word))
# Get a list of `likely` options
print(spell.candidates(word))
187. wwsearch
188. CHAMELEON:
189. 8
190. DocSearch:
191. LIDA:轻量
192. aili - the fastest in-memory index in the East 东
193.
194.
内含 英文 数 据 、论文、代 码
195.
196.
197. 汉字
198.
199.
200.
201. PySS3:
202.
203. COPE -
204. doccano:
205. PreNLP:
206. 简单
207.
208.
209. (Colab)
210. 词语拼音
211.
212. NLP
213.
214. GitHub Typo Corpus:
215. TextCluster:
216.
217. BLINK:
218. BertPunc:
219. Tokenizer:
220.
221. spaCy
222. NLP
223. python拼写检查库 github
224. chatbot-list -
225. 语音质量评价
226.
227. BERT-NER-Pytorch:三种不同模式的BERT
228. 无道词典 -
229. 2019
提 取 码: yb6x
230. Chinese medical dialogue data
231.
232.
233. awesome-nlp-sentiment-analysis -
234. LineFlow:
235.
236. MedQuAD:(
237.
238. Transfer Learning in Natural Language Processing (NLP) youtube
239.
240. Tokenizers:
241. CLUENER 细粒
242.
243.
244. NLP
大 多数 为英文 数 据
245. nlp
246. Python
247. Blackstone:
248.
249.
250. albert-chinese-ner -
251.
252. 开源预训练语
253.
254. 编码、标记
255.
256. attnvis:GPT2、BERT
257. CoVoST:Facebook发布
258. Jiagu
259.
260. NLP
261.
262. CLUEDatasetSearch -
263. medical_NER -
264. (哈佛)讲
265.
266. Forte:灵活
267. Python
268. PyLaia:
269. TextFooler:针对
270. Haystack:灵活、
271.
272. pdf
- pdf
生成 - fdfgen:
能 够自动创建 pdf文 档,并填写 信 息
- fdfgen:
- pdf
表 格 解析 - pdftabextract:
用 于OCR识别后 的 表 格 信 息 解析 ,很强大 - tabula-py:
直接 将 pdf中 的 表 格 信 息 转换为pandas的 dataframe,有 java和 python两种版 本代 码 - pdfx:
自 动抽取出 引用 参考 文献 ,并下载对应的pdf文 件 - invoice2data: 发票pdf
信 息 抽取 - camelot: pdf
表 格 解析 - pdfplumber: pdf
表 格 解析 - pdf
文 档信息 抽取
- pdftabextract:
- pdf语义
分割 - PubLayNet:
能 够划分 段落 、识别表 格 、图片
- PubLayNet:
- pdf读取
工具 - PDFMiner:PDFMiner
能 获取页面中 文 本 的 准 确位置 ,以及字体 或 行 等 其他信 息 。它还有 一 个PDF转换器 ,可 以将PDF文 件 转换成 其他文 本格 式 (如HTML)。还有一个可扩展的解析器PDF,可 以用于文本 分析 以外 的 其他用途 。 - PyPDF2:PyPDF 2
是 一 个python PDF库,能 够分割 、合 并、裁 剪和转换PDF文 件 的 页面。它还可 以向PDF文 件 中 添加 自 定 义数据 、查看选项和 密 码。它可以从PDF检索文 本 和 元 数 据 ,还可以将整 个文件 合 并在一 起 。 - ReportLab:ReportLab
能 快速 创建PDF文 档。经过时间证明的 、超 好 用 的 开源项目,用 于创建 复杂的 、数 据 驱动的 PDF文 档和自 定 义矢量 图形。它是免 费的,开源的 ,用 Python编写的 。该软件 包 每 月下 载5万 多 次 ,是 标准Linux发行版 的 一 部分 ,嵌入 到 许多产品中 ,并被选中为Wikipedia的 打 印 /导出功 能 提供 动力。
- PDFMiner:PDFMiner
273.
- 综合
了 同 义词词林扩展版 与 知 网(Hownet)的 词语相似 度 计算方法 ,词汇覆盖更多 、结果更 准 确。
274.
275. stanza:斯坦
可 处理六 十 多 种语言
276. 一个大规模医疗对话数据集 github
包含 110万 医学 咨询,400万条医患对话
277.
278. DGL-KE 图
279. nlp-recipes:
280. chinese_keyphrase_extractor (CKPE) - A tool for chinese keyphrase extraction 一个快速从自然语言文本中提取和识别关键短语的工具 github
281.
282. Google发布Taskmaster-2
283. BDCI2019
284.
285. 粤语/
286.
287.
288. Parakeet:
289. 103976个英语单词库(sql
290. 《
291.
292. Datasaur.ai
293. (Java)
294.
295. CoVoST:Facebook发布
296.
297. Fancy-NLP:
298.
299. BERT/CRF实现
300. ssc, Sound Shape Code,
301.
- baidu ink code: a0qq
302.
303.
304.
305.
306.
307.
308. char_featurizer - 汉字
309. SimBERT -
310. Python
311. TensorFlow 2 实现
312.
313. TensorFlow Hub
314. 汉字
315.
316.
317. TextAttack:
318.
319. OPUS-100:以
320. 从论
321. 让人
322.
323. PyTorch实现
324.
325. LibKGE:
326. comparxiv :
327. ViSQOL:
328.
329. dstlr:
330.
331.
332. whatlies:词向
333.
334.
335. Deepmatch:针对推荐、广告
336. 语音
- zhrtvc
好 用 的中 文 语音克 隆兼 中 文 语音合成 系 统 github - aukit
好 用 的 语音处理工具 箱 ,包含 语音降 噪、音 频格式 转换、特 征 频谱生成 等 模 块 github - phkit
好 用 的 音素 处理工具 箱 ,包含 中 文 音素 、英文 音素 、文 本 转拼音 、文 本 正 则化等 模 块 github - zhvoice
中 文 语音语料,语音更 加 清 晰自然 ,包含 8个开源 数 据 集 ,3200个说话人,900小 时语音 ,1300万 字 github
337.
338. audio:
339.
- COKG-19
包含 了 505个概念 、393个属性 、26282个实例 和 32352个知识三 元 组,覆 盖了医 疗、健康 、物 资、防 控 、科 研 和 人物 等
340. 132个知识图谱的
- 涵盖
常 识、城市 、金融 、农业、地理 、气象、社交 、物 联网、医 疗、娱乐、生活 、商 业、出 行 、科 教
341. 42GB
- 12亿句
子 训练得 到 的 word embedding
342.
343. 汉字、词语、
344.
345. Texthero:
346. SIMPdf:Python
347. 《
348. carefree-learn:(PyTorch)
349. token2index:
350. 开源对话
351. 对联
- 700,000 couplets,
超 过70万 对对联 百 度 云 盘:链接密 码:egpt
352.
353. TaBERT:
354. Dakshina
355. NLP标注
356.
357.
358.
359.
360.
361. nlpgnn:图神经网络
362. Macadam:以Tensorflow(Keras)
363.