NLP民みん工こう的てき乐园

The Most Powerful NLP-Weapon Arsenal

NLP民みん工こう的てき乐园: 几乎最さい全ぜん的中てきちゅう文ぶんNLP资源库

词库
工具こうぐ包つつみ
学がく习资料りょう

在ざい入いれ门到熟じゅく悉NLP的てき过程中ちゅう，用もちい到いた了りょう很多github上じょう的てき包つつみ，遂とげ整理せいり了りょう一いち下か，分ふん享とおる在ざい这里。

很多包つつみ非常ひじょう有ゆう趣おもむき，值得收藏しゅうぞう，满足大家たいか的てき收集しゅうしゅう癖へき！如果觉得有用ゆうよう，请分享とおる并star，谢谢！

长期不定ふてい时更新こうしん，欢迎watch和わfork！

涉わたる及内容ないよう包括ほうかつ但ただし不ふ限きり于：中ちゅう英文えいぶん敏感びんかん词、语言检测、中外ちゅうがい手しゅ机つくえ/电话归属地ち/运营商しょう查询、名字みょうじ推断すいだん性せい别、手て机つくえ号ごう抽取、身み份证抽取、邮箱抽取、中日ちゅうにち文人ぶんじん名めい库、中ちゅう文ぶん缩写库、拆字词典、词汇情感じょうかん值、停とま用よう词、反はん动词表ひょう、暴恐词表、繁しげる简体转换、英文えいぶん模も拟中文ぶん发音、汪ひろし峰ほう歌か词生成せいせい器き、职业名称めいしょう词库、同どう义词库、反はん义词库、否定ひてい词库、汽车品ひん牌ぱい词库、汽车零れい件けん词库、连续英文えいぶん切きり割わり、各かく种中文ぶん词向量りょう、公司こうし名字みょうじ大全たいぜん、古こ诗词库、IT词库、财经词库、成なり语词库、地名ちめい词库、历史名人めいじん词库、诗词词库、医学いがく词库、饮食词库、法律ほうりつ词库、汽车词库、动物词库、中ちゅう文ぶん聊天语料、中ちゅう文ぶん谣言数すう据すえ、百度中文问答数据集、句く子こ相似そうじ度ど匹ひき配はい算法さんぽう集合しゅうごう、bert资源、文ぶん本ほん生成せいせい&摘要てきよう相しょう关工具ぐ、cocoNLP信しん息いき抽取工具こうぐ、国内こくない电话号ごう码正则匹配はい、清きよし华大学がくXLORE:中ちゅう英文えいぶん跨またが语言百科知识图谱、清きよし华大学がく人工じんこう智能ちのう技わざ术系列けいれつ报告、自然しぜん语言生成せいせい、NLU太ふとし难了系列けいれつ、自じ动对联数据すえ及机器き人じん、用よう户名黑くろ名めい单列表ひょう、罪名ざいめい法ほう务名词及分ぶん类模型がた、微ほろ信しん公こう众号语料、cs224n深度しんど学がく习自然しぜん语言处理课程、中ちゅう文ぶん手写しゅしゃ汉字识别、中ちゅう文ぶん自然しぜん语言处理语料/数かず据すえ集しゅう、变量命名めいめい神器じんぎ、分ぶん词语料りょう库+代だい码、任にん务型对话英文えいぶん数すう据すえ集しゅう、ASR 语音数すう据すえ集しゅう + 基もと于深度しんど学がく习的中ちゅう文ぶん语音识别系けい统、笑声しょうせい检测器き、Microsoft多た语言数字すうじ/单位/如日期き时间识别包つつめ、中ちゅう华新华字典じてん数すう据すえ库及api(包括ほうかつ常用じょうよう歇后语、成なり语、词语和わ汉字)、文ぶん档图谱自动生成せいせい、SpaCy 中ちゅう文ぶん模型もけい、Common Voice语音识别数すう据すえ集しゅう新版しんぱん、神かみ经网络关系けい抽取、基もと于bert的てき命名めいめい实体识别、关键词(Keyphrase)抽取包つつみpke、基もと于医疗领域いき知ち识图谱的问答系けい统、基もと于依存いぞん句法くほう与あずか语义角かく色しょく标注的てき事件じけん三さん元げん组抽取、依存いぞん句法くほう分析ぶんせき4万句高质量标注数据、cnocr：用もちい来らい做中文ぶんOCR的てきPython3包つつみ、中ちゅう文人ぶんじん物ぶつ关系知ち识图谱项目め、中ちゅう文ぶんnlp竞赛项目及代码汇总、中ちゅう文字もじ符ふ数すう据すえ、speech-aligner: 从“人声ひとごえ语音”及其“语言文げんぶん本ほん”产生音素おんそ级别时间对齐标注的てき工具こうぐ、AmpliGraph: 知ち识图谱表示ひょうじ学がく习(Python)库：知ち识图谱概念がいねん链接预测、Scattertext 文ぶん本ほん可か视化(python)、语言/知ち识表示ひょうじ工具こうぐ：BERT & ERNIE、中ちゅう文ぶん对比英文えいぶん自然しぜん语言处理NLP的てき区く别综述じゅつ、Synonyms中ちゅう文ぶん近きん义词工具こうぐ包つつめ、HarvestText领域自じ适应文ぶん本ほん挖掘工具こうぐ（新しん词发现-情感じょうかん分析ぶんせき-实体链接等とう）、word2word：(Python)方便ほうべん易えき用よう的てき多た语言词-词对集しゅう：62种语言ごと/3,564个多语言对、语音识别语料生成せいせい工具こうぐ：从具有ぐゆう音おん频/字幕じまく的てき在ざい线视频创建けん自じ动语音おん识别(ASR)语料库、构建医い疗实体たい识别的てき模型もけい（包含ほうがん词典和わ语料标注）、单文档非监督的てき关键词抽取、Kashgari中ちゅう使用しようgpt-2语言模型もけい、开源的てき金融きんゆう投とう资数据すえ提ひっさげ取ど工具こうぐ、文ぶん本ほん自じ动摘要てきよう库TextTeaser: 仅支持しじ英文えいぶん、人民じんみん日び报语料りょう处理工具こうぐ集しゅう、一些关于自然语言的基本模型、基もと于14W歌曲かきょく知ち识库的てき问答尝试--功こう能のう包括ほうかつ歌か词接龙and已やめ知ち歌か词找歌曲かきょく以及歌曲かきょく歌手かしゅ歌か词三さん角かく关系的てき问答、基もと于Siamese bilstm模型もけい的てき相似そうじ句く子こ判定はんてい模型もけい并提供ていきょう训练数すう据すえ集しゅう和わ测试数すう据すえ集しゅう、用ようTransformer编解码模型がた实现的てき根ね据すえHacker News文章ぶんしょう标题自じ动生成せいせい评论、用ようBERT进行序列じょれつ标记和文わぶん本分ほんぶん类的模も板いた代だい码、LitBank：NLP数すう据すえ集しゅう——支持しじ自然しぜん语言处理和わ计算人文じんぶん学科がっか任にん务的100部ぶ带标记英文えいぶん小しょう说语料りょう、百度开源的基准信息抽取系统、虚假こけ新しん闻数据すえ集しゅう、Facebook: LAMA语言模型もけい分析ぶんせき，提供ていきょうTransformer-XL/BERT/ELMo/GPT预训练语言げん模型もけい的てき统一访问接せっ口こう、CommonsenseQA：面めん向こう常つね识的英文えいぶんQA挑战、中ちゅう文ぶん知ち识图谱资料りょう、数かず据すえ及工具ぐ、各かく大だい公司こうし内部ないぶ里さと大牛おおうし分ぶん享とおる的てき技わざ术文档 PDF 或ある者もの PPT、自然しぜん语言生成せいせいSQL语句（英文えいぶん）、中ちゅう文ぶんNLP数すう据すえ增强ぞうきょう（EDA）工具こうぐ、英文えいぶんNLP数すう据すえ增强ぞうきょう工具こうぐ、基もと于医药知识图谱的智能ちのう问答系けい统、京きょう东商品しょうひん知ち识图谱、基もと于mongodb存そん储的军事领域知ち识图谱问答こたえ项目、基もと于远监督的中てきちゅう文ぶん关系抽取、语音情感じょうかん分析ぶんせき、中ちゅう文ぶんULMFiT-情感じょうかん分析ぶんせき-文ぶん本分ほんぶん类-语料及模型がた、一个拍照做题程序、世界せかい各国かっこく大だい规模人名じんめい库、一个利用有趣中文语料库 qingyun 训练出来でき的中てきちゅう文ぶん聊天机つくえ器き人じん、中ちゅう文ぶん聊天机つくえ器き人じんseqGAN、省しょう市区しく镇行政ぎょうせい区く划数据すえ带拼音おん标注、教育きょういく行ぎょう业新闻语料りょう库包含自动文摘功能のう、开放了りょう对话机つくえ器き人じん-知ち识图谱-语义理解りかい-自然しぜん语言处理工具こうぐ及数据すえ、中ちゅう文ぶん知ち识图谱：基もと于百ひゃく度ど百科ひゃっか中ちゅう文ぶん页面-抽取三さん元げん组信息いき-构建中ちゅう文ぶん知ち识图谱、masr: 中ちゅう文ぶん语音识别-提供ていきょう预训练模型がた-高こう识别率りつ、Python音おん频数据すえ增ぞう广库、中ちゅう文ぶん全ぜん词覆盖BERT及两份阅读理解りかい数すう据すえ、ConvLab：开源多た域いき端はし到いた端はし对话系けい统平台だい、中ちゅう文ぶん自然しぜん语言处理数すう据すえ集しゅう、基もと于最新しん版本はんぽんrasa搭建的てき对话系けい统、基もと于TensorFlow和わBERT的てき管かん道どう式しき实体及关系けい抽取、一个小型的证券知识图谱/知ち识库、复盘所有しょゆうNLP比ひ赛的TOP方案ほうあん、OpenCLaP：多た领域开源中ちゅう文ぶん预训练语言げん模型もけい仓库、UER：基もと于不同どう语料+编码器き+目め标任务的中ちゅう文ぶん预训练模型がた仓库、中ちゅう文ぶん自然しぜん语言处理向むこう量りょう合ごう集しゅう、基もと于金融きんゆう-司法しほう领域(兼有けんゆう闲聊性せい质)的てき聊天机つくえ器き人じん、g2pC：基もと于上下じょうげ文ぶん的てき汉语读音自じ动标记模块、Zincbase 知ち识图谱构建けん工具こうぐ包つつめ、诗歌质量评价/细粒度ど情感じょうかん诗歌语料库、快速かいそく转化「中ちゅう文ぶん数字すうじ」和かず「阿おもね拉ひしげ伯はく数字すうじ」、百度知道问答语料库、基もと于知识图谱的问答系けい统、jieba_fast 加速かそく版ばん的てきjieba、正せい则表达式教程きょうてい、中ちゅう文ぶん阅读理解りかい数すう据すえ集しゅう、基もと于BERT等とう最新さいしん语言模型もけい的てき抽取式しき摘要てきよう提ひっさげ取ど、Python利用りよう深度しんど学がく习进行文こうぶん本ほん摘要てきよう的てき综合指南しなん、知ち识图谱深度しんど学がく习相关资料りょう整理せいり、维基大だい规模平行へいこう文ぶん本ほん语料、StanfordNLP 0.2.0：纯Python版ばん自然しぜん语言处理包つつめ、NeuralNLP-NeuralClassifier：腾讯开源深度しんど学がく习文本分ほんぶん类工具ぐ、端はし到いた端はし的てき封ふう闭域对话系けい统、中ちゅう文ぶん命名めいめい实体识别：NeuroNER vs. BertNER、新しん闻事件じけん线索抽取、2019年ねん百度的三元组抽取比赛：“科学かがく空そら间队”源みなもと码、基もと于依存いぞん句法くほう的てき开放域いき文ぶん本ほん知ち识三元组抽取和知识库构建、中ちゅう文ぶん的てきGPT2训练代だい码、ML-NLP - 机つくえ器き学がく习(Machine Learning)NLP面めん试中常つね考かんがえ到いた的てき知ち识点和代かずよ码实现、nlp4han:中ちゅう文ぶん自然しぜん语言处理工具こうぐ集しゅう(断だん句く/分ぶん词/词性标注/组块/句法くほう分析ぶんせき/语义分析ぶんせき/NER/N元もと语法/HMM/代だい词消解かい/情感じょうかん分析ぶんせき/拼写检查、XLM：Facebook的てき跨またが语言预训练语言げん模型もけい、用よう基もと于BERT的てき微ほろ调和特とく征せい提ひっさげ取ど方法ほうほう来らい进行知ち识图谱百度百科人物词条属性抽取、中ちゅう文ぶん自然しぜん语言处理相しょう关的开放任ほうにん务-数かず据すえ集しゅう-当とう前ぜん最さい佳けい结果、CoupletAI - 基もと于CNN+Bi-LSTM+Attention 的てき自じ动对对联系けい统、抽象ちゅうしょう知ち识图谱、MiningZhiDaoQACorpus - 580万まん百度知道问答数据挖掘项目、brat rapid annotation tool: 序列じょれつ标注工具こうぐ、大だい规模中ちゅう文ぶん知ち识图谱数据すえ：1.4亿实体たい、数かず据すえ增强ぞうきょう在ざい机つくえ器き翻こぼし译及其他nlp任にん务中的てき应用及效果こうか、allennlp阅读理解りかい:支持しじ多た种数据すえ和わ模型もけい、PDF表ひょう格かく数すう据すえ提ひっさげ取ど工具こうぐ、 Graphbrain：AI开源软件库和科か研けん工具こうぐ，目的もくてき是ぜ促进自じ动意义提取と和文わぶん本ほん理解りかい以及知ち识的探索たんさく和わ推断すいだん、简历自じ动筛选系统、基もと于命名めいめい实体识别的てき简历自じ动摘要てきよう、中ちゅう文ぶん语言理解りかい测评基もと准なぞらえ，包括ほうかつ代表だいひょう性的せいてき数すう据すえ集しゅう&基もと准じゅん模型もけい&语料库&排はい行ぎょう榜、树洞 OCR 文字もじ识别、从包含ほうがん表ひょう格かく的てき扫描图片中ちゅう识别表ひょう格和かくわ文字もじ、语声迁移、Python口こう语自然しぜん语言处理工具こうぐ集しゅう(英文えいぶん)、 similarity：相似そうじ度ど计算工具こうぐ包つつめ，java编写、海うみ量りょう中ちゅう文ぶん预训练ALBERT模型もけい、Transformers 2.0 、基もと于大规模音おん频数据すえ集しゅうAudioset的てき音おと频增强ぞうきょう、Poplar：网页版ばん自然しぜん语言标注工具こうぐ、图片文字もじ去さ除じょ，可用かよう于漫画が翻こぼし译、186种语言げん的てき数字すうじ叫さけべ法ほう库、Amazon发布基もと于知识的人じん-人ひと开放领域对话数すう据すえ集しゅう、中ちゅう文ぶん文ぶん本ほん纠错模も块代码、繁しげる简体转换、 Python实现的てき多た种文本ほん可か读性评价指ゆび标、类似于人名めい/地名ちめい/组织机つくえ构名的てき命名めいめい体たい识别数すう据すえ集しゅう、东南大学だいがく《知ち识图谱》研究けんきゅう生せい课程(资料)、. 英文えいぶん拼写检查库、 wwsearch是ぜ企くわだて业微信しん后きさき台だい自じ研とぎ的てき全文ぜんぶん检索引擎、CHAMELEON：深度しんど学がく习新闻推荐系统元架か构、 8篇へん论文梳くしけず理りBERT相しょう关模型がた进展与あずか反はん思おもえ、DocSearch：免めん费文档搜索そうさく引擎、 LIDA：轻量交互こうご式しき对话标注工具こうぐ、aili - the fastest in-memory index in the East 东半球はんきゅう最さい快かい并发索引さくいん、知ち识图谱车音おん工作こうさく项目、自然しぜん语言生成せいせい资源大全たいぜん、中日ちゅうにち韩分词库mecab的てきPython接せっ口こう库、中ちゅう文ぶん文ぶん本ほん摘要てきよう/关键词提取と、汉字字じ符ふ特とく征せい提ひっさげ取ど器うつわ (featurizer)，提ひっさげ取ど汉字的てき特とく征せい（发音特とく征せい、字形じけい特とく征せい）用よう做深度しんど学がく习的特とく征せい、中ちゅう文ぶん生成せいせい任にん务基准じゅん测评、中ちゅう文ぶん缩写数すう据すえ集しゅう、中ちゅう文ぶん任にん务基准じゅん测评 - 代表だいひょう性的せいてき数すう据すえ集しゅう-基もと准じゅん(预训练)模型もけい-语料库-baseline-工具こうぐ包つつみ-排はい行ぎょう榜、PySS3：面めん向こう可か解かい释AI的てきSS3文ぶん本分ほんぶん类器机つくえ器き可か视化工具こうぐ、中ちゅう文ぶんNLP数すう据すえ集しゅう列れつ表ひょう、COPE - 格かく律りつ诗编辑程序じょ、doccano：基もと于网页的开源协同多た语言文げんぶん本ほん标注工具こうぐ、PreNLP：自然しぜん语言预处理り库、简单的てき简历解析かいせき器き，用よう来らい从简历中提ひっさげ取ど关键信しん息いき、用よう于中文ぶん闲聊的てきGPT2模型もけい：GPT2-chitchat、基もと于检索さく聊天机つくえ器き人じん多た轮响应选择相关资源げん列れつ表ひょう(Leaderboards、Datasets、Papers)、(Colab)抽象ちゅうしょう文ぶん本ほん摘要てきよう实现集しゅう锦(教程きょうてい、词语拼音数すう据すえ、高こう效こう模糊もこ搜索そうさく工具こうぐ、NLP数すう据すえ增ぞう广资源げん集しゅう、微ほろ软对话机器き人じん框かまち架か、 GitHub Typo Corpus：大だい规模GitHub多た语言拼写错误/语法错误数すう据すえ集しゅう、TextCluster：短文たんぶん本ほん聚类预处理り模も块 Short text cluster、面めん向こう语音识别的中てきちゅう文ぶん文ぶん本ほん规范化か、BLINK：最さい先さき进的实体链接库、BertPunc：基もと于BERT的てき最さい先さき进标点てん修おさむ复模型がた、Tokenizer：快速かいそく、可か定じょう制せい的てき文ぶん本ほん词条化か库、中ちゅう文ぶん语言理解りかい测评基もと准なぞらえ，包括ほうかつ代表だいひょう性的せいてき数すう据すえ集しゅう、基もと准じゅん(预训练)模型もけい、语料库、排はい行ぎょう榜、spaCy 医学いがく文ぶん本ほん挖掘与信よしん息いき提ひっさげ取ど、 NLP任にん务示例れい项目代だい码集、 python拼写检查库、chatbot-list - 行あるき业内关于智能ちのう客きゃく服ふく、聊天机つくえ器き人的じんてき应用和わ架か构、算法さんぽう分ぶん享とおる和わ介かい绍、语音质量评价指ゆび标(MOSNet, BSSEval, STOI, PESQ, SRMR)、用もちい138GB语料训练的てき法文ほうぶんRoBERTa预训练语言げん模型もけい、BERT-NER-Pytorch：三种不同模式的BERT中ちゅう文ぶんNER实验、无道词典 - 有道ありみち词典的てき命令めいれい行ぎょう版本はんぽん，支持しじ英えい汉互查和在ざい线查询、2019年ねんNLP亮あきら点てん回かい顾、 Chinese medical dialogue data 中ちゅう文ぶん医い疗对话数据すえ集しゅう、最さい好このみ的てき汉字数字すうじ(中ちゅう文ぶん数字すうじ)-阿おもね拉ひしげ伯はく数字すうじ转换工具こうぐ、基もと于百科知识库的中文词语多词义/义项获取与あずか特定とくてい句く子こ词语语义消しょう歧、awesome-nlp-sentiment-analysis - 情感じょうかん分析ぶんせき、情じょう绪原因げんいん识别、评价对象和わ评价词抽取、LineFlow：面めん向こう所有しょゆう深度しんど学がく习框架か的てきNLP数すう据すえ高だか效こう加か载器、中ちゅう文ぶん医学いがくNLP公こう开资源げん整理せいり、MedQuAD：(英文えいぶん)医学いがく问答数すう据すえ集しゅう、将はた自然しぜん语言数字すうじ串くし解析かいせき转换为整数すう和わ浮点数すう、Transfer Learning in Natural Language Processing (NLP) 、面めん向こう语音识别的中てきちゅう文ぶん/英文えいぶん发音辞典じてん、Tokenizers：注ちゅう重じゅう性能せいのう与あずか多功たこう能のう性的せいてき最さい先さき进分词器、CLUENER 细粒度ど命名めいめい实体识别 Fine Grained Named Entity Recognition、基もと于BERT的中てきちゅう文ぶん命名めいめい实体识别、中ちゅう文ぶん谣言数すう据すえ库、NLP数すう据すえ集しゅう/基もと准じゅん任にん务大列れつ表ひょう、nlp相しょう关的一些论文及代码, 包括ほうかつ主ぬし题模型がた、词向量りょう(Word Embedding)、命名めいめい实体识别(NER)、文ぶん本分ほんぶん类(Text Classificatin)、文ぶん本ほん生成せいせい(Text Generation)、文ぶん本ほん相似そうじ性せい(Text Similarity)计算等とう，涉わたる及到各かく种与nlp相しょう关的算法さんぽう，基き于keras和わtensorflow 、Python文ぶん本ほん挖掘/NLP实战示しめせ例れい、 Blackstone：面めん向こう非ひ结构化か法律ほうりつ文ぶん本ほん的てきspaCy pipeline和わNLP模型もけい通どおり过同义词替がえ换实现文本ほん“变脸” 、中ちゅう文ぶん预训练 ELECTREA 模型もけい: 基もと于对抗こう学がく习 pretrain Chinese Model 、albert-chinese-ner - 用よう预训练语言げん模型もけいALBERT做中文ぶんNER 、基もと于GPT2的てき特定とくてい主ぬし题文本ほん生成せいせい/文ぶん本ほん增ぞう广、开源预训练语言げん模型もけい合ごう集しゅう、多た语言句く向むこう量りょう包つつめ、编码、标记和わ实现：一种可控高效的文本生成方法、英文えいぶん脏话大だい列れつ表ひょう、attnvis：GPT2、BERT等とうtransformer语言模型もけい注意ちゅうい力りょく交互こうご可か视化、CoVoST：Facebook发布的てき多た语种语音-文ぶん本ほん翻こぼし译语料りょう库，包括ほうかつ11种语言ごと(法ほう语、德とく语、荷に兰语、俄にわか语、西にし班はん牙きば语、意い大利おおとし语、土ど耳みみ其语、波なみ斯语、瑞みず典てん语、蒙こうむ古こ语和中ちゅう文ぶん)的てき语音、文字もじ转录及英文えいぶん译文、Jiagu自然しぜん语言处理工具こうぐ - 以BiLSTM等とう模型もけい为基础，提供ていきょう知ち识图谱关系けい抽取中ちゅう文ぶん分ぶん词词性标注命名めいめい实体识别情感じょうかん分析ぶんせき新しん词发现关键词文ぶん本ほん摘要てきよう文ぶん本ほん聚类等とう功こう能のう、用ようunet实现对文档表格かく的てき自じ动检测，表ひょう格かく重じゅう建けん、NLP事件じけん提ひっさげ取ど文献ぶんけん资源列れつ表ひょう、金融きんゆう领域自然しぜん语言处理研究けんきゅう资源大だい列れつ表ひょう、CLUEDatasetSearch - 中ちゅう英文えいぶんNLP数すう据すえ集しゅう：搜索そうさく所有しょゆう中ちゅう文ぶんNLP数すう据すえ集しゅう，附ふ常用じょうよう英文えいぶんNLP数すう据すえ集しゅう、medical_NER - 中ちゅう文ぶん医学いがく知ち识图谱命名めいめい实体识别、(哈佛)讲因果いんが推理すいり的てき免めん费书、知ち识图谱相关学习资料りょう/数かず据すえ集しゅう/工具こうぐ资源大だい列れつ表ひょう、Forte：灵活强大きょうだい的てき自然しぜん语言处理pipeline工具こうぐ集しゅう、Python字じ符ふ串くし相似そうじ性せい算法さんぽう库、PyLaia：面めん向こう手写しゅしゃ文ぶん档分析ぶんせき的てき深度しんど学がく习工具ぐ包つつめ、TextFooler：针对文ぶん本分ほんぶん类/推理すいり的てき对抗文ぶん本ほん生成せいせい模も块、Haystack：灵活、强大きょうだい的てき可か扩展问答(QA)框かまち架か、中ちゅう文ぶん关键短たん语抽取工具こうぐ。

1. textfilter: 中ちゅう英文えいぶん敏感びんかん词过滤 observerss/textfilter

 >>> f = DFAFilter()
 >>> f.add("sexy")
 >>> f.filter("hello sexy baby")
 hello **** baby

敏感びんかん词包括ほうかつ政治せいじ、脏话等とう话题词汇。其原そのはら理り主要しゅよう是ぜ基もと于词典てん的てき查找（项目中ちゅう的てきkeyword文ぶん件けん），内容ないよう很劲爆ばく。。。

2. langid：97种语言げん检测 https://github.com/saffsd/langid.py

pip install langid

>>> import langid
>>> langid.classify("This is a test")
('en', -54.41310358047485)

3. langdetect：另一个语言检测https://code.google.com/archive/p/language-detection/

pip install langdetect

from langdetect import detect
from langdetect import detect_langs

s1 = "本ほん篇へん博はく客きゃく主要しゅよう介かい绍两款语言げん探さがせ测工具ぐ，用よう于区分くぶん文ぶん本ほん到底とうてい是ぜ什么语言，"
s2 = 'We are pleased to introduce today a new technology'
print(detect(s1))
print(detect(s2))
print(detect_langs(s3))    # detect_langs()输出探さがせ测出的てき所有しょゆう语言类型及其所しょ占うらない的てき比例ひれい

输出结果如下：注ちゅう：语言类型主要しゅよう参考さんこう的てき是ぜISO 639-1语言编码标准，详见ISO 639-1百ひゃく度ど百科ひゃっか

跟上一个语言检测比较，准じゅん确率低てい，效率こうりつ高だか。

4. phone 中国ちゅうごく手しゅ机つくえ归属地ち查询： ls0f/phone

已やめ集成しゅうせい到いた python package cocoNLP中なか，欢迎试用

from phone import Phone
p  = Phone()
p.find(18100065143)
#return {'phone': '18100065143', 'province': '上海しゃんはい', 'city': '上海しゃんはい', 'zip_code': '200000', 'area_code': '021', 'phone_type': '电信'}

支持しじ号ごう段だん: 13*,15*,18*,14[5,7],17[0,6,7,8]

记录条じょう数すう: 360569 (updated:2017年ねん4月がつ)

作者さくしゃ提供ていきょう了りょう数すう据すえphone.dat 方便ほうべん非ひpython用よう户Load数すう据すえ。

5. phone国こく际手机つくえ、电话归属地ち查询：AfterShip/phone

npm install phone

import phone from 'phone';
phone('+852 6569-8900'); // return ['+85265698900', 'HKG']
phone('(817) 569-8900'); // return ['+18175698900, 'USA']

6. ngender 根ね据すえ名字みょうじ判断はんだん性せい别：observerss/ngender 基もと于朴素もと贝叶斯计算さん的てき概がい率りつ

pip install ngender

>>> import ngender
>>> ngender.guess('赵本山ほんざん')
('male', 0.9836229687547046)
>>> ngender.guess('宋そう丹たん丹まこと')
('female', 0.9759486128949907)

7. 抽取email的てき正せい则表达式

已やめ集成しゅうせい到いた python package cocoNLP中なか，欢迎试用

email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'
emails = re.findall(email_pattern, text, flags=0)

8. 抽取phone_number的てき正せい则表达式

已やめ集成しゅうせい到いた python package cocoNLP中なか，欢迎试用

cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'
phoneNumbers = re.findall(cellphone_pattern, text, flags=0)

9. 抽取身み份证号ごう的てき正せい则表达式

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)

10. 人名じんめい语料库： wainshine/Chinese-Names-Corpus

人名じんめい抽取功こう能のう python package cocoNLP，欢迎试用

中ちゅう文ぶん（现代、古代こだい）名字みょうじ、日にち文名ぶんめい字じ、中ちゅう文ぶん的てき姓せい和名わみょう、称呼しょうこ（大だい姨妈、小しょう姨妈等とう）、英文えいぶん->中ちゅう文名ぶんめい字じ（李り约翰）、成なり语词典てん

（可用かよう于中文ぶん分ぶん词、姓名せいめい识别）

11. 中ちゅう文ぶん缩写库：github

全国ぜんこく人じん大だい: 全国ぜんこく/n 人民じんみん/n 代表だいひょう大会たいかい/n
中国ちゅうごく: 中ちゅう华人民じんみん共和きょうわ国こく/ns
女おんな网赛: 女子じょし/n 网球/n 比ひ赛/vn

12. 汉语拆字词典：kfcd/chaizi

漢字かんじ	拆法 (一いち)	拆法 (二に)	拆法 (三さん)
拆	手しゅ 斥	扌 斥	才ざい 斥

13. 词汇情感じょうかん值：rainarch/SentiBridge

山やま泉水せんすい	充たかし沛	0.400704566541	0.370067395878
视野	        宽广	0.305762728932	0.325320747491
大だい峡谷きょうこく	惊险	0.312137906517	0.378594957281

14. 中ちゅう文ぶん词库、停とま用よう词、敏感びんかん词 dongxiexidian/Chinese

此package的てき敏感びんかん词库分ぶん类更细：

反はん动词库，敏感びんかん词库表ひょう统计，暴恐词库，民生みんせい词库，色情しきじょう词库

15. 汉字转拼音おん：mozillazg/python-pinyin

文ぶん本ほん纠错会かい用よう到いた

16. 中ちゅう文ぶん繁しげる简体互转：skydark/nstools

17. 英文えいぶん模も拟中文ぶん发音引擎 funny chinese text to speech enginee：tinyfool/ChineseWithEnglish

say wo i ni
#说：我わが爱你

相当そうとう于用英文えいぶん音おん标，模かたぎ拟中文ぶん发音。

18. 汪ひろし峰ほう歌か词生成せいせい器き：phunterlau/wangfeng-rnn

我わが在ざい这里中ちゅう的てき夜よる里さと
就像一场是一种生命的意旪
就像我が的てき生活せいかつ变得在ざい我が一いち样
可か我わが们这是ぜ一いち个知道どう
我わが只ただ是ぜ一天いってん你会怎吗

19. 同どう义词库、反はん义词库、否定ひてい词库：guotong1988/chinese_dictionary

20. 无空格かく英文えいぶん串くし分割ぶんかつ、抽取单词：wordninja

>>> import wordninja
>>> wordninja.split('derekanderson')
['derek', 'anderson']
>>> wordninja.split('imateapot')
['im', 'a', 'teapot']

21. IP地ち址し正せい则表达式：

(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)

22. 腾讯QQ号ごう正せい则表达式：

[1-9]([0-9]{5,11})

23. 国内こくない固かた话号码正则表达式：

[0-9-()（）]{7,18}

24. 用よう户名正せい则表达式：

[A-Za-z0-9_\-\u4e00-\u9fa5]+

25. 汽车品ひん牌ぱい、汽车零れい件けん相しょう关词汇：

见本repo的てきdata文ぶん件けん [data](https://github.com/fighting41love/funNLP/tree/master/data)

26. 时间抽取：

已やめ集成しゅうせい到いた python package cocoNLP中なか，欢迎试用

在ざい2016年ねん6月がつ7日にち9:44执行測はか試こころみ，结果如下

Hi，all。下した周一しゅういち下か午うま三さん点てん开会

>> 2016-06-13 15:00:00-false

周しゅう一いち开会

>> 2016-06-13 00:00:00-true

下下しもじも周しゅう一いち开会

>> 2016-06-20 00:00:00-true

java version

python version

27. 各かく种中文ぶん词向量りょう： github repo

中ちゅう文ぶん词向量りょう大全たいぜん

28. 公司こうし名字みょうじ大全たいぜん： github repo

29. 古こ诗词库： github repo 更さら全的ぜんてき古こ诗词库

30. THU整理せいり的てき词库： link

已やめ整理せいり到いた本ほんrepo的てきdata文ぶん件けん夹中.

IT词库、财经词库、成なり语词库、地名ちめい词库、历史名人めいじん词库、诗词词库、医学いがく词库、饮食词库、法律ほうりつ词库、汽车词库、动物词库

31. 中ちゅう文ぶん聊天语料 link

该库搜さがせ集しゅう了りょう包含ほうがん:豆まめ瓣べん多た轮, PTT八卦はっけ语料, 青あお云うん语料, 电视剧对白しろ语料, 贴吧论坛回かい帖じょう语料,微ほろ博はく语料,小しょう黄き鸡语料りょう

32. 中ちゅう文ぶん谣言数すう据すえ: github

该数据すえ文ぶん件けん中ちゅう，每まい一いち行ぎょう为一いち条じょうjson格式かくしき的てき谣言数すう据すえ，字じ段だん释义如下：

rumorCode: 该条谣言的てき唯ただ一いち编码，可か以通过该编码直接ちょくせつ访问该谣言げん举报页面。
title: 该条谣言被ひ举报的てき标题内容ないよう
informerName: 举报者しゃ微ほろ博はく名称めいしょう
informerUrl: 举报者しゃ微ほろ博はく链接
rumormongerName: 发布谣言者しゃ的てき微ほろ博はく名称めいしょう
rumormongerUr: 发布谣言者しゃ的てき微ほろ博はく链接
rumorText: 谣言内容ないよう
visitTimes: 该谣言げん被ひ访问次数じすう
result: 该谣言げん审查结果
publishTime: 该谣言げん被ひ举报时间

33. 情感じょうかん波は动分析ぶんせき：github

词库已やめ整理せいり到いた本ほんrepo的てきdata文ぶん件けん夹中.

本ほんrepo项目是ぜ一个通过与人对话获得其情感值波动图谱, 内用ないよう词库在ざいdata文ぶん件けん夹中.

34. 中ちゅう文ぶん问答数すう据すえ集しゅう：链接提ひっさげ取ど码: 2dva

35. 句く子こ、QA相似そうじ度ど匹ひき配はい:MatchZoo github

文ぶん本ほん相似そうじ度ど匹ひき配はい算法さんぽう的てき集合しゅうごう，包含ほうがん多た个深度しんど学がく习的方法ほうほう，值得尝试。

36. bert资源：

bert论文中ちゅう文ぶん翻こぼし译: link

bert原作げんさく者しゃ的てきslides: link 提ひっさげ取ど码: iarj
文ぶん本分ほんぶん类实践: github
bert tutorial文ぶん本分ほんぶん类教程ほど: github
bert pytorch实现: github
bert用よう于中文ぶん命名めいめい实体识别 tensorflow版本はんぽん: github
BERT生成せいせい句く向むこう量りょう，BERT做文本分ほんぶん类、文ぶん本ほん相似そうじ度ど计算github
bert 基もと于 keras 的てき封ふう装そう分ぶん类标注ちゅう框かまち架か Kashgari，几分钟即可か搭建一个分类或者序列标注模型: github
bert、ELMO的てき图解： github
BERT: Pre-trained models and downstream applications: github

37. Texar - Toolkit for Text Generation and Beyond: github

基もと于Tensorflow的てき开源工具こうぐ包つつめ，旨むね在ざい支持しじ广泛的てき机つくえ器き学がく习，特とく别是文ぶん本ほん生成せいせい任にん务，如机器き翻こぼし译、对话、摘要てきよう、内容ないよう处置、语言建けん模も等とう

38. 中ちゅう文ぶん事件じけん抽取： github

中ちゅう文ぶん复合事件じけん抽取，包括ほうかつ条件じょうけん事件じけん、因果いんが事件じけん、顺承事件じけん、反はん转事件じけん等とう事件じけん抽取，并形成けいせい事理じり图谱。

39. cocoNLP: github

人名じんめい、地ち址し、邮箱、手て机つくえ号ごう、手て机つくえ归属地ち等とう信しん息いき的てき抽取，rake短たん语抽取算法さんぽう。

pip install cocoNLP

>>> from cocoNLP.extractor import extractor

>>> ex = extractor()

>>> text = '急きゅう寻特朗ろう普ひろし，男おとこ孩，于2018年ねん11月27号ごう11时在陕西省しょう安康あんこう市し汉滨区く走はし失しつ。丢失发型短たん发，...如有线索，请迅速そく与あずか警方联系：18100065143，132-6156-2938，baizhantang@sina.com.cn 和わyangyangfuture at gmail dot com'

# 抽取邮箱
>>> emails = ex.extract_email(text)
>>> print(emails)

['baizhantang@sina.com.cn', 'yangyangfuture@gmail.com.cn']
# 抽取手しゅ机つくえ号ごう
>>> cellphones = ex.extract_cellphone(text,nation='CHN')
>>> print(cellphones)

['18100065143', '13261562938']
# 抽取手しゅ机つくえ归属地ち、运营商しょう
>>> cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones]
>>> print(cell_locs)

cellphone_location [{'phone': '18100065143', 'province': '上海しゃんはい', 'city': '上海しゃんはい', 'zip_code': '200000', 'area_code': '021', 'phone_type': '电信'}]
# 抽取地ち址し信しん息いき
>>> locations = ex.extract_locations(text)
>>> print(locations)
['陕西省しょう安康あんこう市し汉滨区く', '安康あんこう市し汉滨区く', '汉滨区く']
# 抽取时间点てん
>>> times = ex.extract_time(text)
>>> print(times)
time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"}
# 抽取人名じんめい
>>> name = ex.extract_name(text)
>>> print(name)
特とく朗ろう普ひろし

40. 国内こくない电话号ごう码正则匹配はい（三さん大だい运营商しょう+虚きょ拟等）: github

41. 清きよし华大学がくXLORE:中ちゅう英文えいぶん跨またが语言百科知识图谱: link
上述じょうじゅつ链接中ちゅう包含ほうがん了りょう所有しょゆう实体及关系けい的てきTTL文ぶん件けん，更さら多数たすう据すえ将はた在ざい近こん期き发布。概念がいねん，实例，属性ぞくせい和上わじょう下位かい关系数すう目もく

	百ひゃく度ど	中ちゅう文ぶん维基	英文えいぶん维基	总数
概念がいねん数量すうりょう	32,009	150,241	326,518	508,768
实例数量すうりょう	1,629,591	640,622	1,235,178	3,505,391
属性ぞくせい数量すうりょう	157,370	45,190	26,723	229.283
InstanceOf	7,584,931	1,449,925	3,032,515	12,067,371
SubClassOf	2,784	191,577	555,538	749,899

跨またが语言连接（概念がいねん/实例）

	百ひゃく度ど	中ちゅう文ぶん维基	英文えいぶん维基
百ひゃく度ど	-	10,216/336,890	4,846/303,108
中ちゅう文ぶん维基	10,216/336,890	-	28,921/454,579
英文えいぶん维基	4,846/303,108	28,921/454,579	-

42. 清きよし华大学がく人工じんこう智能ちのう技わざ术系列けいれつ报告： link
每年まいとし会かい出でAI领域相しょう关的报告，内容ないよう包含ほうがん

自然しぜん语言处理 link
知ち识图谱 link
数かず据すえ挖掘 link
自じ动驾驶 link
机つくえ器き翻こぼし译 link
区く块链 link
机つくえ器き人じん link
计算机つくえ图形学がく link
3D打だ印しるし link
人ひと脸识别 link
人工じんこう智能ちのう芯しん片へん link
等ひとし等ひとし

43.自然しぜん语言生成せいせい方面ほうめん:

Ehud Reiter教授きょうじゅ的てき博はく客きゃく北大ほくだい万小军教授强力推荐，该博客きゃく对NLG技わざ术、评价与应用进行了りょう深入ふかいり的てき探さがせ讨与反はん思おもえ。
文ぶん本ほん生成せいせい相しょう关资源げん大だい列れつ表ひょう
自然しぜん语言生成せいせい：让机器き掌握しょうあく自じ动创作さく的てき本ほん领 - 开放域いき对话生成せいせい及在微ほろ软小冰中的てき实践
文ぶん本ほん生成せいせい控ひかえ制せい
自然しぜん语言生成せいせい相しょう关资源げん大だい列れつ表ひょう
用ようBLEURT评价自然しぜん语言生成せいせい

44.: jieba和わhanlp就不必介绍了吧。

45.NLP太ふとし难了系列けいれつ: github

来き到いた杨过曾经生活せいかつ过的地方ちほう，小しょう龙女动情地ち说：“我わが也想过过过儿过过的てき生活せいかつ。”
来き到いた儿子等とう校こう车的地方ちほう，邓超对孙俪说：“我わが也想等とう等とう等とう等とう等とう过的那な辆车。”
赵敏说：我わが也想控ひかえ忌き忌き己おのれ不ふ想そう无忌。
你也想そう犯はん范范范玮琪犯过的错吗
对叙打だ击是一いち次じ性行せいこう为？

46.自じ动对联数据すえ及机器き人じん:
70万まん对联数すう据すえ link
代だい码 link

上うえ联	下しも联
殷いん勤つとむ怕负三さん春はる意い	潇洒难书一いち字じ愁
如此清秋きよあき何なに吝しわ酒しゅ	这般明月めいげつ不ふ须钱

47.用よう户名黑くろ名めい单列表ひょう： github 包含ほうがん了りょう用よう户名禁きん用よう列れつ表ひょう，比ひ如: link

administrator
administration
autoconfig
autodiscover
broadcasthost
domain
editor
guest
host
hostmaster
info
keybase.txt
localdomain
localhost
master
mail
mail0
mail1

48.罪名ざいめい法ほう务名词及分ぶん类模型がた: github

包含ほうがん856项罪名めい知ち识图谱, 基もと于280万罪名训练库的罪名预测,基もと于20W法ほう务问答こたえ对的13类问题分类与法律ほうりつ资讯问答功こう能のう

49.微ほろ信しん公こう众号语料: github

3G语料，包含ほうがん部分ぶぶん网络抓取的とりてき微ほろ信しん公こう众号的てき文章ぶんしょう，已やめ经去除じょHTML，只ただ包含ほうがん了りょう纯文本ほん。每まい行くだり一いち篇へん，是ぜJSON格式かくしき，name是ぜ微ほろ信しん公こう众号名字みょうじ，account是ぜ微ほろ信しん公こう众号ID，title是ぜ题目，content是正ぜせい文ぶん

50.cs224n深度しんど学がく习自然しぜん语言处理课程：link

课程中ちゅう模型もけい的てきpytorch实现 link
面めん向こう深度しんど学がく习研究けんきゅう人じん员的自然しぜん语言处理实例教程きょうてい link

51.中ちゅう文ぶん手写しゅしゃ汉字识别：github

52.中ちゅう文ぶん自然しぜん语言处理语料/数かず据すえ集しゅう：github 竞品：THUOCL（THU Open Chinese Lexicon）中ちゅう文ぶん词库

53.变量命名めいめい神器じんぎ：github link

54.分ぶん词语料りょう库+代だい码：百ひゃく度ど网盘链接

55. NLP新しん书推荐《Natural Language Processing》by Jacob Eisenstein： link

56. 任にん务型对话英文えいぶん数すう据すえ集しゅう： github
【最さい全ぜん任にん务型对话数すう据すえ集しゅう】主要しゅよう介かい绍了一份任务型对话数据集大全，这份数すう据すえ集しゅう大全たいぜん涵盖了りょう到いた目前もくぜん在任ざいにん务型对话领域的てき所有しょゆう常用じょうよう数すう据すえ集しゅう的てき主要しゅよう信しんじ息いき。此外，为了帮助研究けんきゅう者しゃ更さら好このみ的てき把握はあく领域进展的てき脉络，我わが们以Leaderboard的てき形式けいしき给出了りょう几个数すう据すえ集しゅう上じょう的てきState-of-the-art实验结果。

57. ASR 语音数すう据すえ集しゅう + 基もと于深度しんど学がく习的中ちゅう文ぶん语音识别系けい统： github

Data Sets 数すう据すえ集しゅう
- 清きよし华大学がくTHCHS30中ちゅう文ぶん语音数すう据すえ集しゅう
  
  data_thchs30.tgz OpenSLR国内こくない镜像 OpenSLR国外こくがい镜像
  
  test-noise.tgz OpenSLR国内こくない镜像 OpenSLR国外こくがい镜像
  
  resource.tgz OpenSLR国内こくない镜像 OpenSLR国外こくがい镜像
- Free ST Chinese Mandarin Corpus
  
  ST-CMDS-20170001_1-OS.tar.gz OpenSLR国内こくない镜像 OpenSLR国外こくがい镜像
- AIShell-1 开源版ばん数すう据すえ集しゅう
  
  data_aishell.tgz OpenSLR国内こくない镜像 OpenSLR国外こくがい镜像
注ちゅう：数かず据すえ集しゅう解かい压方法ほう
```
$ tar xzf data_aishell.tgz
$ cd data_aishell/wav
$ for tar in *.tar.gz;  do tar xvf $tar; done
```
- Primewords Chinese Corpus Set 1
  
  primewords_md_2018_set1.tar.gz OpenSLR国内こくない镜像 OpenSLR国外こくがい镜像

58. 笑声しょうせい检测器き： github

59. Microsoft多た语言数字すうじ/单位/如日期き时间识别包つつみ： [github](https://github.com/Microsoft/Recognizers-Text

60. chinese-xinhua 中ちゅう华新华字典じてん数すう据すえ库及api，包括ほうかつ常用じょうよう歇后语、成なり语、词语和わ汉字 github

61. 文ぶん档图谱自动生成せいせい github

TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method。输入一いち篇へん文ぶん档，将文まさふみ档进行ぎょう关键信しん息いき提ひっさげ取ど，进行结构化か，并最终组织成图谱组织形式けいしき，形成けいせい对文章ぶんしょう语义信しん息いき的てき图谱化か展示てんじ

62. SpaCy 中ちゅう文ぶん模型もけい github

包含ほうがんParser, NER, 语法树等功こう能のう。有ゆう一いち些英文えいぶんpackage使用しようspacy的てき英文えいぶん模型もけい的てき，如果要よう适配中ちゅう文ぶん，可能かのう需要じゅよう使用しようspacy中ちゅう文ぶん模型もけい。

63. Common Voice语音识别数すう据すえ集しゅう新版しんぱん link

包括ほうかつ来らい自じ42,000名めい贡献者しゃ超ちょう过1,400小しょう时的语音样本，涵github

64. 神かみ经网络关系けい抽取 pytorch github

暂不支持しじ中ちゅう文ぶん

65. 基もと于bert的てき命名めいめい实体识别 pytorch github

暂不支持しじ中ちゅう文ぶん

66. 关键词(Keyphrase)抽取包つつみ pke github
pke: an open source python-based keyphrase extraction toolkit

暂不支持しじ中ちゅう文ぶん，我わが于近期き对其进行修おさむ改あらため，使つかい其适配はい中ちゅう文ぶん。请关注ちゅう我が的てきgithub动态，谢谢！

67. 基もと于医疗领域いき知ち识图谱的问答系けい统 github

该repo参考さんこう了りょうgithub

68. 基もと于依存いぞん句法くほう与あずか语义角かく色しょく标注的てき事件じけん三さん元げん组抽取 github

69. 依存いぞん句法くほう分析ぶんせき4万句高质量标注数据 by 苏州大学だいがく汉语依存いぞん树库（SUCDT） Homepage 数かず据すえ下か载详见homepage底部ていぶ，需要じゅよう签署协议，需要じゅよう邮件接收せっしゅう解かい压密码。

70. cnocr：用もちい来らい做中文ぶんOCR的てきPython3包つつみ，自じ带了训练好このみ的てき识别模型もけい github

71. 中ちゅう文人ぶんじん物ぶつ关系知ち识图谱项目め github

中ちゅう文人ぶんじん物ぶつ关系图谱构建
基もと于知识库的てき数すう据すえ回かい标
基もと于远程ほど监督与あずかbootstrapping方法ほうほう的てき人物じんぶつ关系抽取
基もと于知识图谱的知ち识问答こたえ等とう应用

72. 中ちゅう文ぶんnlp竞赛项目及代码汇总 github

文ぶん本ほん生成せいせい、文ぶん本ほん摘要てきよう：Byte Cup 2018 国こく际机器き学がく习竞赛
知ち识图谱：瑞みず金きん医院いいんMMC人工じんこう智能ちのう辅助构建知ち识图谱大赛
视频识别问答：2018之の江こう杯はい全ぜん球たま人工じんこう智能ちのう大だい赛：视频识别&问答

73. 中ちゅう文字もじ符ふ数すう据すえ github

简/繁しげる体からだ汉字笔顺
矢や量りょう笔画

74. speech-aligner: 从“人声ひとごえ语音”及其“语言文げんぶん本ほん”，产生音素おんそ级别时间对齐标注的てき工具こうぐ github

75. AmpliGraph: 知ち识图谱表示ひょうじ学がく习(Python)库：知ち识图谱概念がいねん链接预测 github

埃ほこり森もり哲あきら出品しゅっぴん，目前もくぜん尚ひさし不ふ支持しじ中ちゅう文ぶん

76. Scattertext 文ぶん本ほん可か视化(python) github

很好用よう的てき工具こうぐ包つつめ，简单修おさむ改あらため后きさき可か支持しじ中ちゅう文ぶん
能否のうひ分ぶん析出せきしゅつ某ぼう个类别的文ぶん本ほん与あずか其他文ぶん本ほん的てき用よう词差异

77. 语言/知ち识表示ひょうじ工具こうぐ：BERT & ERNIE github

百ひゃく度ど出品しゅっぴん，ERNIE也号称たたえ在ざい多た项nlp任にん务中击败了りょうbert

78. 中ちゅう文ぶん对比英文えいぶん自然しぜん语言处理NLP的てき区く别综述じゅつ link

79. Synonyms中ちゅう文ぶん近きん义词工具こうぐ包つつみ github

Synonyms 中ちゅう文ぶん近きん义词工具こうぐ包つつめ，可か以用于自然しぜん语言理解りかい的てき很多任にん务：文ぶん本ほん对齐，推荐算法さんぽう，相似そうじ度ど计算，语义偏へん移うつり，关键字じ提ひっさげ取ど，概念がいねん提ひっさげ取ど，自じ动摘要てきよう，搜索そうさく引擎等とう

80. HarvestText领域自じ适应文ぶん本ほん挖掘工具こうぐ（新しん词发现-情感じょうかん分析ぶんせき-实体链接等とう） github

81. word2word：(Python)方便ほうべん易えき用よう的てき多た语言词-词对集しゅう：62种语言ごと/3,564个多语言对 github

82. 语音识别语料生成せいせい工具こうぐ：从具有ぐゆう音おん频/字幕じまく的てき在ざい线视频创建けん自じ动语音おん识别(ASR)语料库 github

83. ASR语音大だい辞典じてん/词典： github

84. 构建医い疗实体たい识别的てき模型もけい，包含ほうがん词典和わ语料标注，基き于python: github

85. 单文档非监督的てき关键词抽取： github

86. Kashgari中ちゅう使用しようgpt-2语言模型もけい github

87. 开源的てき金融きんゆう投とう资数据すえ提ひっさげ取ど工具こうぐ github

88. 文ぶん本ほん自じ动摘要てきよう库TextTeaser: 仅支持しじ英文えいぶん github

89. 人民じんみん日び报语料りょう处理工具こうぐ集しゅう github

90. 一些关于自然语言的基本模型 github

91. 基もと于14W歌曲かきょく知ち识库的てき问答尝试，功こう能のう包括ほうかつ歌か词接龙，已やめ知ち歌か词找歌曲かきょく以及歌曲かきょく歌手かしゅ歌か词三さん角かく关系的てき问答 github

92. 基もと于Siamese bilstm模型もけい的てき相似そうじ句く子こ判定はんてい模型もけい,提供ていきょう训练数すう据すえ集しゅう和わ测试数すう据すえ集しゅう github

提供ていきょう了りょう10万个训练样本

93. 用ようTransformer编解码模型がた实现的てき根ね据すえHacker News文章ぶんしょう标题自じ动生成せいせい评论 github

94. 用ようBERT进行序列じょれつ标记和文わぶん本分ほんぶん类的模も板いた代だい码 github

95. LitBank：NLP数すう据すえ集しゅう——支持しじ自然しぜん语言处理和わ计算人文じんぶん学科がっか任にん务的100部ぶ带标记英文えいぶん小しょう说语料りょう github

96. 百度开源的基准信息抽取系统 github

97. 虚假こけ新しん闻数据すえ集しゅう fake news corpus github

98. Facebook: LAMA语言模型もけい分析ぶんせき，提供ていきょうTransformer-XL/BERT/ELMo/GPT预训练语言げん模型もけい的てき统一访问接せっ口こう github

用よう于分析预训练语言模型もけい中ちゅう包含ほうがん的てき事こと实和常つね识知识的探さがせ针。

99. CommonsenseQA：面めん向こう常つね识的英文えいぶんQA挑战 link

100. 中ちゅう文ぶん知ち识图谱资料りょう、数かず据すえ及工具ぐ github

101. 各かく大だい公司こうし内部ないぶ里さと大牛おおうし分ぶん享とおる的てき技わざ术文档 PDF 或ある者もの PPT github

102. 自然しぜん语言生成せいせいSQL语句（英文えいぶん） github

103. 中ちゅう文ぶんNLP数すう据すえ增强ぞうきょう（EDA）工具こうぐ github

英文えいぶんNLP数すう据すえ增强ぞうきょう工具こうぐ github
一键中文数据增强工具 github

104. 基もと于医药知识图谱的智能ちのう问答系けい统 github

105. 京きょう东商品しょうひん知ち识图谱 github

基もと于京东网站的1300种商品しょうひん上下じょうげ级概念がいねん，约10万まん商品しょうひん品ひん牌ぱい，约65万品牌销售关系，商品しょうひん描述维度等とう知ち识库，基き于该知ち识库可か以支持しじ商品しょうひん属性ぞくせい库构建けん，商品しょうひん销售问答，品ひん牌ぱい物品ぶっぴん生せい产等知ち识查询服务，也可用よう于情感かん分析ぶんせき等とう下か游ゆう应用．

106. 基もと于mongodb存そん储的军事领域知ち识图谱问答こたえ项目 github

基もと于mongodb存そん储的军事领域知ち识图谱问答こたえ项目，包括ほうかつ飞行器き、太ふと空むなし装そう备等8大だい类，100余あまり小しょう类，共きょう计5800项的军事武器ぶき知ち识库，该项目め不ふ使用しよう图数据すえ库进行ぎょう存そん储，通つう过jieba进行问句解析かいせき，问句实体项识别，基き于查询模板ばん完成かんせい多た类问题的查询，主要しゅよう是ぜ提供ていきょう一种工业界的问答思想demo。

107. 基もと于远监督的中てきちゅう文ぶん关系抽取 github

108. 语音情感じょうかん分析ぶんせき github

109. 中ちゅう文ぶんULMFiT 情感じょうかん分析ぶんせき文ぶん本分ほんぶん类语料及模型がた github

110. 一个拍照做题程序。输入一张包含数学计算题的图片，输出识别出で的てき数学すうがく计算式しき以及计算结果 github

111. 世界せかい各国かっこく大だい规模人名じんめい库 github

112. 一个利用有趣中文语料库 qingyun 训练出来でき的中てきちゅう文ぶん聊天机つくえ器き人じん github

使用しよう了りょう青あお云うん语料10万まん语料，本ほんrepo中ちゅう也有やゆう该语料りょう的てき链接

113. 中ちゅう文ぶん聊天机つくえ器き人じん，根ね据すえ自己じこ的てき语料训练出で自己じこ想そう要よう的てき聊天机つくえ器き人じん，可か以用于智能ちのう客きゃく服ふく、在ざい线问答こたえ、智能ちのう聊天等とう场景 github

根ね据すえ自己じこ的てき语料训练出で自己じこ想そう要よう的てき聊天机つくえ器き人じん，可か以用于智能ちのう客きゃく服ふく、在ざい线问答こたえ、智能ちのう聊天等とう场景。加入かにゅうseqGAN版本はんぽん。
repo中ちゅう提供ていきょう了りょう一份质量不太高的语料

114. 省しょう市区しく镇行政ぎょうせい区く划数据すえ带拼音おん标注 github

国家こっか统计局きょく中ちゅう的てき省しょう市区しく镇行政ぎょうせい区く划数据すえ带拼音おん标注，高德こうとく地ち图的坐すわ标和行政ぎょうせい区域くいき边界范围，在ざい浏览器き里さと面めん运行js代だい码采集しゅう的てき2019年ねん发布的てき最新さいしん数すう据すえ，含采集しゅう源げん码，提供ていきょうcsv格式かくしき数すう据すえ，支持しじcsv转成省しょう市区しく多た级联动js代だい码
坐すわ标、边界范围、名称めいしょう、拼音、行政ぎょうせい区く等とう多た级地址し

115. 教育きょういく行ぎょう业新闻自じ动文摘语料库 github

116. 开放了りょう对话机つくえ器き人じん、知ち识图谱、语义理解りかい、自然しぜん语言处理工具こうぐ及数据すえ github

另一个qa对的机つくえ器き人じん Amodel-for-Retrivalchatbot - 客きゃく服ふく机つくえ器き人じん，Chinese Retreival chatbot（中ちゅう文ぶん检索式しき机つくえ器き人じん）

117. 中ちゅう文ぶん知ち识图谱：基もと于百ひゃく度ど百科ひゃっか中ちゅう文ぶん页面，抽取三さん元げん组信息いき，构建中ちゅう文ぶん知ち识图谱 github

118. masr: 中ちゅう文ぶん语音识别，提供ていきょう预训练模型がた，高こう识别率りつ github

119. Python音おん频数据すえ增ぞう广库 github

120. 中ちゅう文ぶん全ぜん词覆盖BERT及两份阅读理解りかい数すう据すえ github

DRCD数すう据すえ集しゅう由ゆかり中国ちゅうごく台湾たいわん台たい达研究けんきゅう院いん发布，其形式しき与あずかSQuAD相しょう同どう，是ぜ基もと于繁体たい中ちゅう文ぶん的てき抽取式しき阅读理解りかい数すう据すえ集しゅう。
CMRC 2018数すう据すえ集しゅう是ぜ哈工大だい讯飞联合实验室しつ发布的中てきちゅう文机ふづくえ器き阅读理解りかい数すう据すえ。根ね据すえ给定问题，系けい统需要よう从篇章へんしょう中ちゅう抽取出で片かた段だん作さく为答案あん，形式けいしき与あずかSQuAD相しょう同どう。

121. ConvLab：开源多た域いき端はし到いた端はし对话系けい统平台だい github

122. 中ちゅう文ぶん自然しぜん语言处理数すう据すえ集しゅう github

123. 基もと于最新しん版本はんぽんrasa搭建的てき对话系けい统 github

124. 基もと于TensorFlow和わBERT的てき管かん道どう式しき实体及关系けい抽取 github

Entity and Relation Extraction Based on TensorFlow and BERT. 基もと于TensorFlow和わBERT的てき管かん道どう式しき实体及关系けい抽取，2019语言与あずか智能ちのう技わざ术竞赛信息いき抽取任にん务解决方案あん。Schema based Knowledge Extraction, SKE 2019

125. 一个小型的证券知识图谱/知ち识库 github

126. 复盘所有しょゆうNLP比ひ赛的TOP方案ほうあん github

127. OpenCLaP：多た领域开源中ちゅう文ぶん预训练语言げん模型もけい仓库 github 包含ほうがん如下语言模型もけい及百ひゃく度ど百科ひゃっか数すう据すえ

民事みんじ文ぶん书BERT bert-base 全部ぜんぶ民事みんじ文ぶん书 2654万まん篇へん文ぶん书 22554词 370MB
刑事けいじ文ぶん书BERT bert-base 全部ぜんぶ刑事けいじ文ぶん书 663万まん篇へん文ぶん书 22554词 370MB
百ひゃく度ど百科ひゃっかBERT bert-base 百ひゃく度ど百科ひゃっか 903万まん篇へん词条 22166词 367MB

128. UER：基もと于不同どう语料、编码器き、目め标任务的中ちゅう文ぶん预训练模型がた仓库（包括ほうかつBERT、GPT、ELMO等とう） github

基もと于PyTorch的てき预训练模型がた框かまち架か，支持しじ对编码器，目もく标任务等进行任意にんい的てき组合，从而复现已やめ有ゆう的てき预训练模型がた，或ある在ざい已やめ有ゆう的てき预训练模型がた上じょう进一いち步ほ改あらため进。基もと于UER训练了りょう不ふ同性どうせい质的预训练模型がた（不同ふどう语料、编码器き、目め标任务），构成了りょう中ちゅう文ぶん预训练模型がた仓库，适用于不同ふどう的てき场景。

129. 中ちゅう文ぶん自然しぜん语言处理向むこう量りょう合ごう集しゅう github

包括ほうかつ字じ向むこう量りょう,拼音向むこう量りょう,词向量りょう,词性向せいこう量りょう,依存いぞん关系向むこう量りょう.共とも5种类型がた的てき向むこう量りょう

130. 基もと于金融きんゆう-司法しほう领域(兼有けんゆう闲聊性せい质)的てき聊天机つくえ器き人じん github

其中的てき主要しゅよう模も块有信しん息いき抽取、NLU、NLG、知ち识图谱等，并且利用りようDjango整合せいごう了りょう前ぜん端はし展示てんじ,目前もくぜん已やめ经封装そう了りょうnlp和わkg的てきrestful接せっ口こう

131. g2pC：基もと于上下じょうげ文ぶん的てき汉语读音自じ动标记模块 github

132. Zincbase 知ち识图谱构建けん工具こうぐ包つつみ github

133. 诗歌质量评价/细粒度ど情感じょうかん诗歌语料库 github

134. 快速かいそく转化「中ちゅう文ぶん数字すうじ」和かず「阿おもね拉ひしげ伯はく数字すうじ」 github

中ちゅう文ぶん、阿おもね拉ひしげ伯はく数字すうじ互转
中ちゅう文ぶん与あずか阿おもね拉ひしげ伯はく数字すうじ混合こんごう的てき情じょう况，在ざい开发中ちゅう

135. 百度知道问答语料库 github

超ちょう过580万まん的てき问题，938万まん的てき答案とうあん，5800个分类标签。基もと于该问答语料库，可か支持しじ多た种应用よう，如闲聊问答こたえ，逻辑挖掘

136. 基もと于知识图谱的问答系けい统 github

BERT做命名めいめい实体识别和わ句く子こ相似そうじ度ど，分ふん为online和わoutline模も式しき

137. jieba_fast 加速かそく版ばん的てきjieba github

使用しようcpython重じゅう写うつし了りょうjieba分ぶん词库中ちゅう计算DAG和わHMM中ちゅう的てきvitrebi函数かんすう，速度そくど得え到いた大幅おおはば提ひさげ升ます

138. 正せい则表达式教程きょうてい github

139. 中ちゅう文ぶん阅读理解りかい数すう据すえ集しゅう github

140. 基もと于BERT等とう最新さいしん语言模型もけい的てき抽取式しき摘要てきよう提ひっさげ取ど github

141. Python利用りよう深度しんど学がく习进行文こうぶん本ほん摘要てきよう的てき综合指南しなん link

142. 知ち识图谱深度しんど学がく习相关资料りょう整理せいり github

深度しんど学がく习与自然しぜん语言处理、知ち识图谱、对话系けい统。包括ほうかつ知ち识获取、知ち识库构建、知ち识库应用三大技术研究与应用

143. 维基大だい规模平行へいこう文ぶん本ほん语料 github

85种语言ごと、1620种语言げん对、135M对照句く

144. StanfordNLP 0.2.0：纯Python版ばん自然しぜん语言处理包つつみ link

145. NeuralNLP-NeuralClassifier：腾讯开源深度しんど学がく习文本分ほんぶん类工具ぐ github

146. 端はし到いた端はし的てき封ふう闭域对话系けい统 github

147. 中ちゅう文ぶん命名めいめい实体识别：NeuroNER vs. BertNER github

148. 新しん闻事件じけん线索抽取 github

An exploration for Eventline (important news Rank organized by pulic time)，针对某ぼう一事件话题下的新闻报道集合，通つう过使用しようdocrank算法さんぽう，对新闻报道どう进行重要じゅうよう性せい识别，并通过新闻报道どう时间挑选出で时间线上重要じゅうよう新しん闻

149. 2019年ねん百度的三元组抽取比赛，“科学かがく空そら间队”源みなもと码(第だい7名めい) github

150. 基もと于依存いぞん句法くほう的てき开放域いき文ぶん本ほん知ち识三元组抽取和知识库构建 github

151. 中ちゅう文ぶん的てきGPT2训练代だい码 github

152. ML-NLP - 机つくえ器き学がく习(Machine Learning)、NLP面めん试中常つね考かんがえ到いた的てき知ち识点和代かずよ码实现 github

153. nlp4han:中ちゅう文ぶん自然しぜん语言处理工具こうぐ集しゅう(断だん句く/分ぶん词/词性标注/组块/句法くほう分析ぶんせき/语义分析ぶんせき/NER/N元もと语法/HMM/代だい词消解かい/情感じょうかん分析ぶんせき/拼写检查 github

154. XLM：Facebook的てき跨またが语言预训练语言げん模型もけい github

155. 用よう基もと于BERT的てき微ほろ调和特とく征せい提ひっさげ取ど方法ほうほう来らい进行知ち识图谱百度百科人物词条属性抽取 github

156. 中ちゅう文ぶん自然しぜん语言处理相しょう关的开放任ほうにん务，数すう据すえ集しゅう, 以及当とう前ぜん最さい佳けい结果 github

157. CoupletAI - 基もと于CNN+Bi-LSTM+Attention 的てき自じ动对对联系けい统 github

158. 抽象ちゅうしょう知ち识图谱，目前もくぜん规模50万まん，支持しじ名めい词性实体、状じょう态性描述、事件じけん性せい动作进行抽象ちゅうしょう github

159. MiningZhiDaoQACorpus - 580万まん百度知道问答数据挖掘项目 github

160. brat rapid annotation tool: 序列じょれつ标注工具こうぐ link

161. 大だい规模中ちゅう文ぶん知ち识图谱数据すえ：：1.4亿实体たい github

162. 数かず据すえ增强ぞうきょう在ざい机つくえ器き翻こぼし译及其他nlp任にん务中的てき应用及效果こうか link

163. allennlp阅读理解りかい:支持しじ多た种数据すえ和わ模型もけい github

164. PDF表ひょう格かく数すう据すえ提ひっさげ取ど工具こうぐ github

165. Graphbrain：AI开源软件库和科か研けん工具こうぐ，目的もくてき是ぜ促进自じ动意义提取と和文わぶん本ほん理解りかい以及知ち识的探索たんさく和わ推断すいだん github

166. 简历自じ动筛选系统 github

167. 基もと于命名めいめい实体识别的てき简历自じ动摘要てきよう github

168. 中ちゅう文ぶん语言理解りかい测评基もと准なぞらえ，包括ほうかつ代表だいひょう性的せいてき数すう据すえ集しゅう&基もと准じゅん模型もけい&语料库&排はい行ぎょう榜 github

169. 树洞 OCR 文字もじ识别 github

一いち个c++ OCR github

170. 从包含ほうがん表ひょう格かく的てき扫描图片中ちゅう识别表ひょう格和かくわ文字もじ github

171. 语声迁移 github

172. Python口こう语自然しぜん语言处理工具こうぐ集しゅう(英文えいぶん) github

173. similarity：相似そうじ度ど计算工具こうぐ包つつめ，java编写 github

用よう于词语、短たん语、句く子こ、词法分析ぶんせき、情感じょうかん分析ぶんせき、语义分析ぶんせき等とう相しょう关的相似そうじ度ど计算

174. 海うみ量りょう中ちゅう文ぶん预训练ALBERT模型もけい github

175. Transformers 2.0 github

支持しじTensorFlow 2.0 和わ PyTorch 的てき自然しぜん语言处理预训练语言げん模型もけい(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8种架构/33种预训练模型もけい/102种语言げん

176. 基もと于大规模音おん频数据すえ集しゅうAudioset的てき音おと频增强ぞうきょう github

177. Poplar：网页版ばん自然しぜん语言标注工具こうぐ github

178. 图片文字もじ去さ除じょ，可用かよう于漫画が翻こぼし译 github

179. 186种语言げん的てき数字すうじ叫さけべ法ほう库 github

180. Amazon发布基もと于知识的人じん-人ひと开放领域对话数すう据すえ集しゅう github

181. 中ちゅう文ぶん文ぶん本ほん纠错模も块代码 github

182. 繁しげる简体转换 github

183. Python实现的てき多た种文本ほん可か读性评价指ゆび标 github

184. 类似于人名めい/地名ちめい/组织机つくえ构名的てき命名めいめい体たい识别数すう据すえ集しゅう github

185. 东南大学だいがく《知ち识图谱》研究けんきゅう生せい课程(资料) github

186. 英文えいぶん拼写检查库 github

from spellchecker import SpellChecker

spell = SpellChecker()

# find those words that may be misspelled
misspelled = spell.unknown(['something', 'is', 'hapenning', 'here'])

for word in misspelled:
    # Get the one `most likely` answer
    print(spell.correction(word))

    # Get a list of `likely` options
    print(spell.candidates(word))

187. wwsearch是ぜ企くわだて业微信しん后きさき台だい自じ研とぎ的てき全文ぜんぶん检索引擎 github

188. CHAMELEON：深度しんど学がく习新闻推荐系统元架か构 github

189. 8篇へん论文梳くしけず理りBERT相しょう关模型がた进展与あずか反はん思おもえ github

190. DocSearch：免めん费文档搜索そうさく引擎 github

191. LIDA：轻量交互こうご式しき对话标注工具こうぐ github

192. aili - the fastest in-memory index in the East 东半球はんきゅう最さい快かい并发索引さくいん github

193. 知ち识图谱车音おん工作こうさく项目 github

194. 自然しぜん语言生成せいせい资源大全たいぜん github

内含ないがん英文えいぶん数すう据すえ、论文、代だい码

195. 中日ちゅうにち韩分词库mecab的てきPython接せっ口こう库 github

196. 中ちゅう文ぶん文ぶん本ほん摘要てきよう/关键词提取と github

197. 汉字字じ符ふ特とく征せい提ひっさげ取ど器うつわ (featurizer)，提ひっさげ取ど汉字的てき特とく征せい（发音特とく征せい、字形じけい特とく征せい）用よう做深度しんど学がく习的特とく征せい github

198. 中ちゅう文ぶん生成せいせい任にん务基准じゅん测评 github

199. 中ちゅう文ぶん缩写数すう据すえ集しゅう github

200. 中ちゅう文ぶん任にん务基准じゅん测评 - 代表だいひょう性的せいてき数すう据すえ集しゅう-基もと准じゅん(预训练)模型もけい-语料库-baseline-工具こうぐ包つつみ-排はい行ぎょう榜 github

201. PySS3：面めん向こう可か解かい释AI的てきSS3文ぶん本分ほんぶん类器机つくえ器き可か视化工具こうぐ github

202. 中ちゅう文ぶんNLP数すう据すえ集しゅう列れつ表ひょう github

203. COPE - 格かく律りつ诗编辑程序じょ github

204. doccano：基もと于网页的开源协同多た语言文げんぶん本ほん标注工具こうぐ github

205. PreNLP：自然しぜん语言预处理り库 github

206. 简单的てき简历解析かいせき器き，用よう来らい从简历中提ひっさげ取ど关键信しん息いき github

207. 用よう于中文ぶん闲聊的てきGPT2模型もけい：GPT2-chitchat github

208. 基もと于检索さく聊天机つくえ器き人じん多た轮响应选择相关资源げん列れつ表ひょう(Leaderboards、Datasets、Papers) github

209. (Colab)抽象ちゅうしょう文ぶん本ほん摘要てきよう实现集しゅう锦(教程きょうてい github

210. 词语拼音数すう据すえ github

211. 高こう效こう模糊もこ搜索そうさく工具こうぐ github

212. NLP数すう据すえ增ぞう广资源げん集しゅう github

213. 微ほろ软对话机器き人じん框かまち架か github

214. GitHub Typo Corpus：大だい规模GitHub多た语言拼写错误/语法错误数すう据すえ集しゅう github

215. TextCluster：短文たんぶん本ほん聚类预处理り模も块 Short text cluster github

216. 面めん向こう语音识别的中てきちゅう文ぶん文ぶん本ほん规范化か github

217. BLINK：最さい先さき进的实体链接库 github

218. BertPunc：基もと于BERT的てき最さい先さき进标点てん修おさむ复模型がた github

219. Tokenizer：快速かいそく、可か定じょう制せい的てき文ぶん本ほん词条化か库 github

220. 中ちゅう文ぶん语言理解りかい测评基もと准なぞらえ，包括ほうかつ代表だいひょう性的せいてき数すう据すえ集しゅう、基もと准じゅん(预训练)模型もけい、语料库、排はい行ぎょう榜 github

221. spaCy 医学いがく文ぶん本ほん挖掘与信よしん息いき提ひっさげ取ど github

222. NLP任にん务示例れい项目代だい码集 github

223. python拼写检查库 github

224. chatbot-list - 行あるき业内关于智能ちのう客きゃく服ふく、聊天机つくえ器き人的じんてき应用和わ架か构、算法さんぽう分ぶん享とおる和わ介かい绍 github

225. 语音质量评价指ゆび标(MOSNet, BSSEval, STOI, PESQ, SRMR) github

226. 用よう138GB语料训练的てき法文ほうぶんRoBERTa预训练语言げん模型もけい link

227. BERT-NER-Pytorch：三种不同模式的BERT中ちゅう文ぶんNER实验 github

228. 无道词典 - 有道ありみち词典的てき命令めいれい行ぎょう版本はんぽん，支持しじ英えい汉互查和在ざい线查询 github

229. 2019年ねんNLP亮あきら点てん回かい顾 download

提ひっさげ取ど码: yb6x

230. Chinese medical dialogue data 中ちゅう文ぶん医い疗对话数据すえ集しゅう github

231. 最さい好このみ的てき汉字数字すうじ(中ちゅう文ぶん数字すうじ)-阿おもね拉ひしげ伯はく数字すうじ转换工具こうぐ github

232. 基もと于百科知识库的中文词语多词义/义项获取与あずか特定とくてい句く子こ词语语义消しょう歧 github

233. awesome-nlp-sentiment-analysis - 情感じょうかん分析ぶんせき、情じょう绪原因げんいん识别、评价对象和わ评价词抽取 github

234. LineFlow：面めん向こう所有しょゆう深度しんど学がく习框架か的てきNLP数すう据すえ高だか效こう加か载器 github

235. 中ちゅう文ぶん医学いがくNLP公こう开资源げん整理せいり github

236. MedQuAD：(英文えいぶん)医学いがく问答数すう据すえ集しゅう github

237. 将はた自然しぜん语言数字すうじ串くし解析かいせき转换为整数すう和わ浮点数すう github

238. Transfer Learning in Natural Language Processing (NLP) youtube

239. 面めん向こう语音识别的中てきちゅう文ぶん/英文えいぶん发音辞典じてん github

240. Tokenizers：注ちゅう重じゅう性能せいのう与あずか多功たこう能のう性的せいてき最さい先さき进分词器 github

241. CLUENER 细粒度ど命名めいめい实体识别 Fine Grained Named Entity Recognition github

242. 基もと于BERT的中てきちゅう文ぶん命名めいめい实体识别 github

243. 中ちゅう文ぶん谣言数すう据すえ库 github

244. NLP数すう据すえ集しゅう/基もと准じゅん任にん务大列れつ表ひょう github

大だい多数たすう为英文えいぶん数すう据すえ

245. nlp相しょう关的一些论文及代码, 包括ほうかつ主ぬし题模型がた、词向量りょう(Word Embedding)、命名めいめい实体识别(NER)、文ぶん本分ほんぶん类(Text Classificatin)、文ぶん本ほん生成せいせい(Text Generation)、文ぶん本ほん相似そうじ性せい(Text Similarity)计算等とう，涉わたる及到各かく种与nlp相しょう关的算法さんぽう，基き于keras和わtensorflow github

246. Python文ぶん本ほん挖掘/NLP实战示しめせ例れい github

247. Blackstone：面めん向こう非ひ结构化か法律ほうりつ文ぶん本ほん的てきspaCy pipeline和わNLP模型もけい github

248. 通つう过同义词替がえ换实现文本ほん“变脸” github

249. 中ちゅう文ぶん预训练 ELECTREA 模型もけい: 基もと于对抗こう学がく习 pretrain Chinese Model github

250. albert-chinese-ner - 用よう预训练语言げん模型もけいALBERT做中文ぶんNER github

251. 基もと于GPT2的てき特定とくてい主ぬし题文本ほん生成せいせい/文ぶん本ほん增ぞう广 github

252. 开源预训练语言げん模型もけい合ごう集しゅう github

253. 多た语言句く向むこう量りょう包つつみ github

254. 编码、标记和わ实现：一种可控高效的文本生成方法 github

255. 英文えいぶん脏话大だい列れつ表ひょう github

256. attnvis：GPT2、BERT等とうtransformer语言模型もけい注意ちゅうい力りょく交互こうご可か视化 github

257. CoVoST：Facebook发布的てき多た语种语音-文ぶん本ほん翻こぼし译语料りょう库，包括ほうかつ11种语言ごと(法ほう语、德とく语、荷に兰语、俄にわか语、西にし班はん牙きば语、意い大利おおとし语、土ど耳みみ其语、波なみ斯语、瑞みず典てん语、蒙こうむ古こ语和中ちゅう文ぶん)的てき语音、文字もじ转录及英文えいぶん译文 github

258. Jiagu自然しぜん语言处理工具こうぐ - 以BiLSTM等とう模型もけい为基础，提供ていきょう知ち识图谱关系けい抽取中ちゅう文ぶん分ぶん词词性标注命名めいめい实体识别情感じょうかん分析ぶんせき新しん词发现关键词文ぶん本ほん摘要てきよう文ぶん本ほん聚类等とう功こう能のう github

259. 用ようunet实现对文档表格かく的てき自じ动检测，表ひょう格かく重じゅう建けん github

260. NLP事件じけん提ひっさげ取ど文献ぶんけん资源列れつ表ひょう github

261. 金融きんゆう领域自然しぜん语言处理研究けんきゅう资源大だい列れつ表ひょう github

262. CLUEDatasetSearch - 中ちゅう英文えいぶんNLP数すう据すえ集しゅう：搜索そうさく所有しょゆう中ちゅう文ぶんNLP数すう据すえ集しゅう，附ふ常用じょうよう英文えいぶんNLP数すう据すえ集しゅう github

263. medical_NER - 中ちゅう文ぶん医学いがく知ち识图谱命名めいめい实体识别 github

264. (哈佛)讲因果いんが推理すいり的てき免めん费书 pdf

265. 知ち识图谱相关学习资料りょう/数かず据すえ集しゅう/工具こうぐ资源大だい列れつ表ひょう github

266. Forte：灵活强大きょうだい的てき自然しぜん语言处理pipeline工具こうぐ集しゅう github

267. Python字じ符ふ串くし相似そうじ性せい算法さんぽう库 github

268. PyLaia：面めん向こう手写しゅしゃ文ぶん档分析ぶんせき的てき深度しんど学がく习工具ぐ包つつみ github

269. TextFooler：针对文ぶん本分ほんぶん类/推理すいり的てき对抗文ぶん本ほん生成せいせい模も块 github

270. Haystack：灵活、强大きょうだい的てき可か扩展问答(QA)框かまち架か github

271. 中ちゅう文ぶん关键短たん语抽取工具こうぐ github

272. pdf文ぶん档解析かいせき相しょう关工具ぐ包つつみ

pdf生成せいせい
- fdfgen: 能のう够自动创建けんpdf文ぶん档，并填写うつし信しん息いき
pdf表ひょう格かく解析かいせき
- pdftabextract: 用よう于OCR识别后きさき的てき表ひょう格かく信しん息いき解析かいせき，很强大だい
- tabula-py: 直接ちょくせつ将はたpdf中ちゅう的てき表ひょう格かく信しん息いき转换为pandas的てきdataframe，有ゆうjava和わpython两种版ばん本代ほんだい码
- pdfx: 自じ动抽取出とりで引用いんよう参考さんこう文献ぶんけん，并下载对应的pdf文ぶん件けん
- invoice2data: 发票pdf信しん息いき抽取
- camelot: pdf表ひょう格かく解析かいせき
- pdfplumber: pdf表ひょう格かく解析かいせき
- pdf文ぶん档信息いき抽取
pdf语义分割ぶんかつ
- PubLayNet:能のう够划分ぶん段落だんらく、识别表ひょう格かく、图片
pdf读取工具こうぐ
- PDFMiner：PDFMiner能のう获取页面中ちゅう文ぶん本ほん的てき准じゅん确位置いち，以及字体じたい或ある行くだり等とう其他信しん息いき。它还有ゆう一いち个PDF转换器き，可か以将PDF文ぶん件けん转换成なり其他文ぶん本格ほんかく式しき(如HTML)。还有一个可扩展的解析器PDF，可か以用于文本ほん分析ぶんせき以外いがい的てき其他用途ようと。
- PyPDF2：PyPDF 2是ぜ一いち个python PDF库，能のう够分割ぶんかつ、合ごう并、裁たっ剪和转换PDF文ぶん件けん的てき页面。它还可か以向PDF文ぶん件けん中ちゅう添加てんか自じ定てい义数据すえ、查看选项和かず密ひそか码。它可以从PDF检索文ぶん本ほん和わ元もと数すう据すえ，还可以将整せい个文件けん合あい并在一いち起おこり。
- ReportLab：ReportLab能のう快速かいそく创建PDF 文ぶん档。经过时间证明的てき、超ちょう好このみ用よう的てき开源项目，用よう于创建けん复杂的てき、数かず据すえ驱动的てきPDF文ぶん档和自じ定てい义矢量りょう图形。它是免めん费的，开源的てき，用ようPython编写的てき。该软件けん包つつみ每ごと月下げっか载5万まん多た次つぎ，是ぜ标准Linux发行版ばん的てき一いち部分ぶぶん，嵌入かんにゅう到いた许多产品中ちゅう，并被选中为Wikipedia的てき打だ印しるし/导出功こう能のう提供ていきょう动力。

273. 中ちゅう文ぶん词语相似そうじ度ど计算方法ほうほう gihtub

综合了りょう同どう义词词林扩展版ばん与あずか知ち网（Hownet）的てき词语相似そうじ度ど计算方法ほうほう，词汇覆盖更多た、结果更さら准じゅん确。

274. 人民じんみん日び报语料りょう库处理工りこう具ぐ集しゅう github

275. stanza:斯坦福ぶく团队NLP工具こうぐ github

可か处理六ろく十じゅう多た种语言げん

276. 一个大规模医疗对话数据集 github

包含ほうがん110万まん医学いがく咨询，400万条医患对话

277. 新冠にいかっぷ肺炎はいえん相しょう关数据すえ

新冠にいかっぷ及其他た类型肺炎はいえん中ちゅう文ぶん医い疗对话数据すえ集しゅう github
清きよし华大学がく等とう机つくえ构的开放数すう据すえ源げん（COVID-19）github

278. DGL-KE 图嵌入かんにゅう表示ひょうじ学がく习算法ほう github

279. nlp-recipes：微ほろ软出品しゅっぴん--自然しぜん语言处理最さい佳けい实践和わ范例 github

280. chinese_keyphrase_extractor (CKPE) - A tool for chinese keyphrase extraction 一个快速从自然语言文本中提取和识别关键短语的工具 github

281. 使用しようGAN生成せいせい表ひょう格かく数すう据すえ（仅支持しじ英文えいぶん） github

282. Google发布Taskmaster-2自然しぜん语言任にん务对话数据すえ集しゅう github

283. BDCI2019金融きんゆう负面信しん息いき判定はんてい github

284. 用よう神しん经网络符号ごう推理すいり求もとめ解かい复杂数学すうがく方かた程ほど github

285. 粤语/英えい语会话双语语料りょう库 github

286. 中ちゅう文ぶんELECTRA预训练模型がた github

287. 面めん向こう深度しんど学がく习研究けんきゅう人じん员的自然しぜん语言处理实例教程きょうてい github

288. Parakeet：基もと于PaddlePaddle的てき文ぶん本ほん-语音合成ごうせい github

289. 103976个英语单词库（sql版ばん，csv版ばん，Excel版ばん）包つつみ github

290. 《海うみ贼王》知ち识图谱 github

291. 法ほう务智能ちのう文献ぶんけん资源列れつ表ひょう github

292. Datasaur.ai 在ざい线数据すえ标注工作こうさく流りゅう管理かんり工具こうぐ link

293. (Java)准じゅん确的语音自然しぜん语言检测库 github

294. 面めん向こう各かく语种/任にん务的BERT模型もけい大だい列れつ表ひょう/搜索そうさく引擎 link

295. CoVoST：Facebook发布的てき多た语种语音-文ぶん本ほん翻こぼし译语料りょう库 github

296. 基もと于预训练模型もけい的中てきちゅう文ぶん关键词抽取方法ほうほう github

297. Fancy-NLP:用よう于建设商品しょうひん画像がぞう的てき文ぶん本ほん知ち识挖掘工具こうぐ github

298. 基もと于百ひゃく度どwebqa与あずかdureader数すう据すえ集しゅう训练的てきAlbert Large QA模型もけい github

299. BERT/CRF实现的てき命名めいめい实体识别 github

300. ssc, Sound Shape Code, 音おと形がた码 - 基もと于“音おと形がた码”的中てきちゅう文字もじ符ふ串くし相似そうじ度ど计算方法ほうほう

301. 中ちゅう文ぶん指ゆび代だい消しょう解かい数すう据すえ github

baidu ink code: a0qq

302. 全面ぜんめん简便的中てきちゅう文ぶん NLP 工具こうぐ包つつみ github

303. 中ちゅう文ぶん地ち址し分ぶん词（地ち址し元素げんそ识别与抽取），通つう过序列じょれつ标注进行NER github

304. 用ようTransformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)预测下か一いち个词(模型もけい比ひ较) github

305. 文ぶん本ほん机つくえ器き学がく习模型がた最さい先さき进解释器库 github

306. 多た文ぶん档摘要てきよう数すう据すえ集しゅう github

307. 用よう记事本ほん渲染3D图像 github

308. char_featurizer - 汉字字じ符ふ特とく征せい提ひっさげ取ど工具こうぐ github

309. SimBERT - 基もと于UniLM思想しそう、融とおる检索与あずか生成せいせい于一体いったい的てきBERT模型もけい github

310. Python音おん频特征せい提ひっさげ取ど包つつみ github

311. TensorFlow 2 实现的てき文ぶん本ほん语音合成ごうせい github

312. 情感じょうかん分析ぶんせき技わざ术：让智能ちのう客きゃく服ふく更さら懂人类情感かん github

313. TensorFlow Hub最新さいしん发布40+种语言げん的てき新しん语言模型もけい(包括ほうかつ中ちゅう文ぶん) link

314. 汉字字じ符ふ特とく征せい提ひっさげ取ど器うつわ (featurizer)，提ひっさげ取ど汉字的てき特とく征せい（发音特とく征せい、字形じけい特とく征せい）用よう做深度しんど学がく习的特とく征せい github

315. 工こう业界常用じょうよう基もと于DSSM向むこう量りょう化か召回pipeline复现 github

316. 不ふ存在そんざい的てき词：用ようGPT-2变体从头生成せいせい新しん词及其定义、例れい句く github

317. TextAttack：自然しぜん语言处理模型もけい对抗性せい攻おさむ击框架か github

318. 仇かたき恨言论检测进展てん link

319. OPUS-100：以英文えいぶん为中心ちゅうしん的てき多た语(100种)平行へいこう语料 github

320. 从论文中ぶんちゅう提ひっさげ取ど表おもて格かく数すう据すえ github

321. 让人人じん都と变得“彬あきら彬あきら有礼ありのり”：礼れい貌迁移うつり任にん务——在ざい保ほ留意りゅうい义的同どう时将非礼ひれい貌语句く转换为礼貌语句く，提供ていきょう包含ほうがん1.39M + 实例的てき数すう据すえ集しゅう paper and code

322. 用ようBERT在ざい表ひょう格かく中ちゅう寻找答案とうあん github

323. PyTorch实现的てきBERT事件じけん抽取(ACE 2005 corpus) github

324. 表ひょう格かく问答的てき系列けいれつ文章ぶんしょう

325. LibKGE：面めん向こう可か复现研究けんきゅう的てき知ち识图谱嵌入かんにゅう库 github

326. comparxiv :用よう于比较arXiv上じょう两提交版本はんぽん差さ异的命令めいれい pypi

327. ViSQOL：音おと频质量りょう感知かんち客きゃく观、完かん整せい参考さんこう指ゆび标，分ふん音おん频、语音两种模も式しき github

328. 方面ほうめん情感じょうかん分析ぶんせき包つつみ github

329. dstlr：非ひ结构化か文ぶん本ほん可か扩展知ち识图谱构建けん平台ひらだい github

330. 由よし文ぶん本ほん自じ动生成せいせい多た项选择题 github

331. 大だい规模跨またが领域中ちゅう文ぶん任にん务导向こう多た轮对话数据すえ集しゅう及模型がたCrossWOZ paper & data

332. whatlies：词向量りょう交互こうご可か视化 spacy 工具こうぐ

333. 支持しじ批并行ぎょう的てきLatticeLSTM中ちゅう文ぶん命名めいめい实体识别 github

334. 基もと于Albert、Electra，用よう维基百科文本作为上下文的问答引擎 github

335. Deepmatch：针对推荐、广告和わ搜索そうさく的てき深度しんど匹ひき配はい模型もけい库 github

336. 语音工こう具合ぐあい集しゅう

zhrtvc 好こう用よう的中てきちゅう文ぶん语音克かつ隆兼たかかね中ちゅう文ぶん语音合成ごうせい系けい统 github
aukit 好こう用よう的てき语音处理工具こうぐ箱ばこ，包含ほうがん语音降くだ噪、音おと频格式しき转换、特とく征せい频谱生成せいせい等とう模も块 github
phkit 好こう用よう的てき音素おんそ处理工具こうぐ箱ばこ，包含ほうがん中ちゅう文ぶん音素おんそ、英文えいぶん音素おんそ、文ぶん本ほん转拼音おん、文ぶん本ほん正せい则化等とう模も块 github
zhvoice 中ちゅう文ぶん语音语料，语音更おとふけ加か清しん晰自然しぜん，包含ほうがん8个开源げん数すう据すえ集しゅう，3200个说话人，900小しょう时语音おん，1300万まん字じ github

337. 多た音字おんじ词典数すう据すえ及代码 github

338. audio：面めん向こう语音行ぎょう为检测、二に值化、说话人じん识别、自じ动语音おん识别、情感じょうかん识别等とう任にん务的音おん频标注ちゅう工具こうぐ github

339. 大だい规模、结构化か、中ちゅう英文えいぶん双そう语的新冠にいかっぷ知とも识图谱(COKG-19) link

COKG-19包含ほうがん了りょう505个概念がいねん、393个属性せい、26282个实例れい和わ32352个知识三さん元げん组，覆くつがえ盖了医い疗、健康けんこう、物もの资、防ぼう控ひかえ、科か研けん和かず人物じんぶつ等とう

340. 132个知识图谱的数すう据すえ集しゅう link

涵盖常つね识、城市じょうし、金融きんゆう、农业、地理ちり、气象、社交しゃこう、物もの联网、医い疗、娱乐、生活せいかつ、商しょう业、出いで行ゆき、科か教きょう

341. 42GB的てきJD客きゃく服ふく对话数すう据すえ(CSDD) github

12亿句子こ训练得え到いた的てきword embedding

342. 合成ごうせい数すう据すえ生成せいせい基もと准じゅん github

343. 汉字、词语、成なり语查询接口こう github

344. 中ちゅう文ぶん问题句く子こ相似そうじ度ど计算比ひ赛及方案ほうあん汇总 github

345. Texthero：文ぶん本数ほんすう据すえ高だか效こう处理包つつめ，包括ほうかつ预处理り、关键词提取と、命名めいめい实体识别、向むこう量りょう空そら间分析ぶんせき、文ぶん本ほん可か视化等とう github

346. SIMPdf：Python写うつし的てき简单PDF文ぶん件けん文字もじ编辑器き github

347. 《配色はいしょく辞典じてん》数すう据すえ集しゅう github

348. carefree-learn：(PyTorch)表おもて格かく数すう据すえ集しゅう自じ动化机つくえ器き学がく习(AutoML)包つつみ github

349. token2index：与あずかPyTorch/Tensorflow兼けん容よう的てき强大きょうだい轻量词条索引さくいん库 github

350. 开源对话式しき信しん息いき搜索そうさく平台ひらだい github

351. 对联数すう据すえ github

700,000 couplets, 超ちょう过70万まん对对联
百ひゃく度ど云うん盘：链接密みつ码:egpt

352. 基もと于Pytorch的てきBert应用，包括ほうかつ命名めいめい实体识别、情感じょうかん分析ぶんせき、文ぶん本分ほんぶん类以及文本ほん相似そうじ度ど等とう github

353. TaBERT：理解りかい表ひょう格かく数すう据すえ查询的てき新しん模型もけい paper

354. Dakshina数すう据すえ集しゅう：十じゅう二种南亚语言的拉丁/本地ほんじ文字もじ平行へいこう数すう据すえ集合しゅうごう github

355. NLP标注平台ひらだい综述 github

356. 封ふう闭域微ほろ调表格かく检测 github

357. 深度しんど学がく习情感かん文ぶん本ほん语音合成ごうせい github

358. 中ちゅう文ぶん写うつし作さく校こう对工具ぐ github

359. 用ようQuora问题对训练的T5问题意い译(Paraphrase) github

360. 情じょう境さかい互动多た模も态对话挑战2020(DSTC9 2020) github

361. nlpgnn：图神经网络自然しぜん语言处理工具こうぐ箱ばこ github

362. Macadam：以Tensorflow(Keras)和かずbert4keras为基础，专注于文本分ほんぶん类、序列じょれつ标注和わ关系抽取的てき自然しぜん语言处理工具こうぐ包つつみ github

363. 用よう新版しんぱんnlp库加载17GB+英文えいぶん维基语料只ただ占うらない用よう9MB内ない存そん遍へん历速度そくど2-3 Gbit/s github

Name		Name	Last commit message	Last commit date
Latest commit History 123 Commits
.github		.github
data		data
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

The Most Powerful NLP-Weapon Arsenal

NLP民みん工こう的てき乐园: 几乎最さい全ぜん的中てきちゅう文ぶんNLP资源库

About

Releases

Packages

Languages

Leeasina/funNLP

Folders and files

Latest commit

History

Repository files navigation

The Most Powerful NLP-Weapon Arsenal

NLP民みん工こう的てき乐园: 几乎最さい全ぜん的中てきちゅう文ぶんNLP资源库

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages