(Translated by https://www.hiragana.jp/)
GitHub - Leeasina/funNLP: 中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码正则匹配、清华大学XLORE:中英文跨语言百科知识图谱、清华大学人工智能技术系列报告、自然语言生成、NLU太难了系列、自动对联数据及机器人、用户名黑名单列表、罪名法务名词及分类模型、微信公众号语料、cs224n深度学习自然语言处理课程、中文手写汉字识别、中文自然语言处理 语料/数据集、变量命名神器、分词语料库+代码、任务型对话英文数据集、ASR 语音数据集 + 基于深度学习的中文语音识别系统、笑声检测器、Microsoft多语言数字/单位/如日期时间识别包、中华新华字典数据库及api(包括常用歇后语、成语、词语和汉字)、文档图谱自动生成、SpaCy 中文模型、Common Voice语音识别数据集新版、神经网络关系抽取、基于bert的命名实体识别、关键词(Keyphrase)抽取包pke、基于医疗领域知识图谱的问答系统、基于依存句法与语义角色标注的事件三元组抽取、依存句法分析4万句高质量标注数据、cnocr:用来做中文OCR的Python3包、中文人物关系知识图谱项目、中文nlp竞赛项目及代码汇总、中文字符数据、speech-aligner: 从“人声语音”及其“语言文本”产生音素级别时间对齐标注的工具、AmpliGraph: 知识图谱表示学习(Python)库:知识图谱概念链接预测、Scattertext 文本可视化(python)、语言/知识表示工具:BERT & ERNIE、中文对比英文自然语言处理NLP的区别综述、Synonyms中文近义词工具包、HarvestText领域自适应文本挖掘工具(新词发现-情感分析-实体链接等)、word2word:(Python)方便易用的多语言词-词对集:62种语言/3,564个多语言对、语音识别语料生成工具:从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库、构建医疗实体识别的模型(包含词典和语料标注)、单文档非监督的关键词抽取、Kashgari中使用gpt-2语言模型、开源的金融投资数据提取工具、文本自动摘要库TextTeaser: 仅支持英文、人民日报语料处理工具集、一些关于自然语言的基本模型、基于14W歌曲知识库的问答尝试--功能包括歌词接龙and已知歌词找歌曲以及歌曲歌手歌词三角关系的问答、基于Siamese bilstm模型的相似句子判定模型并提供训练数据集和测试数据集、用Transformer编解码模型实现的根据Hacker News文章标题自动生成评论、用BERT进行序列标记和文本分类的模板代码、LitBank:NLP数据集——支持自然语言处理和计算人文学科任务的100部带标记英文小说语料、百度开源的基准信息抽取系统、虚假新闻数据集、Facebook: LAMA语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口、CommonsenseQA:面向常识的英文QA挑战、中文知识图谱资料、数据及工具、各大公司内部里大牛分享的技术文档 PDF 或者 PPT、自然语言生成SQL语句(英文)、中文NLP数据增强(EDA)工具、英文NLP数据增强工具 、基于医药知识图谱的智能问答系统、京东商品知识图谱、基于mongodb存储的军事领域知识图谱问答项目、基于远监督的中文关系抽取、语音情感分析、中文ULMFiT-情感分析-文本分类-语料及模型、一个拍照做题程序、世界各国大规模人名库、一个利用有趣中文语料库 qingyun 训练出来的中文聊天机器人、中文聊天机器人seqGAN、省市区镇行政区划数据带拼音标注、教育行业新闻语料库包含自动文摘功能、开放了对话机器人-知识图谱-语义理解-自然语言处理工具及数据、中文知识图谱:基于百度百科中文页面-抽取三元组信息-构建中文知识图谱、masr: 中文语音识别-提供预训练模型-高识别率、Python音频数据增广库、中文全词覆盖BERT及两份阅读理解数据、ConvLab:开源多域端到端对话系统平台、中文自然语言处理数据集、基于最新版本rasa搭建的对话系统、基于TensorFlow和BERT的管道式实体及关系抽取、一个小型的证券知识图谱/知识库、复盘所有NLP比赛的TOP方案、OpenCLaP:多领域开源中文预训练语言模型仓库、UER:基于不同语料+编码器+目标任务的中文预训练模型仓库、中文自然语言处理向量合集、基于金融-司法领域(兼有闲聊性质)的聊天机器人、g2pC:基于上下文的汉语读音自动标记模块、Zincbase 知识图谱构建工具包、诗歌质量评价/细粒度情感诗歌语料库、快速转化「中文数字」和「阿拉伯数字」、百度知道问答语料库、基于知识图谱的问答系统、jieba_fast 加速版的jieba、正则表达式教程、中文阅读理解数据集、基于BERT等最新语言模型的抽取式摘要提取、Python利用深度学习进行文本摘要的综合指南、知识图谱深度学习相关资料整理、维基大规模平行文本语料、StanfordNLP 0.2.0:纯Python版自然语言处理包、NeuralNLP-NeuralClassifier:腾讯开源深度学习文本分类工具、端到端的封闭域对话系统、中文命名实体识别:NeuroNER vs. BertNER、新闻事件线索抽取、2019年百度的三元组抽取比赛:“科学空间队”源码、基于依存句法的开放域文本知识三元组抽取和知识库构建、中文的GPT2训练代码、ML-NLP - 机器学习(Machine Learning)NLP面试中常考到的知识点和代码实现、nlp4han:中文自然语言处理工具集(断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检查、XLM:Facebook的跨语言预训练语言模型、用基于BERT的微调和特征提取方法来进行知识图谱百度百科人物词条属性抽取、中文自然语言处理相关的开放任务-数据集-当前最佳结果、CoupletAI - 基于CNN+Bi-LSTM+Attention 的自动对对联系统、抽象知识图谱、MiningZhiDaoQACorpus - 580万百度知道问答数据挖掘项目、brat rapid annotation tool: 序列标注工具、大规模中文知识图谱数据:1.4亿实体、数据增强在机器翻译及其他nlp任务中的应用及效果、allennlp阅读理解:支持多种数据和模型、PDF表格数据提取工具 、 Graphbrain:AI开源软件库和科研工具,目的是促进自动意义提取和文本理解以及知识的探索和推断、简历自动筛选系统、基于命名实体识别的简历自动摘要、中文语言理解测评基准,包括代表性的数据集&基准模型&语料库&排行榜、树洞 OCR 文字识别 、从包含表格的扫描图片中识别表格和文字、语声迁移、Python口语自然语言处理工具集(英文)、 similarity:相似度计算工具包,java编写、海量中文预训练ALBERT模型 、Transformers 2.0 、基于大规模音频数据集Audioset的音频增强 、Poplar:网页版自然语言标注工具、图片文字去除,可用于漫画翻译 、186种语言的数字叫法库、Amazon发布基于知识的人-人开放领域对话数据集 、中文文本纠错模块代码、繁简体转换 、 Python实现的多种文本可读性评价指标、类似于人名/地名/组织机构名的命名体识别数据集 、东南大学《知识图谱》研究生课程(资料)、. 英文拼写检查库 、 wwsearch是企业微信后台自研的全文检索引擎、CHAMELEON:深度学习新闻推荐系统元架构 、 8篇论文梳理BERT相关模型进展与反思、DocSearch:免费文档搜索引擎、 LIDA:轻量交互式对话标注工具 、aili - the fastest in-memory index in the East 东半球最快并发索引 、知识图谱车音工作项目、自然语言生成资源大全 、中日韩分词库mecab的Python接口库、中文文本摘要/关键词提取、汉字字符特征提取器 (featurizer),提取汉字的特征(发音特征、字形特征)用做深度学习的特征、中文生成任务基准测评 、中文缩写数据集、中文任务基准测评 - 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜、PySS3:面向可解释AI的SS3文本分类器机器可视化工具 、中文NLP数据集列表、COPE - 格律诗编辑程序、doccano:基于网页的开源协同多语言文本标注工具 、PreNLP:自然语言预处理库、简单的简历解析器,用来从简历中提取关键信息、用于中文闲聊的GPT2模型:GPT2-chitchat、基于检索聊天机器人多轮响应选择相关资源列表(Leaderboards、Datasets、Papers)、(Colab)抽象文本摘要实现集锦(教程 、词语拼音数据、高效模糊搜索工具、NLP数据增广资源集、微软对话机器人框架 、 GitHub Typo Corpus:大规模GitHub多语言拼写错误/语法错误数据集、TextCluster:短文本聚类预处理模块 Short text cluster、面向语音识别的中文文本规范化、BLINK:最先进的实体链接库、BertPunc:基于BERT的最先进标点修复模型、Tokenizer:快速、可定制的文本词条化库、中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜、spaCy 医学文本挖掘与信息提取 、 NLP任务示例项目代码集、 python拼写检查库、chatbot-list - 行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍、语音质量评价指标(MOSNet, BSSEval, STOI, PESQ, SRMR)、 用138GB语料训练的法文RoBERTa预训练语言模型 、BERT-NER-Pytorch:三种不同模式的BERT中文NER实验、无道词典 - 有道词典的命令行版本,支持英汉互查和在线查询、2019年NLP亮点回顾、 Chinese medical dialogue data 中文医疗对话数据集 、最好的汉字数字(中文数字)-阿拉伯数字转换工具、 基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧、awesome-nlp-sentiment-analysis - 情感分析、情绪原因识别、评价对象和评价词抽取、LineFlow:面向所有深度学习框架的NLP数据高效加载器、中文医学NLP公开资源整理 、MedQuAD:(英文)医学问答数据集、将自然语言数字串解析转换为整数和浮点数、Transfer Learning in Natural Language Processing (NLP) 、面向语音识别的中文/英文发音辞典、Tokenizers:注重性能与多功能性的最先进分词器、CLUENER 细粒度命名实体识别 Fine Grained Named Entity Recognition、 基于BERT的中文命名实体识别、中文谣言数据库、NLP数据集/基准任务大列表、nlp相关的一些论文及代码, 包括主题模型、词向量(Word Embedding)、命名实体识别(NER)、文本分类(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)计算等,涉及到各种与nlp相关的算法,基于keras和tensorflow 、Python文本挖掘/NLP实战示例、 Blackstone:面向非结构化法律文本的spaCy pipeline和NLP模型通过同义词替换实现文本“变脸” 、中文 预训练 ELECTREA 模型: 基于对抗学习 pretrain Chinese Model 、albert-chinese-ner - 用预训练语言模型ALBERT做中文NER 、基于GPT2的特定主题文本生成/文本增广、开源预训练语言模型合集、多语言句向量包、编码、标记和实现:一种可控高效的文本生成方法、 英文脏话大列表 、attnvis:GPT2、BERT等transformer语言模型注意力交互可视化、CoVoST:Facebook发布的多语种语音-文本翻译语料库,包括11种语言(法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文)的语音、文字转录及英文译文、Jiagu自然语言处理工具 - 以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能、用unet实现对文档表格的自动检测,表格重建、NLP事件提取文献资源列表 、 金融领域自然语言处理研究资源大列表、CLUEDatasetSearch - 中英文NLP数据集:搜索所有中文NLP数据集,附常用英文NLP数据集 、medical_NER - 中文医学知识图谱命名实体识别 、(哈佛)讲因果推理的免费书、知识图谱相关学习资料/数据集/工具资源大列表、Forte:灵活强大的自然语言处理pipeline工具集 、Python字符串相似性算法库、PyLaia:面向手写文档分析的深度学习工具包、TextFooler:针对文本分类/推理的对抗文本生成模块、Haystack:灵活、强大的可扩展问答(QA)框架、中文关键短语抽取工具
Skip to content

ちゅう英文えいぶん敏感びんかん词、语言检测、中外ちゅうがいしゅつくえ/电话归属/运营しょう查询、名字みょうじ推断すいだんせい别、つくえごう抽取、份证抽取、邮箱抽取、中日ちゅうにち文人ぶんじんめい库、ちゅうぶん缩写库、拆字词典、词汇情感じょうかん值、とまよう词、はん动词ひょう、暴恐词表、しげる简体转换、英文えいぶん拟中ぶん发音、ひろしほう生成せいせい、职业名称めいしょう词库、どう义词库、はん义词库、否定ひてい词库、汽车ひんぱい词库、汽车れいけん词库、连续英文えいぶんきりわりかく种中ぶん词向りょう公司こうし名字みょうじ大全たいぜん诗词库、IT词库、财经词库、なり语词库、地名ちめい词库、历史名人めいじん词库、诗词词库、医学いがく词库、饮食词库、法律ほうりつ词库、汽车词库、动物词库、ちゅうぶん聊天语料、ちゅうぶん谣言すうすえ、百度中文问答数据集、相似そうじひきはい算法さんぽう集合しゅうごう、bert资源、ぶんほん生成せいせい&摘要てきようしょう关工、cocoNLPしんいき抽取工具こうぐ国内こくない电话ごう码正则匹はいきよし华大がくXLORE:ちゅう英文えいぶんまたが语言百科知识图谱、きよし华大がく人工じんこう智能ちのうわざ术…

Notifications You must be signed in to change notification settings

Leeasina/funNLP

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 

Repository files navigation


NLPみんこうてき乐园

The Most Powerful NLP-Weapon Arsenal

NLPみんこうてき乐园: 几乎さいぜん的中てきちゅうぶんNLP资源库

  • 词库
  • 工具こうぐつつみ
  • がく习资りょう

ざいいれ门到じゅく悉NLPてき过程ちゅうもちいいたりょう很多githubじょうてきつつみとげ整理せいりりょういちふんとおるざい这里。

很多つつみ非常ひじょうゆうおもむき,值得收藏しゅうぞう,满足大家たいかてき收集しゅうしゅうへき! 如果觉得有用ゆうよう,请分とおる并star,谢谢!

长期不定ふてい更新こうしん,欢迎watchfork!

わたる内容ないよう包括ほうかつただしきり于:ちゅう英文えいぶん敏感びんかん词、语言检测、中外ちゅうがいしゅつくえ/电话归属/运营しょう查询、名字みょうじ推断すいだんせい别、つくえごう抽取、份证抽取、邮箱抽取、中日ちゅうにち文人ぶんじんめい库、ちゅうぶん缩写库、拆字词典、词汇情感じょうかん值、とまよう词、はん动词ひょう、暴恐词表、しげる简体转换、英文えいぶん拟中ぶん发音、ひろしほう生成せいせい、职业名称めいしょう词库、どう义词库、はん义词库、否定ひてい词库、汽车ひんぱい词库、汽车れいけん词库、连续英文えいぶんきりわりかく种中ぶん词向りょう公司こうし名字みょうじ大全たいぜん诗词库、IT词库、财经词库、なり语词库、地名ちめい词库、历史名人めいじん词库、诗词词库、医学いがく词库、饮食词库、法律ほうりつ词库、汽车词库、动物词库、ちゅうぶん聊天语料、ちゅうぶん谣言すうすえ、百度中文问答数据集、相似そうじひきはい算法さんぽう集合しゅうごう、bert资源、ぶんほん生成せいせい&摘要てきようしょう关工、cocoNLPしんいき抽取工具こうぐ国内こくない电话ごう码正则匹はいきよし华大がくXLORE:ちゅう英文えいぶんまたが语言百科知识图谱、きよし华大がく人工じんこう智能ちのうわざ系列けいれつ报告、自然しぜん语言生成せいせい、NLUふとし难了系列けいれつ动对联数すえ及机じんよう户名くろめい单列ひょう罪名ざいめいほう务名词及ぶん类模がたほろしんこう众号语料、cs224n深度しんどがく自然しぜん语言处理课程、ちゅうぶん手写しゅしゃ汉字识别、ちゅうぶん自然しぜん语言处理 语料/かずすえしゅう、变量命名めいめい神器じんぎぶん词语りょう库+だい码、にん务型对话英文えいぶんすうすえしゅう、ASR 语音すうすえしゅう + もと深度しんどがく习的ちゅうぶん语音识别けい统、笑声しょうせい检测、Microsoft语言数字すうじ/单位/如日时间识别つつめちゅう华新华字典じてんすうすえ库及api(包括ほうかつ常用じょうよう歇后语、なり语、词语汉字)、ぶん档图谱自动生成せいせい、SpaCy ちゅうぶん模型もけい、Common Voice语音识别すうすえしゅう新版しんぱんかみ经网络关けい抽取、もと于bertてき命名めいめい实体识别、关键词(Keyphrase)抽取つつみpke、もと于医疗领いき识图谱的问答けい统、もと依存いぞん句法くほうあずか语义かくしょく标注てき事件じけんさんげん组抽取、依存いぞん句法くほう分析ぶんせき4万句高质量标注数据、cnocr:もちいらい做中ぶんOCRてきPython3つつみちゅう文人ぶんじんぶつ关系识图谱项ちゅうぶんnlp竞赛项目及代码汇总、ちゅう文字もじすうすえ、speech-aligner: 从“人声ひとごえ语音”及其“语言文げんぶんほん”产生音素おんそ级别时间对齐标注てき工具こうぐ、AmpliGraph: 识图谱表示ひょうじがく习(Python)库:识图谱概念がいねん链接预测、Scattertext ぶんほん视化(python)、语言/表示ひょうじ工具こうぐ:BERT & ERNIE、ちゅうぶん对比英文えいぶん自然しぜん语言处理NLPてき别综じゅつ、Synonymsちゅうぶんきん义词工具こうぐつつめ、HarvestText领域适应ぶんほん挖掘工具こうぐしん词发现-情感じょうかん分析ぶんせき-实体链接とう)、word2word:(Python)方便ほうべんえきようてき语言词-词对しゅう:62种语ごと/3,564个多语言对、语音识别语料生成せいせい工具こうぐ:从具有ぐゆうおん频/字幕じまくてきざい线视频创けん动语おん识别(ASR)语料库、构建疗实たい识别てき模型もけい包含ほうがん词典语料标注)、单文档非监督てき关键词抽取、Kashgariちゅう使用しようgpt-2语言模型もけい、开源てき金融きんゆうとう资数すえひっさげ工具こうぐぶんほん摘要てきよう库TextTeaser: 仅支持しじ英文えいぶん人民じんみん报语りょう处理工具こうぐしゅう、一些关于自然语言的基本模型、もと于14W歌曲かきょく识库てき问答尝试--こうのう包括ほうかつ词接龙andやめ词找歌曲かきょく以及歌曲かきょく歌手かしゅさんかく关系てき问答、もと于Siamese bilstm模型もけいてき相似そうじ判定はんてい模型もけい提供ていきょう训练すうすえしゅう测试すうすえしゅうようTransformer编解码模がた实现てきすえHacker News文章ぶんしょう标题生成せいせい评论、ようBERT进行序列じょれつ标记和文わぶん本分ほんぶん类的いただい码、LitBank:NLPすうすえしゅう——支持しじ自然しぜん语言处理计算人文じんぶん学科がっかにん务的100带标记英文えいぶんしょう说语りょう、百度开源的基准信息抽取系统、虚假こけしん闻数すえしゅう、Facebook: LAMA语言模型もけい分析ぶんせき提供ていきょうTransformer-XL/BERT/ELMo/GPT预训练语げん模型もけいてき统一访问せっこう、CommonsenseQA:めんこうつね识的英文えいぶんQA挑战、ちゅうぶん识图谱资りょうかずすえ及工かくだい公司こうし内部ないぶさと大牛おおうしぶんとおるてきわざ术文档 PDF あるもの PPT、自然しぜん语言生成せいせいSQL语句(英文えいぶん)、ちゅうぶんNLPすうすえ增强ぞうきょう(EDA)工具こうぐ英文えいぶんNLPすうすえ增强ぞうきょう工具こうぐもと于医药知识图谱的智能ちのう问答けい统、きょう商品しょうひん识图谱、もと于mongodbそん储的军事领域识图谱问こたえ项目、もと于远监督的中てきちゅうぶん关系抽取、语音情感じょうかん分析ぶんせきちゅうぶんULMFiT-情感じょうかん分析ぶんせき-ぶん本分ほんぶん类-语料及模がた、一个拍照做题程序、世界せかい各国かっこくだい规模人名じんめい库、一个利用有趣中文语料库 qingyun 训练出来でき的中てきちゅうぶん聊天つくえじんちゅうぶん聊天つくえじんseqGAN、しょう市区しく行政ぎょうせい划数すえ带拼おん标注、教育きょういくぎょう业新闻语りょう库包含自动文摘功のう、开放りょう对话つくえじん-识图谱-语义理解りかい-自然しぜん语言处理工具こうぐ及数すえちゅうぶん识图谱:もとひゃく百科ひゃっかちゅうぶん页面-抽取さんげん组信いき-构建ちゅうぶん识图谱、masr: ちゅうぶん语音识别-提供ていきょう预训练模がた-こう识别りつ、Pythonおん频数すえぞう广库、ちゅうぶんぜん词覆盖BERT及两份阅读理解りかいすうすえ、ConvLab:开源いきはしいたはし对话けい统平だいちゅうぶん自然しぜん语言处理すうすえしゅうもと于最しん版本はんぽんrasa搭建てき对话けい统、もと于TensorFlowBERTてきかんどうしき实体及关けい抽取、一个小型的证券知识图谱/识库、复盘所有しょゆうNLP赛的TOP方案ほうあん、OpenCLaP:领域开源ちゅうぶん预训练语げん模型もけい仓库、UER:もと于不どう语料+编码+标任务的ちゅうぶん预训练模がた仓库、ちゅうぶん自然しぜん语言处理むこうりょうごうしゅうもと金融きんゆう-司法しほう领域(兼有けんゆう闲聊せい质)てき聊天つくえじん、g2pC:もと上下じょうげぶんてき汉语读音动标记模块、Zincbase 识图谱构けん工具こうぐつつめ、诗歌质量评价/细粒情感じょうかん诗歌语料库、快速かいそく转化「ちゅうぶん数字すうじかずおもねひしげはく数字すうじ」、百度知道问答语料库、もと于知识图谱的问答けい统、jieba_fast 加速かそくばんてきjieba、せい则表达式教程きょうていちゅうぶん阅读理解りかいすうすえしゅうもと于BERTとう最新さいしん语言模型もけいてき抽取しき摘要てきようひっさげ、Python利用りよう深度しんどがく习进行文こうぶんほん摘要てきようてき综合指南しなん识图谱深度しんどがく习相关资りょう整理せいり、维基だい规模平行へいこうぶんほん语料、StanfordNLP 0.2.0:纯Pythonばん自然しぜん语言处理つつめ、NeuralNLP-NeuralClassifier:腾讯开源深度しんどがく习文本分ほんぶん类工はしいたはしてきふう闭域对话けい统、ちゅうぶん命名めいめい实体识别:NeuroNER vs. BertNER、しん事件じけん线索抽取、2019ねん百度的三元组抽取比赛:“科学かがくそら间队”みなもと码、もと依存いぞん句法くほうてき开放いきぶんほん识三元组抽取和知识库构建、ちゅうぶんてきGPT2训练だい码、ML-NLP - つくえがく习(Machine Learning)NLPめん试中つねかんがえいたてき识点和代かずよ码实现、nlp4han:ちゅうぶん自然しぜん语言处理工具こうぐしゅう(だん/ぶん词/词性标注/组块/句法くほう分析ぶんせき/语义分析ぶんせき/NER/Nもと语法/HMM/だい词消かい/情感じょうかん分析ぶんせき/拼写检查、XLM:Facebookてきまたが语言预训练语げん模型もけいようもと于BERTてきほろ调和とくせいひっさげ方法ほうほうらい进行识图谱百度百科人物词条属性抽取、ちゅうぶん自然しぜん语言处理しょう关的开放任ほうにん务-かずすえしゅう-とうぜんさいけい结果、CoupletAI - もと于CNN+Bi-LSTM+Attention てき动对对联けい统、抽象ちゅうしょう识图谱、MiningZhiDaoQACorpus - 580まん百度知道问答数据挖掘项目、brat rapid annotation tool: 序列じょれつ标注工具こうぐだい规模ちゅうぶん识图谱数すえ:1.4亿实たいかずすえ增强ぞうきょうざいつくえこぼし译及其他nlpにん务中てき应用及效果こうか、allennlp阅读理解りかい:支持しじ种数すえ模型もけい、PDFひょうかくすうすえひっさげ工具こうぐ 、 Graphbrain:AI开源软件库和けん工具こうぐ目的もくてき促进动意义提和文わぶんほん理解りかい以及识的探索たんさく推断すいだん、简历动筛选系统、もと命名めいめい实体识别てき简历摘要てきようちゅうぶん语言理解りかい测评もとなぞらえ包括ほうかつ代表だいひょう性的せいてきすうすえしゅう&もとじゅん模型もけい&语料库&はいぎょう榜、树洞 OCR 文字もじ识别 、从包含ほうがんひょうかくてき扫描图片ちゅう识别ひょう格和かくわ文字もじ、语声迁移、Pythonこう自然しぜん语言处理工具こうぐしゅう(英文えいぶん)、 similarity:相似そうじ计算工具こうぐつつめ,java编写、うみりょうちゅうぶん预训练ALBERT模型もけい 、Transformers 2.0 、もと于大规模おん频数すえしゅうAudiosetてきおと增强ぞうきょう 、Poplar:网页ばん自然しぜん语言标注工具こうぐ、图片文字もじじょ可用かよう于漫こぼし译 、186种语げんてき数字すうじさけべほう库、Amazon发布もと于知识的じん-ひと开放领域对话すうすえしゅうちゅうぶんぶんほん纠错块代码、しげる简体转换 、 Python实现てき种文ほん读性评价ゆび标、类似于人めい/地名ちめい/组织つくえ构名てき命名めいめいたい识别すうすえしゅう 、东南大学だいがく识图谱》研究けんきゅうせい课程(资料)、. 英文えいぶん拼写检查库 、 wwsearchくわだて业微しんきさきだいとぎてき全文ぜんぶん检索引擎、CHAMELEON:深度しんどがく习新闻推荐系统元构 、 8へん论文くしけずBERTしょう关模がた进展あずかはんおもえ、DocSearch:めん费文档搜索そうさく引擎、 LIDA:轻量交互こうごしき对话标注工具こうぐ 、aili - the fastest in-memory index in the East 东半球はんきゅうさいかい并发索引さくいん识图谱车おん工作こうさく项目、自然しぜん语言生成せいせい资源大全たいぜん中日ちゅうにち韩分词库mecabてきPythonせっこう库、ちゅうぶんぶんほん摘要てきよう/关键词提、汉字とくせいひっさげうつわ (featurizer),ひっさげ汉字てきとくせい(发音とくせい字形じけいとくせいよう深度しんどがく习的とくせいちゅうぶん生成せいせいにん务基じゅん测评 、ちゅうぶん缩写すうすえしゅうちゅうぶんにん务基じゅん测评 - 代表だいひょう性的せいてきすうすえしゅう-もとじゅん(预训练)模型もけい-语料库-baseline-工具こうぐつつみ-はいぎょう榜、PySS3:めんこうかい释AIてきSS3ぶん本分ほんぶん类器つくえ视化工具こうぐちゅうぶんNLPすうすえしゅうれつひょう、COPE - かくりつ诗编辑程じょ、doccano:もと于网页的开源协同言文げんぶんほん标注工具こうぐ 、PreNLP:自然しぜん语言预处库、简单てき简历解析かいせきようらい从简历中ひっさげ关键しんいきよう于中ぶん闲聊てきGPT2模型もけい:GPT2-chitchat、もと于检さく聊天つくえじん轮响应选择相关资げんれつひょう(Leaderboards、Datasets、Papers)、(Colab)抽象ちゅうしょうぶんほん摘要てきよう实现しゅう锦(教程きょうてい 、词语拼音すうすえこうこう模糊もこ搜索そうさく工具こうぐ、NLPすうすえぞう广资げんしゅうほろ软对话机じんかまち 、 GitHub Typo Corpus:だい规模GitHub语言拼写错误/语法错误すうすえしゅう、TextCluster:短文たんぶんほん聚类预处块 Short text cluster、めんこう语音识别的中てきちゅうぶんぶんほん规范、BLINK:さいさき进的实体链接库、BertPunc:もと于BERTてきさいさき进标てんおさむ复模がた、Tokenizer:快速かいそくじょうせいてきぶんほん词条库、ちゅうぶん语言理解りかい测评もとなぞらえ包括ほうかつ代表だいひょう性的せいてきすうすえしゅうもとじゅん(预训练)模型もけい、语料库、はいぎょう榜、spaCy 医学いがくぶんほん挖掘与信よしんいきひっさげ 、 NLPにん务示れい项目だい码集、 python拼写检查库、chatbot-list - あるき业内关于智能ちのうきゃくふく、聊天つくえ人的じんてき应用构、算法さんぽうぶんとおるかい绍、语音质量评价ゆび标(MOSNet, BSSEval, STOI, PESQ, SRMR)、 もちい138GB语料训练てき法文ほうぶんRoBERTa预训练语げん模型もけい 、BERT-NER-Pytorch:三种不同模式的BERTちゅうぶんNER实验、无道词典 - 有道ありみち词典てき命令めいれいぎょう版本はんぽん支持しじえい汉互查和ざい线查询、2019ねんNLPあきらてんかい顾、 Chinese medical dialogue data ちゅうぶん疗对话数すえしゅうさいこのみてき汉字数字すうじ(ちゅうぶん数字すうじ)-おもねひしげはく数字すうじ转换工具こうぐもと于百科知识库的中文词语多词义/义项获取あずか特定とくてい词语语义しょう歧、awesome-nlp-sentiment-analysis - 情感じょうかん分析ぶんせきじょう原因げんいん识别、评价对象评价词抽取、LineFlow:めんこう所有しょゆう深度しんどがく习框てきNLPすうすえだかこう载器、ちゅうぶん医学いがくNLPこう开资げん整理せいり 、MedQuAD:(英文えいぶん)医学いがく问答すうすえしゅうはた自然しぜん语言数字すうじくし解析かいせき转换为整すう浮点すう、Transfer Learning in Natural Language Processing (NLP) 、めんこう语音识别的中てきちゅうぶん/英文えいぶん发音辞典じてん、Tokenizers:ちゅうじゅう性能せいのうあずか多功たこうのう性的せいてきさいさき进分词器、CLUENER 细粒命名めいめい实体识别 Fine Grained Named Entity Recognition、 もと于BERT的中てきちゅうぶん命名めいめい实体识别、ちゅうぶん谣言すうすえ库、NLPすうすえしゅう/もとじゅんにん务大れつひょう、nlpしょう关的一些论文及代码, 包括ほうかつぬし题模がた、词向りょう(Word Embedding)、命名めいめい实体识别(NER)、ぶん本分ほんぶん类(Text Classificatin)、ぶんほん生成せいせい(Text Generation)、ぶんほん相似そうじせい(Text Similarity)计算とうわたる及到かく种与nlpしょう关的算法さんぽう于kerastensorflow 、Pythonぶんほん挖掘/NLP实战しめせれい、 Blackstone:めんこう结构法律ほうりつぶんほんてきspaCy pipelineNLP模型もけいどおり过同义词がえ换实现文ほん“变脸” 、ちゅうぶん 预训练 ELECTREA 模型もけい: もと于对こうがく习 pretrain Chinese Model 、albert-chinese-ner - よう预训练语げん模型もけいALBERT做中ぶんNER 、もと于GPT2てき特定とくていぬし题文ほん生成せいせい/ぶんほんぞう广、开源预训练语げん模型もけいごうしゅう语言むこうりょうつつめ、编码、标记实现:一种可控高效的文本生成方法、 英文えいぶん脏话だいれつひょう 、attnvis:GPT2、BERTとうtransformer语言模型もけい注意ちゅういりょく交互こうご视化、CoVoST:Facebook发布てき语种语音-ぶんほんこぼし译语りょう库,包括ほうかつ11种语ごと(ほう语、とく语、兰语、にわか语、西にしはんきば语、大利おおとし语、みみ其语、なみ斯语、みずてん语、こうむ语和ちゅうぶん)てき语音、文字もじ转录及英文えいぶん译文、Jiagu自然しぜん语言处理工具こうぐ - 以BiLSTMとう模型もけい为基础,提供ていきょう识图谱关けい抽取 ちゅうぶんぶん词 词性标注 命名めいめい实体识别 情感じょうかん分析ぶんせき しん词发现 关键词 ぶんほん摘要てきよう ぶんほん聚类とうこうのうようunet实现对文档表かくてき动检测,ひょうかくじゅうけん、NLP事件じけんひっさげ文献ぶんけん资源れつひょう金融きんゆう领域自然しぜん语言处理研究けんきゅう资源だいれつひょう、CLUEDatasetSearch - ちゅう英文えいぶんNLPすうすえしゅう搜索そうさく所有しょゆうちゅうぶんNLPすうすえしゅう常用じょうよう英文えいぶんNLPすうすえしゅう 、medical_NER - ちゅうぶん医学いがく识图谱命名めいめい实体识别 、(哈佛)讲因果いんが推理すいりてきめん费书、识图谱相关学习资りょう/かずすえしゅう/工具こうぐ资源だいれつひょう、Forte:灵活强大きょうだいてき自然しぜん语言处理pipeline工具こうぐしゅう 、Pythonくし相似そうじせい算法さんぽう库、PyLaia:めんこう手写しゅしゃぶん分析ぶんせきてき深度しんどがく习工つつめ、TextFooler:针对ぶん本分ほんぶん类/推理すいりてき对抗ぶんほん生成せいせい块、Haystack:灵活、强大きょうだいてき扩展问答(QA)かまちちゅうぶん关键たん语抽取工具こうぐ


1. textfilter: ちゅう英文えいぶん敏感びんかん词过滤 observerss/textfilter

 >>> f = DFAFilter()
 >>> f.add("sexy")
 >>> f.filter("hello sexy baby")
 hello **** baby

敏感びんかん包括ほうかつ政治せいじ、脏话とう话题词汇。其原そのはら主要しゅようもと于词てんてき查找(项目ちゅうてきkeywordぶんけん),内容ないよう很劲ばく。。。

2. langid:97种语げん检测 https://github.com/saffsd/langid.py

pip install langid

>>> import langid
>>> langid.classify("This is a test")
('en', -54.41310358047485)

3. langdetect:另一个语言检测https://code.google.com/archive/p/language-detection/

pip install langdetect

from langdetect import detect
from langdetect import detect_langs

s1 = "ほんへんはくきゃく主要しゅようかい绍两款语げんさがせ测工よう区分くぶんぶんほん到底とうてい什么语言,"
s2 = 'We are pleased to introduce today a new technology'
print(detect(s1))
print(detect(s2))
print(detect_langs(s3))    # detect_langs()输出さがせ测出てき所有しょゆう语言类型及其しょうらないてき比例ひれい

输出结果如下: ちゅう:语言类型主要しゅよう参考さんこうてきISO 639-1语言编码标准,详见ISO 639-1ひゃく百科ひゃっか

跟上一个语言检测比较,じゅん确率てい效率こうりつだか

4. phone 中国ちゅうごくしゅつくえ归属查询: ls0f/phone

やめ集成しゅうせいいた python package cocoNLPなか,欢迎试用

from phone import Phone
p  = Phone()
p.find(18100065143)
#return {'phone': '18100065143', 'province': '上海しゃんはい', 'city': '上海しゃんはい', 'zip_code': '200000', 'area_code': '021', 'phone_type': '电信'}

支持しじごうだん: 13*,15*,18*,14[5,7],17[0,6,7,8]

记录じょうすう: 360569 (updated:2017ねん4がつ)

作者さくしゃ提供ていきょうりょうすうすえphone.dat 方便ほうべんpythonよう户Loadすうすえ

5. phoneこく际手つくえ、电话归属查询:AfterShip/phone

npm install phone

import phone from 'phone';
phone('+852 6569-8900'); // return ['+85265698900', 'HKG']
phone('(817) 569-8900'); // return ['+18175698900, 'USA']

6. ngender すえ名字みょうじ判断はんだんせい别:observerss/ngender もと于朴もと贝叶斯计さんてきがいりつ

pip install ngender

>>> import ngender
>>> ngender.guess('赵本山ほんざん')
('male', 0.9836229687547046)
>>> ngender.guess('そうたんまこと')
('female', 0.9759486128949907)

7. 抽取emailてきせい则表达式

やめ集成しゅうせいいた python package cocoNLPなか,欢迎试用

email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'
emails = re.findall(email_pattern, text, flags=0)

8. 抽取phone_numberてきせい则表达式

やめ集成しゅうせいいた python package cocoNLPなか,欢迎试用

cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'
phoneNumbers = re.findall(cellphone_pattern, text, flags=0)

9. 抽取份证ごうてきせい则表达式

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)

10. 人名じんめい语料库: wainshine/Chinese-Names-Corpus

人名じんめい抽取こうのう python package cocoNLP,欢迎试用

ちゅうぶん(现代、古代こだい名字みょうじにち文名ぶんめいちゅうぶんてきせい和名わみょう称呼しょうこだい姨妈、しょう姨妈とう)、英文えいぶん->ちゅう文名ぶんめい约翰)、なり语词てん

可用かよう于中ぶんぶん词、姓名せいめい识别)

11. ちゅうぶん缩写库:github

全国ぜんこくじんだい: 全国ぜんこく/n 人民じんみん/n 代表だいひょう大会たいかい/n
中国ちゅうごく: ちゅう人民じんみん共和きょうわこく/ns
おんな网赛: 女子じょし/n 网球/n 赛/vn

12. 汉语拆字词典:kfcd/chaizi

漢字かんじ	拆法 (いち)	拆法 ()	拆法 (さん)
拆	しゅ 斥	扌 斥	ざい

13. 词汇情感じょうかん值:rainarch/SentiBridge

やま泉水せんすい	たかし沛	0.400704566541	0.370067395878
视野	        宽广	0.305762728932	0.325320747491
だい峡谷きょうこく	惊险	0.312137906517	0.378594957281

14. ちゅうぶん词库、とまよう词、敏感びんかん dongxiexidian/Chinese

此packageてき敏感びんかん词库ぶん类更细:

はん动词库敏感びんかん词库ひょう统计暴恐词库民生みんせい词库色情しきじょう词库

15. 汉字转拼おんmozillazg/python-pinyin

ぶんほん纠错かいよういた

16. ちゅうぶんしげる简体互转:skydark/nstools

17. 英文えいぶん拟中ぶん发音引擎 funny chinese text to speech enginee:tinyfool/ChineseWithEnglish

say wo i ni
#说:わが爱你

相当そうとう于用英文えいぶんおん标,かたぎ拟中ぶん发音。

18. ひろしほう生成せいせいphunterlau/wangfeng-rnn

わがざい这里ちゅうてきよるさと
就像一场是一种生命的意旪
就像てき生活せいかつ变得ざいいちわが们这いち个知どう
わがただ一天いってん你会怎吗

19. どう义词库、はん义词库、否定ひてい词库:guotong1988/chinese_dictionary

20. 无空かく英文えいぶんくし分割ぶんかつ、抽取单词:wordninja

>>> import wordninja
>>> wordninja.split('derekanderson')
['derek', 'anderson']
>>> wordninja.split('imateapot')
['im', 'a', 'teapot']

21. IPせい则表达式:

(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)

22. 腾讯QQごうせい则表达式:

[1-9]([0-9]{5,11})

23. 国内こくないかた话号码正则表达式:

[0-9-()()]{7,18}

24. よう户名せい则表达式:

[A-Za-z0-9_\-\u4e00-\u9fa5]+

25. 汽车ひんぱい、汽车れいけんしょう关词汇:

见本repoてきdataぶんけん [data](https://github.com/fighting41love/funNLP/tree/master/data)

26. 时间抽取:

やめ集成しゅうせいいた python package cocoNLPなか,欢迎试用

ざい2016ねん6がつ7にち9:44执行はかこころみ,结果如下

Hi,all。した周一しゅういちうまさんてん开会

>> 2016-06-13 15:00:00-false

しゅういち开会

>> 2016-06-13 00:00:00-true

下下しもじもしゅういち开会

>> 2016-06-20 00:00:00-true

java version

python version

27. かく种中ぶん词向りょう github repo

ちゅうぶん词向りょう大全たいぜん

28. 公司こうし名字みょうじ大全たいぜん github repo

29. 诗词库: github repo さら全的ぜんてき诗词库

30. THU整理せいりてき词库: link

やめ整理せいりいたほんrepoてきdataぶんけん夹中.

IT词库、财经词库、なり语词库、地名ちめい词库、历史名人めいじん词库、诗词词库、医学いがく词库、饮食词库、法律ほうりつ词库、汽车词库、动物词库

31. ちゅうぶん聊天语料 link

该库さがせしゅうりょう包含ほうがん:まめべん轮, PTT八卦はっけ语料, あおうん语料, 电视剧对しろ语料, 贴吧论坛かいじょう语料,ほろはく语料,しょう鸡语りょう

32. ちゅうぶん谣言すうすえ: github

该数すえぶんけんちゅうまいいちぎょういちじょうjson格式かくしきてき谣言すうすえだん释义如下:

rumorCode: 该条谣言てきただいち编码,以通过该编码直接ちょくせつ访问该谣げん举报页面。
title: 该条谣言举报てき标题内容ないよう
informerName: 举报しゃほろはく名称めいしょう
informerUrl: 举报しゃほろはく链接
rumormongerName: 发布谣言しゃてきほろはく名称めいしょう
rumormongerUr: 发布谣言しゃてきほろはく链接
rumorText: 谣言内容ないよう
visitTimes: 该谣げん访问次数じすう
result: 该谣げん审查结果
publishTime: 该谣げん举报时间

33. 情感じょうかん分析ぶんせきgithub

词库やめ整理せいりいたほんrepoてきdataぶんけん夹中.

ほんrepo项目一个通过与人对话获得其情感值波动图谱, 内用ないよう词库ざいdataぶんけん夹中.

34. ちゅうぶん问答すうすえしゅう链接 ひっさげ码: 2dva

35. 、QA相似そうじひきはい:MatchZoo github

ぶんほん相似そうじひきはい算法さんぽうてき集合しゅうごう包含ほうがん深度しんどがく习的方法ほうほう,值得尝试。

36. bert资源:

  • bert论文ちゅうぶんこぼし译: link
  • bert原作げんさくしゃてきslides: link ひっさげ码: iarj

  • ぶん本分ほんぶん类实践: github

  • bert tutorialぶん本分ほんぶん类教ほど: github

  • bert pytorch实现: github

  • bertよう于中ぶん命名めいめい实体识别 tensorflow版本はんぽん: github

  • BERT生成せいせいむこうりょう,BERT做文本分ほんぶん类、ぶんほん相似そうじ计算github

  • bert もと于 keras てきふうそうぶん类标ちゅうかまち Kashgari,几分钟即搭建一个分类或者序列标注模型: github

  • bert、ELMOてき图解: github

  • BERT: Pre-trained models and downstream applications: github

37. Texar - Toolkit for Text Generation and Beyond: github

  • もと于Tensorflowてき开源工具こうぐつつめむねざい支持しじ广泛てきつくえがく习,とく别是ぶんほん生成せいせいにん务,如机こぼし译、对话、摘要てきよう内容ないよう处置、语言けんとう

38. ちゅうぶん事件じけん抽取: github

  • ちゅうぶん复合事件じけん抽取,包括ほうかつ条件じょうけん事件じけん因果いんが事件じけん、顺承事件じけんはん事件じけんとう事件じけん抽取,并形成けいせい事理じり图谱。

39. cocoNLP: github

人名じんめい、邮箱、つくえごうつくえ归属 とうしんいきてき抽取,rakeたん语抽取算法さんぽう

pip install cocoNLP

>>> from cocoNLP.extractor import extractor

>>> ex = extractor()

>>> text = 'きゅう寻特ろうひろしおとこ孩,于2018ねん11月27ごう11时在陕西しょう安康あんこう汉滨はししつ。丢失发型たん发,...如有线索,请迅そくあずか警方联系:18100065143,132-6156-2938,baizhantang@sina.com.cn yangyangfuture at gmail dot com'

# 抽取邮箱
>>> emails = ex.extract_email(text)
>>> print(emails)

['baizhantang@sina.com.cn', 'yangyangfuture@gmail.com.cn']
# 抽取しゅつくえごう
>>> cellphones = ex.extract_cellphone(text,nation='CHN')
>>> print(cellphones)

['18100065143', '13261562938']
# 抽取しゅつくえ归属、运营しょう
>>> cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones]
>>> print(cell_locs)

cellphone_location [{'phone': '18100065143', 'province': '上海しゃんはい', 'city': '上海しゃんはい', 'zip_code': '200000', 'area_code': '021', 'phone_type': '电信'}]
# 抽取しんいき
>>> locations = ex.extract_locations(text)
>>> print(locations)
['陕西しょう安康あんこう汉滨', '安康あんこう汉滨', '汉滨']
# 抽取时间てん
>>> times = ex.extract_time(text)
>>> print(times)
time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"}
# 抽取人名じんめい
>>> name = ex.extract_name(text)
>>> print(name)
とくろうひろし

40. 国内こくない电话ごう码正则匹はいさんだい运营しょう+きょ拟等): github

41. きよし华大がくXLORE:ちゅう英文えいぶんまたが语言百科知识图谱: link
上述じょうじゅつ链接ちゅう包含ほうがんりょう所有しょゆう实体及关けいてきTTLぶんけんさら多数たすうすえはたざいこん发布。 概念がいねん,实例,属性ぞくせい和上わじょう下位かい关系すうもく

ひゃく ちゅうぶん维基 英文えいぶん维基 总数
概念がいねん数量すうりょう 32,009 150,241 326,518 508,768
实例数量すうりょう 1,629,591 640,622 1,235,178 3,505,391
属性ぞくせい数量すうりょう 157,370 45,190 26,723 229.283
InstanceOf 7,584,931 1,449,925 3,032,515 12,067,371
SubClassOf 2,784 191,577 555,538 749,899

またが语言连接(概念がいねん/实例)

ひゃく ちゅうぶん维基 英文えいぶん维基
ひゃく - 10,216/336,890 4,846/303,108
ちゅうぶん维基 10,216/336,890 - 28,921/454,579
英文えいぶん维基 4,846/303,108 28,921/454,579 -

42. きよし华大がく人工じんこう智能ちのうわざ系列けいれつ报告: link
每年まいとしかいAI领域しょう关的报告,内容ないよう包含ほうがん

  • 自然しぜん语言处理 link
  • 识图谱 link
  • かずすえ挖掘 link
  • 动驾驶 link
  • つくえこぼしlink
  • 块链 link
  • つくえじん link
  • 计算つくえ图形がく link
  • 3Dしるし link
  • ひと脸识别 link
  • 人工じんこう智能ちのうしんへん link
  • ひとしひとし

43.自然しぜん语言生成せいせい方面ほうめん:

44.: jiebahanlp就不必介绍了吧。

45.NLPふとし难了系列けいれつ: github

  • いた杨过曾经生活せいかつ过的地方ちほうしょう龙女动情说:“わが也想过过过儿过过てき生活せいかつ。” ​​​
  • いた儿子とうこう车的地方ちほう,邓超对孙俪说:“わが也想とうとうとうとうとう过的辆车。”
  • 赵敏说:わが也想ひかえおのれそう无忌。
  • 你也そうはん范范范玮琪犯过的错吗
  • 对叙击是いち性行せいこう为?

46.动对联数すえ及机じん:
70まん对联すうすえ link
だい码 link

うえ しも
いんつとむ怕负さんはる 潇洒难书いち
如此清秋きよあきなにしわしゅ 这般明月めいげつ须钱

47.よう户名くろめい单列ひょう github 包含ほうがんりょうよう户名きんようれつひょう如: link

administrator
administration
autoconfig
autodiscover
broadcasthost
domain
editor
guest
host
hostmaster
info
keybase.txt
localdomain
localhost
master
mail
mail0
mail1

48.罪名ざいめいほう务名词及ぶん类模がた: github

包含ほうがん856项罪めい识图谱, もと于280万罪名训练库的罪名预测,もと于20Wほう务问こたえ对的13类问题分类与法律ほうりつ资讯问答こうのう

49.ほろしんこう众号语料: github

3G语料,包含ほうがん部分ぶぶん网络抓取的とりてきほろしんこう众号てき文章ぶんしょうやめ经去じょHTML,ただ包含ほうがんりょう纯文ほんまいくだりいちへんJSON格式かくしき,nameほろしんこう众号名字みょうじ,accountほろしんこう众号ID,title题目,content是正ぜせいぶん

50.cs224n深度しんどがく自然しぜん语言处理课程:link

  • 课程ちゅう模型もけいてきpytorch实现 link
  • めんこう深度しんどがく研究けんきゅうじん员的自然しぜん语言处理实例教程きょうてい link

51.ちゅうぶん手写しゅしゃ汉字识别:github

52.ちゅうぶん自然しぜん语言处理 语料/かずすえしゅうgithub 竞品:THUOCL(THU Open Chinese Lexicon)ちゅうぶん词库

53.变量命名めいめい神器じんぎgithub link

54.ぶん词语りょう库+だい码:ひゃく网盘链接

55. NLPしん书推荐《Natural Language Processing》by Jacob Eisenstein: link

56. にん务型对话英文えいぶんすうすえしゅう github
さいぜんにん务型对话すうすえしゅう主要しゅようかい绍了一份任务型对话数据集大全,这份すうすえしゅう大全たいぜん涵盖りょういた目前もくぜん在任ざいにん务型对话领域てき所有しょゆう常用じょうようすうすえしゅうてき主要しゅようしんじいき。此外,为了帮助研究けんきゅうしゃさらこのみてき把握はあく领域进展てき脉络,わが们以Leaderboardてき形式けいしき给出りょう几个すうすえしゅうじょうてきState-of-the-art实验结果。

57. ASR 语音すうすえしゅう + もと深度しんどがく习的ちゅうぶん语音识别けい统: github

58. 笑声しょうせい检测 github

59. Microsoft语言数字すうじ/单位/如日时间识别つつみ [github](https://github.com/Microsoft/Recognizers-Text

60. chinese-xinhua ちゅう华新华字典じてんすうすえ库及api,包括ほうかつ常用じょうよう歇后语、なり语、词语汉字 github

61. ぶん档图谱自动生成せいせい github

  • TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method。输入いちへんぶん档,将文まさふみ档进ぎょう关键しんいきひっさげ,进行结构,并最终组织成图谱组织形式けいしき形成けいせい文章ぶんしょう语义しんいきてき图谱展示てんじ

62. SpaCy ちゅうぶん模型もけい github

  • 包含ほうがんParser, NER, 语法树等こうのうゆういち英文えいぶんpackage使用しようspacyてき英文えいぶん模型もけいてき,如果よう适配ちゅうぶん可能かのう需要じゅよう使用しようspacyちゅうぶん模型もけい

63. Common Voice语音识别すうすえしゅう新版しんぱん link

  • 包括ほうかつらい42,000めい贡献しゃちょう过1,400しょう时的语音样本,涵github

64. かみ经网络关けい抽取 pytorch github

  • 暂不支持しじちゅうぶん

65. もと于bertてき命名めいめい实体识别 pytorch github

  • 暂不支持しじちゅうぶん

66. 关键词(Keyphrase)抽取つつみ pke github
pke: an open source python-based keyphrase extraction toolkit

  • 暂不支持しじちゅうぶんわが于近对其进行おさむあらため使つかい其适はいちゅうぶん。 请关ちゅうてきgithub动态,谢谢!

67. もと于医疗领いき识图谱的问答けい github

  • 该repo参考さんこうりょうgithub

68. もと依存いぞん句法くほうあずか语义かくしょく标注てき事件じけんさんげん组抽取 github

69. 依存いぞん句法くほう分析ぶんせき4万句高质量标注数据 by 苏州大学だいがく汉语依存いぞん树库(SUCDT) Homepage かずすえ载详见homepage底部ていぶ需要じゅよう签署协议,需要じゅよう邮件接收せっしゅうかい压密码。

70. cnocr:もちいらい做中ぶんOCRてきPython3つつみ带了训练このみてき识别模型もけい github

71. ちゅう文人ぶんじんぶつ关系识图谱项 github

  • ちゅう文人ぶんじんぶつ关系图谱构建
  • もと于知识库てきすうすえかい
  • もと于远ほど监督あずかbootstrapping方法ほうほうてき人物じんぶつ关系抽取
  • もと于知识图谱的识问こたえとう应用

72. ちゅうぶんnlp竞赛项目及代码汇总 github

  • ぶんほん生成せいせいぶんほん摘要てきよう:Byte Cup 2018 こく际机がく习竞赛
  • 识图谱:みずきん医院いいんMMC人工じんこう智能ちのう辅助构建识图谱大赛
  • 视频识别 问答:2018こうはいぜんたま人工じんこう智能ちのうだい赛:视频识别&问答

73. ちゅう文字もじすうすえ github

  • 简/しげるからだ汉字笔顺
  • りょう笔画

74. speech-aligner: 从“人声ひとごえ语音”及其“语言文げんぶんほん”,产生音素おんそ级别时间对齐标注てき工具こうぐ github

75. AmpliGraph: 识图谱表示ひょうじがく习(Python)库:识图谱概念がいねん链接预测 github

  • ほこりもりあきら出品しゅっぴん目前もくぜんひさし支持しじちゅうぶん

76. Scattertext ぶんほん视化(python) github

  • 很好ようてき工具こうぐつつめ,简单おさむあらためきさき支持しじちゅうぶん
  • 能否のうひぶん析出せきしゅつぼう个类别的ぶんほんあずか其他ぶんほんてきよう词差异

77. 语言/表示ひょうじ工具こうぐ:BERT & ERNIE github

  • ひゃく出品しゅっぴん,ERNIE也号たたえざい项nlpにん务中击败りょうbert

78. ちゅうぶん对比英文えいぶん自然しぜん语言处理NLPてき别综じゅつ link

79. Synonymsちゅうぶんきん义词工具こうぐつつみ github

  • Synonyms ちゅうぶんきん义词工具こうぐつつめ以用于自然しぜん语言理解りかいてき很多にん务:ぶんほん对齐,推荐算法さんぽう相似そうじ计算,语义へんうつり,关键ひっさげ概念がいねんひっさげ摘要てきよう搜索そうさく引擎とう

80. HarvestText领域适应ぶんほん挖掘工具こうぐしん词发现-情感じょうかん分析ぶんせき-实体链接とう github

81. word2word:(Python)方便ほうべんえきようてき语言词-词对しゅう:62种语ごと/3,564个多语言对 github

82. 语音识别语料生成せいせい工具こうぐ:从具有ぐゆうおん频/字幕じまくてきざい线视频创けん动语おん识别(ASR)语料库 github

83. ASR语音だい辞典じてん/词典: github

84. 构建疗实たい识别てき模型もけい包含ほうがん词典语料标注,于python: github

85. 单文档非监督てき关键词抽取: github

86. Kashgariちゅう使用しようgpt-2语言模型もけい github

87. 开源てき金融きんゆうとう资数すえひっさげ工具こうぐ github

88. ぶんほん摘要てきよう库TextTeaser: 仅支持しじ英文えいぶん github

89. 人民じんみん报语りょう处理工具こうぐしゅう github

90. 一些关于自然语言的基本模型 github

91. もと于14W歌曲かきょく识库てき问答尝试,こうのう包括ほうかつ词接龙,やめ词找歌曲かきょく以及歌曲かきょく歌手かしゅさんかく关系てき问答 github

92. もと于Siamese bilstm模型もけいてき相似そうじ判定はんてい模型もけい,提供ていきょう训练すうすえしゅう测试すうすえしゅう github

  • 提供ていきょうりょう10万个训练样本

93. ようTransformer编解码模がた实现てきすえHacker News文章ぶんしょう标题生成せいせい评论 github

94. ようBERT进行序列じょれつ标记和文わぶん本分ほんぶん类的いただい github

95. LitBank:NLPすうすえしゅう——支持しじ自然しぜん语言处理计算人文じんぶん学科がっかにん务的100带标记英文えいぶんしょう说语りょう github

96. 百度开源的基准信息抽取系统 github

97. 虚假こけしん闻数すえしゅう fake news corpus github

98. Facebook: LAMA语言模型もけい分析ぶんせき提供ていきょうTransformer-XL/BERT/ELMo/GPT预训练语げん模型もけいてき统一访问せっこう github

  • よう于分析预训练语言模型もけいちゅう包含ほうがんてきこと实和つね识知识的さがせ针。

99. CommonsenseQA:めんこうつね识的英文えいぶんQA挑战 link

100. ちゅうぶん识图谱资りょうかずすえ及工 github

101. かくだい公司こうし内部ないぶさと大牛おおうしぶんとおるてきわざ术文档 PDF あるもの PPT github

102. 自然しぜん语言生成せいせいSQL语句(英文えいぶん github

103. ちゅうぶんNLPすうすえ增强ぞうきょう(EDA)工具こうぐ github

  • 英文えいぶんNLPすうすえ增强ぞうきょう工具こうぐ github
  • 一键中文数据增强工具 github

104. もと于医药知识图谱的智能ちのう问答けい github

105. きょう商品しょうひん识图谱 github

  • もと于京东网站的1300种商品しょうひん上下じょうげ概念がいねん,约10まん商品しょうひんひんぱい,约65万品牌销售关系,商品しょうひん描述维度とう识库,于该识库支持しじ商品しょうひん属性ぞくせい库构けん商品しょうひん销售问答,ひんぱい物品ぶっぴんせい产等识查询服务,也可よう于情かん分析ぶんせきとうゆう应用.

106. もと于mongodbそん储的军事领域识图谱问こたえ项目 github

  • もと于mongodbそん储的军事领域识图谱问こたえ项目,包括ほうかつ飞行ふとむなしそう备等8だい类,100あまりしょう类,きょう计5800项的军事武器ぶき识库,该项使用しよう图数すえ库进ぎょうそん储,つう过jieba进行问句解析かいせき,问句实体项识别,于查询模ばん完成かんせい类问题的查询,主要しゅよう提供ていきょう一种工业界的问答思想demo。

107. もと于远监督的中てきちゅうぶん关系抽取 github

108. 语音情感じょうかん分析ぶんせき github

109. ちゅうぶんULMFiT 情感じょうかん分析ぶんせき ぶん本分ほんぶん类 语料及模がた github

110. 一个拍照做题程序。输入一张包含数学计算题的图片,输出识别てき数学すうがく计算しき以及计算结果 github

111. 世界せかい各国かっこくだい规模人名じんめい github

112. 一个利用有趣中文语料库 qingyun 训练出来でき的中てきちゅうぶん聊天つくえじん github

  • 使用しようりょうあおうん语料10まん语料,ほんrepoちゅう也有やゆう该语りょうてき链接

113. ちゅうぶん聊天つくえじんすえ自己じこてき语料训练自己じこそうようてき聊天つくえじん以用于智能ちのうきゃくふくざい线问こたえ智能ちのう聊天とう场景 github

  • すえ自己じこてき语料训练自己じこそうようてき聊天つくえじん以用于智能ちのうきゃくふくざい线问こたえ智能ちのう聊天とう场景。加入かにゅうseqGAN版本はんぽん
  • repoちゅう提供ていきょうりょう一份质量不太高的语料

114. しょう市区しく行政ぎょうせい划数すえ带拼おん标注 github

  • 国家こっか统计きょくちゅうてきしょう市区しく行政ぎょうせい划数すえ带拼おん标注,高德こうとく图的すわ标和行政ぎょうせい区域くいき边界范围,ざい浏览さとめん运行jsだい码采しゅうてき2019ねん发布てき最新さいしんすうすえ,含采しゅうげん码,提供ていきょうcsv格式かくしきすうすえ支持しじcsv转成しょう市区しく级联动jsだい
  • すわ标、边界范围、名称めいしょう、拼音、行政ぎょうせいとう级地

115. 教育きょういくぎょう业新闻 动文摘 语料库 github

116. 开放りょう对话つくえじん识图谱、语义理解りかい自然しぜん语言处理工具こうぐ及数すえ github

117. ちゅうぶん识图谱:もとひゃく百科ひゃっかちゅうぶん页面,抽取さんげん组信いき,构建ちゅうぶん识图谱 github

118. masr: ちゅうぶん语音识别,提供ていきょう预训练模がたこう识别りつ github

119. Pythonおん频数すえぞう广库 github

120. ちゅうぶんぜん词覆盖BERT及两份阅读理解りかいすうすえ github

  • DRCDすうすえしゅうゆかり中国ちゅうごく台湾たいわんたい研究けんきゅういん发布,其形しきあずかSQuADしょうどうもと于繁たいちゅうぶんてき抽取しき阅读理解りかいすうすえしゅう
  • CMRC 2018すうすえしゅう哈工だい讯飞联合实验しつ发布的中てきちゅう文机ふづくえ阅读理解りかいすうすえすえ给定问题,けい统需よう篇章へんしょうちゅう抽取かただんさく为答あん形式けいしきあずかSQuADしょうどう

121. ConvLab:开源いきはしいたはし对话けい统平だい github

122. ちゅうぶん自然しぜん语言处理すうすえしゅう github

123. もと于最しん版本はんぽんrasa搭建てき对话けい github

124. もと于TensorFlowBERTてきかんどうしき实体及关けい抽取 github

  • Entity and Relation Extraction Based on TensorFlow and BERT. もと于TensorFlowBERTてきかんどうしき实体及关けい抽取,2019语言あずか智能ちのうわざ术竞赛信いき抽取にん务解决方あん。Schema based Knowledge Extraction, SKE 2019

125. 一个小型的证券知识图谱/识库 github

126. 复盘所有しょゆうNLP赛的TOP方案ほうあん github

127. OpenCLaP:领域开源ちゅうぶん预训练语げん模型もけい仓库 github 包含ほうがん如下语言模型もけいひゃく百科ひゃっかすうすえ

  • 民事みんじぶん书BERT bert-base 全部ぜんぶ民事みんじぶん书 2654まんへんぶん书 22554词 370MB
  • 刑事けいじぶん书BERT bert-base 全部ぜんぶ刑事けいじぶん书 663まんへんぶん书 22554词 370MB
  • ひゃく百科ひゃっかBERT bert-base ひゃく百科ひゃっか 903まんへん词条 22166词 367MB

128. UER:もと于不どう语料、编码标任务的ちゅうぶん预训练模がた仓库(包括ほうかつBERT、GPT、ELMOとう github

  • もと于PyTorchてき预训练模がたかまち支持しじ对编码器,もく标任务等进行任意にんいてき组合,从而复现やめゆうてき预训练模がたあるざいやめゆうてき预训练模がたじょういちあらため进。もと于UER训练りょう同性どうせい质的预训练模がた不同ふどう语料、编码标任务),构成りょうちゅうぶん预训练模がた仓库,适用于不同ふどうてき场景。

129. ちゅうぶん自然しぜん语言处理むこうりょうごうしゅう github

  • 包括ほうかつむこうりょう,拼音むこうりょう,词向りょう,词性向せいこうりょう,依存いぞん关系むこうりょう.とも5种类がたてきむこうりょう

130. もと金融きんゆう-司法しほう领域(兼有けんゆう闲聊せい质)てき聊天つくえじん github

  • 其中てき主要しゅよう块有しんいき抽取、NLU、NLG、识图谱等,并且利用りようDjango整合せいごうりょうぜんはし展示てんじ,目前もくぜんやめ经封そうりょうnlpkgてきrestfulせっこう

131. g2pC:もと上下じょうげぶんてき汉语读音动标记模块 github

132. Zincbase 识图谱构けん工具こうぐつつみ github

133. 诗歌质量评价/细粒情感じょうかん诗歌语料库 github

134. 快速かいそく转化「ちゅうぶん数字すうじかずおもねひしげはく数字すうじ github

  • ちゅうぶんおもねひしげはく数字すうじ互转
  • ちゅうぶんあずかおもねひしげはく数字すうじ混合こんごうてきじょう况,ざい开发ちゅう

135. 百度知道问答语料库 github

  • ちょう过580まんてき问题,938まんてき答案とうあん,5800个分类标签。もと于该问答语料库,支持しじ种应よう,如闲聊问こたえ,逻辑挖掘

136. もと于知识图谱的问答けい github

  • BERT做命名めいめい实体识别相似そうじふん为onlineoutlineしき

137. jieba_fast 加速かそくばんてきjieba github

  • 使用しようcpythonじゅううつしりょうjiebaぶん词库ちゅう计算DAGHMMちゅうてきvitrebi函数かんすう速度そくどいた大幅おおはばひさげます

138. せい则表达式教程きょうてい github

139. ちゅうぶん阅读理解りかいすうすえしゅう github

140. もと于BERTとう最新さいしん语言模型もけいてき抽取しき摘要てきようひっさげ github

141. Python利用りよう深度しんどがく习进行文こうぶんほん摘要てきようてき综合指南しなん link

142. 识图谱深度しんどがく习相关资りょう整理せいり github

  • 深度しんどがく习与自然しぜん语言处理、识图谱、对话けい统。包括ほうかつ识获取、识库构建、识库应用三大技术研究与应用

143. 维基だい规模平行へいこうぶんほん语料 github

  • 85种语ごと、1620种语げん对、135M对照

144. StanfordNLP 0.2.0:纯Pythonばん自然しぜん语言处理つつみ link

145. NeuralNLP-NeuralClassifier:腾讯开源深度しんどがく习文本分ほんぶん类工 github

146. はしいたはしてきふう闭域对话けい github

147. ちゅうぶん命名めいめい实体识别:NeuroNER vs. BertNER github

148. しん事件じけん线索抽取 github

  • An exploration for Eventline (important news Rank organized by pulic time),针对ぼう一事件话题下的新闻报道集合,つう使用しようdocrank算法さんぽう,对新闻报どう进行重要じゅうようせい识别,并通过新闻报どう时间挑选时间线上重要じゅうようしん

149. 2019ねん百度的三元组抽取比赛,“科学かがくそら间队”みなもと码(だい7めい) github

150. もと依存いぞん句法くほうてき开放いきぶんほん识三元组抽取和知识库构建 github

151. ちゅうぶんてきGPT2训练だい github

152. ML-NLP - つくえがく习(Machine Learning)、NLPめん试中つねかんがえいたてき识点和代かずよ码实现 github

153. nlp4han:ちゅうぶん自然しぜん语言处理工具こうぐしゅう(だん/ぶん词/词性标注/组块/句法くほう分析ぶんせき/语义分析ぶんせき/NER/Nもと语法/HMM/だい词消かい/情感じょうかん分析ぶんせき/拼写检查 github

154. XLM:Facebookてきまたが语言预训练语げん模型もけい github

155. ようもと于BERTてきほろ调和とくせいひっさげ方法ほうほうらい进行识图谱百度百科人物词条属性抽取 github

156. ちゅうぶん自然しぜん语言处理しょう关的开放任ほうにん务,すうすえしゅう, 以及とうぜんさいけい结果 github

157. CoupletAI - もと于CNN+Bi-LSTM+Attention てき动对对联けい github

158. 抽象ちゅうしょう识图谱,目前もくぜん规模50まん支持しじめい词性实体、じょう态性描述、事件じけんせい动作进行抽象ちゅうしょう github

159. MiningZhiDaoQACorpus - 580まん百度知道问答数据挖掘项目 github

160. brat rapid annotation tool: 序列じょれつ标注工具こうぐ link

161. だい规模ちゅうぶん识图谱数すえ::1.4亿实たい github

162. かずすえ增强ぞうきょうざいつくえこぼし译及其他nlpにん务中てき应用及效果こうか link

163. allennlp阅读理解りかい:支持しじ种数すえ模型もけい github

164. PDFひょうかくすうすえひっさげ工具こうぐ github

165. Graphbrain:AI开源软件库和けん工具こうぐ目的もくてき促进动意义提和文わぶんほん理解りかい以及识的探索たんさく推断すいだん github

166. 简历动筛选系统 github

167. もと命名めいめい实体识别てき简历摘要てきよう github

168. ちゅうぶん语言理解りかい测评もとなぞらえ包括ほうかつ代表だいひょう性的せいてきすうすえしゅう&もとじゅん模型もけい&语料库&はいぎょう github

169. 树洞 OCR 文字もじ识别 github

170. 从包含ほうがんひょうかくてき扫描图片ちゅう识别ひょう格和かくわ文字もじ github

171. 语声迁移 github

172. Pythonこう自然しぜん语言处理工具こうぐしゅう(英文えいぶん) github

173. similarity:相似そうじ计算工具こうぐつつめ,java编写 github

  • よう于词语、たん语、、词法分析ぶんせき情感じょうかん分析ぶんせき、语义分析ぶんせきとうしょう关的相似そうじ计算

174. うみりょうちゅうぶん预训练ALBERT模型もけい github

175. Transformers 2.0 github

  • 支持しじTensorFlow 2.0 PyTorch てき自然しぜん语言处理预训练语げん模型もけい(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8种架构/33种预训练模型もけい/102种语げん

176. もと于大规模おん频数すえしゅうAudiosetてきおと增强ぞうきょう github

177. Poplar:网页ばん自然しぜん语言标注工具こうぐ github

178. 图片文字もじじょ可用かよう于漫こぼし github

179. 186种语げんてき数字すうじさけべほう github

180. Amazon发布もと于知识的じん-ひと开放领域对话すうすえしゅう github

181. ちゅうぶんぶんほん纠错块代码 github

182. しげる简体转换 github

183. Python实现てき种文ほん读性评价ゆび github

184. 类似于人めい/地名ちめい/组织つくえ构名てき命名めいめいたい识别すうすえしゅう github

185. 东南大学だいがく识图谱》研究けんきゅうせい课程(资料) github

186. 英文えいぶん拼写检查库 github

from spellchecker import SpellChecker

spell = SpellChecker()

# find those words that may be misspelled
misspelled = spell.unknown(['something', 'is', 'hapenning', 'here'])

for word in misspelled:
    # Get the one `most likely` answer
    print(spell.correction(word))

    # Get a list of `likely` options
    print(spell.candidates(word))

187. wwsearchくわだて业微しんきさきだいとぎてき全文ぜんぶん检索引擎 github

188. CHAMELEON:深度しんどがく习新闻推荐系统元 github

189. 8へん论文くしけずBERTしょう关模がた进展あずかはんおもえ github

190. DocSearch:めん费文档搜索そうさく引擎 github

191. LIDA:轻量交互こうごしき对话标注工具こうぐ github

192. aili - the fastest in-memory index in the East 东半球はんきゅうさいかい并发索引さくいん github

193. 识图谱车おん工作こうさく项目 github

194. 自然しぜん语言生成せいせい资源大全たいぜん github

  • 内含ないがん英文えいぶんすうすえ、论文、だい

195. 中日ちゅうにち韩分词库mecabてきPythonせっこう github

196. ちゅうぶんぶんほん摘要てきよう/关键词提 github

197. 汉字とくせいひっさげうつわ (featurizer),ひっさげ汉字てきとくせい(发音とくせい字形じけいとくせいよう深度しんどがく习的とくせい github

198. ちゅうぶん生成せいせいにん务基じゅん测评 github

199. ちゅうぶん缩写すうすえしゅう github

200. ちゅうぶんにん务基じゅん测评 - 代表だいひょう性的せいてきすうすえしゅう-もとじゅん(预训练)模型もけい-语料库-baseline-工具こうぐつつみ-はいぎょう github

201. PySS3:めんこうかい释AIてきSS3ぶん本分ほんぶん类器つくえ视化工具こうぐ github

202. ちゅうぶんNLPすうすえしゅうれつひょう github

203. COPE - かくりつ诗编辑程じょ github

204. doccano:もと于网页的开源协同言文げんぶんほん标注工具こうぐ github

205. PreNLP:自然しぜん语言预处 github

206. 简单てき简历解析かいせきようらい从简历中ひっさげ关键しんいき github

207. よう于中ぶん闲聊てきGPT2模型もけい:GPT2-chitchat github

208. もと于检さく聊天つくえじん轮响应选择相关资げんれつひょう(Leaderboards、Datasets、Papers) github

209. (Colab)抽象ちゅうしょうぶんほん摘要てきよう实现しゅう锦(教程きょうてい github

210. 词语拼音すうすえ github

211. こうこう模糊もこ搜索そうさく工具こうぐ github

212. NLPすうすえぞう广资げんしゅう github

213. ほろ软对话机じんかまち github

214. GitHub Typo Corpus:だい规模GitHub语言拼写错误/语法错误すうすえしゅう github

215. TextCluster:短文たんぶんほん聚类预处块 Short text cluster github

216. めんこう语音识别的中てきちゅうぶんぶんほん规范 github

217. BLINK:さいさき进的实体链接库 github

218. BertPunc:もと于BERTてきさいさき进标てんおさむ复模がた github

219. Tokenizer:快速かいそくじょうせいてきぶんほん词条 github

220. ちゅうぶん语言理解りかい测评もとなぞらえ包括ほうかつ代表だいひょう性的せいてきすうすえしゅうもとじゅん(预训练)模型もけい、语料库、はいぎょう github

221. spaCy 医学いがくぶんほん挖掘与信よしんいきひっさげ github

222. NLPにん务示れい项目だい码集 github

223. python拼写检查库 github

224. chatbot-list - あるき业内关于智能ちのうきゃくふく、聊天つくえ人的じんてき应用构、算法さんぽうぶんとおるかい github

225. 语音质量评价ゆび标(MOSNet, BSSEval, STOI, PESQ, SRMR) github

226. よう138GB语料训练てき法文ほうぶんRoBERTa预训练语げん模型もけい link

227. BERT-NER-Pytorch:三种不同模式的BERTちゅうぶんNER实验 github

228. 无道词典 - 有道ありみち词典てき命令めいれいぎょう版本はんぽん支持しじえい汉互查和ざい线查询 github

229. 2019ねんNLPあきらてんかい download

  • ひっさげ码: yb6x

230. Chinese medical dialogue data ちゅうぶん疗对话数すえしゅう github

231. さいこのみてき汉字数字すうじ(ちゅうぶん数字すうじ)-おもねひしげはく数字すうじ转换工具こうぐ github

232. もと于百科知识库的中文词语多词义/义项获取あずか特定とくてい词语语义しょう github

233. awesome-nlp-sentiment-analysis - 情感じょうかん分析ぶんせきじょう原因げんいん识别、评价对象评价词抽取 github

234. LineFlow:めんこう所有しょゆう深度しんどがく习框てきNLPすうすえだかこう载器 github

235. ちゅうぶん医学いがくNLPこう开资げん整理せいり github

236. MedQuAD:(英文えいぶん)医学いがく问答すうすえしゅう github

237. はた自然しぜん语言数字すうじくし解析かいせき转换为整すう浮点すう github

238. Transfer Learning in Natural Language Processing (NLP) youtube

239. めんこう语音识别的中てきちゅうぶん/英文えいぶん发音辞典じてん github

240. Tokenizers:ちゅうじゅう性能せいのうあずか多功たこうのう性的せいてきさいさき进分词器 github

241. CLUENER 细粒命名めいめい实体识别 Fine Grained Named Entity Recognition github

242. もと于BERT的中てきちゅうぶん命名めいめい实体识别 github

243. ちゅうぶん谣言すうすえ github

244. NLPすうすえしゅう/もとじゅんにん务大れつひょう github

  • だい多数たすう英文えいぶんすうすえ

245. nlpしょう关的一些论文及代码, 包括ほうかつぬし题模がた、词向りょう(Word Embedding)、命名めいめい实体识别(NER)、ぶん本分ほんぶん类(Text Classificatin)、ぶんほん生成せいせい(Text Generation)、ぶんほん相似そうじせい(Text Similarity)计算とうわたる及到かく种与nlpしょう关的算法さんぽう于kerastensorflow github

246. Pythonぶんほん挖掘/NLP实战しめせれい github

247. Blackstone:めんこう结构法律ほうりつぶんほんてきspaCy pipelineNLP模型もけい github

248. つう过同义词がえ换实现文ほん“变脸” github

249. ちゅうぶん 预训练 ELECTREA 模型もけい: もと于对こうがく习 pretrain Chinese Model github

250. albert-chinese-ner - よう预训练语げん模型もけいALBERT做中ぶんNER github

251. もと于GPT2てき特定とくていぬし题文ほん生成せいせい/ぶんほんぞう广 github

252. 开源预训练语げん模型もけいごうしゅう github

253. 语言むこうりょうつつみ github

254. 编码、标记实现:一种可控高效的文本生成方法 github

255. 英文えいぶん脏话だいれつひょう github

256. attnvis:GPT2、BERTとうtransformer语言模型もけい注意ちゅういりょく交互こうご视化 github

257. CoVoST:Facebook发布てき语种语音-ぶんほんこぼし译语りょう库,包括ほうかつ11种语ごと(ほう语、とく语、兰语、にわか语、西にしはんきば语、大利おおとし语、みみ其语、なみ斯语、みずてん语、こうむ语和ちゅうぶん)てき语音、文字もじ转录及英文えいぶん译文 github

258. Jiagu自然しぜん语言处理工具こうぐ - 以BiLSTMとう模型もけい为基础,提供ていきょう识图谱关けい抽取 ちゅうぶんぶん词 词性标注 命名めいめい实体识别 情感じょうかん分析ぶんせき しん词发现 关键词 ぶんほん摘要てきよう ぶんほん聚类とうこうのう github

259. ようunet实现对文档表かくてき动检测,ひょうかくじゅうけん github

260. NLP事件じけんひっさげ文献ぶんけん资源れつひょう github

261. 金融きんゆう领域自然しぜん语言处理研究けんきゅう资源だいれつひょう github

262. CLUEDatasetSearch - ちゅう英文えいぶんNLPすうすえしゅう搜索そうさく所有しょゆうちゅうぶんNLPすうすえしゅう常用じょうよう英文えいぶんNLPすうすえしゅう github

263. medical_NER - ちゅうぶん医学いがく识图谱命名めいめい实体识别 github

264. (哈佛)讲因果いんが推理すいりてきめん费书 pdf

265. 识图谱相关学习资りょう/かずすえしゅう/工具こうぐ资源だいれつひょう github

266. Forte:灵活强大きょうだいてき自然しぜん语言处理pipeline工具こうぐしゅう github

267. Pythonくし相似そうじせい算法さんぽう github

268. PyLaia:めんこう手写しゅしゃぶん分析ぶんせきてき深度しんどがく习工つつみ github

269. TextFooler:针对ぶん本分ほんぶん类/推理すいりてき对抗ぶんほん生成せいせい github

270. Haystack:灵活、强大きょうだいてき扩展问答(QA)かまち github

271. ちゅうぶん关键たん语抽取工具こうぐ github

272. pdfぶん解析かいせきしょう关工つつみ

  • pdf生成せいせい
    • fdfgen: のう够自动创けんpdfぶん档,并填うつししんいき
  • pdfひょうかく解析かいせき
    • pdftabextract: よう于OCR识别きさきてきひょうかくしんいき解析かいせき,很强だい
    • tabula-py: 直接ちょくせつはたpdfちゅうてきひょうかくしんいき转换为pandasてきdataframe,ゆうjavapython两种ばん本代ほんだい
    • pdfx: 动抽取出とりで引用いんよう参考さんこう文献ぶんけん,并下载对应的pdfぶんけん
    • invoice2data: 发票pdfしんいき抽取
    • camelot: pdfひょうかく解析かいせき
    • pdfplumber: pdfひょうかく解析かいせき
    • pdfぶん档信いき抽取
  • pdf语义分割ぶんかつ
    • PubLayNet:のう够划ぶん段落だんらく、识别ひょうかく、图片
  • pdf读取工具こうぐ
    • PDFMiner:PDFMinerのう获取页面ちゅうぶんほんてきじゅん位置いち,以及字体じたいあるくだりとう其他しんいき。它还ゆういち个PDF转换以将PDFぶんけん转换なり其他ぶん本格ほんかくしき(如HTML)。还有一个可扩展的解析器PDF,以用于文ほん分析ぶんせき以外いがいてき其他用途ようと
    • PyPDF2:PyPDF 2いち个python PDF库,のう分割ぶんかつごう并、たっ剪和转换PDFぶんけんてき页面。它还以向PDFぶんけんちゅう添加てんかてい义数すえ、查看选项かずひそか码。它可以从PDF检索ぶんほんもとすうすえ,还可以将せい个文けんあい并在いちおこり
    • ReportLab:ReportLabのう快速かいそく创建PDF ぶん档。经过时间证明てきちょうこのみようてき开源项目,よう于创けん复杂てきかずすえ驱动てきPDFぶん档和てい义矢りょう图形。它是めん费的,开源てきようPython编写てき。该软けんつつみごと月下げっか载5まんつぎ标准Linux发行ばんてきいち部分ぶぶん嵌入かんにゅういた许多产品ちゅう,并被选中为Wikipediaてきしるし/导出こうのう提供ていきょう动力。

273. ちゅうぶん词语相似そうじ计算方法ほうほう gihtub

  • 综合りょうどう义词词林扩展ばんあずか网(Hownet)てき词语相似そうじ计算方法ほうほう,词汇覆盖更、结果さらじゅん确。

274. 人民じんみん报语りょう库处理工りこうしゅう github

275. stanza:斯坦ぶく团队NLP工具こうぐ github

  • 处理ろくじゅう种语げん

276. 一个大规模医疗对话数据集 github

  • 包含ほうがん110まん医学いがく咨询,400万条医患对话

277. 新冠にいかっぷ肺炎はいえんしょう关数すえ

  • 新冠にいかっぷ及其类型肺炎はいえんちゅうぶん疗对话数すえしゅう github
  • きよし华大がくとうつくえ构的开放すうすえげん(COVID-19)github

278. DGL-KE 图嵌入かんにゅう表示ひょうじがく习算ほう github

279. nlp-recipes:ほろ出品しゅっぴん--自然しぜん语言处理さいけい实践范例 github

280. chinese_keyphrase_extractor (CKPE) - A tool for chinese keyphrase extraction 一个快速从自然语言文本中提取和识别关键短语的工具 github

281. 使用しようGAN生成せいせいひょうかくすうすえ(仅支持しじ英文えいぶん github

282. Google发布Taskmaster-2自然しぜん语言にん务对话数すえしゅう github

283. BDCI2019金融きんゆう负面しんいき判定はんてい github

284. ようしん经网络符ごう推理すいりもとめかい复杂数学すうがくかたほど github

285. 粤语/えい语会话双语语りょう github

286. ちゅうぶんELECTRA预训练模がた github

287. めんこう深度しんどがく研究けんきゅうじん员的自然しぜん语言处理实例教程きょうてい github

288. Parakeet:もと于PaddlePaddleてきぶんほん-语音合成ごうせい github

289. 103976个英语单词库(sqlばん,csvばん,Excelばんつつみ github

290. 《うみ贼王》识图谱 github

291. ほう智能ちのう文献ぶんけん资源れつひょう github

292. Datasaur.ai ざい线数すえ标注工作こうさくりゅう管理かんり工具こうぐ link

293. (Java)じゅん确的语音自然しぜん语言检测库 github

294. めんこうかく语种/にん务的BERT模型もけいだいれつひょう/搜索そうさく引擎 link

295. CoVoST:Facebook发布てき语种语音-ぶんほんこぼし译语りょう github

296. もと于预训练模型もけい的中てきちゅうぶん关键词抽取方法ほうほう github

297. Fancy-NLP:よう于建设商品しょうひん画像がぞうてきぶんほん识挖掘工具こうぐ github

298. もとひゃくwebqaあずかdureaderすうすえしゅう训练てきAlbert Large QA模型もけい github

299. BERT/CRF实现てき命名めいめい实体识别 github

300. ssc, Sound Shape Code, おとがた码 - もと于“おとがた码”的中てきちゅう文字もじくし相似そうじ计算方法ほうほう

301. ちゅうぶんゆびだいしょうかいすうすえ github

302. 全面ぜんめん简便的中てきちゅうぶん NLP 工具こうぐつつみ github

303. ちゅうぶんぶん词(元素げんそ识别与抽取),つう序列じょれつ标注进行NER github

304. ようTransformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)预测いち个词(模型もけい较) github

305. ぶんほんつくえがく习模がたさいさき进解释器库 github

306. ぶん摘要てきようすうすえしゅう github

307. よう记事ほん渲染3D图像 github

308. char_featurizer - 汉字とくせいひっさげ工具こうぐ github

309. SimBERT - もと于UniLM思想しそうとおる检索あずか生成せいせい一体いったいてきBERT模型もけい github

310. Pythonおん频特せいひっさげつつみ github

311. TensorFlow 2 实现てきぶんほん语音合成ごうせい github

312. 情感じょうかん分析ぶんせきわざ术:让智能ちのうきゃくふくさら懂人类情かん github

313. TensorFlow Hub最新さいしん发布40+种语げんてきしん语言模型もけい(包括ほうかつちゅうぶん) link

314. 汉字とくせいひっさげうつわ (featurizer),ひっさげ汉字てきとくせい(发音とくせい字形じけいとくせいよう深度しんどがく习的とくせい github

315. こう业界常用じょうようもと于DSSMむこうりょう召回pipeline复现 github

316. 存在そんざいてき词:ようGPT-2变体从头生成せいせいしん词及其定义、れい github

317. TextAttack:自然しぜん语言处理模型もけい对抗せいおさむ击框 github

318. かたき恨言论检测进てん link

319. OPUS-100:以英文えいぶん中心ちゅうしんてき语(100种)平行へいこう语料 github

320. 从论文中ぶんちゅうひっさげおもてかくすうすえ github

321. 让人じん变得“あきらあきら有礼ありのり”:れい貌迁うつりにん务——ざい留意りゅうい义的どう时将非礼ひれい貌语转换为礼貌语提供ていきょう包含ほうがん1.39M + 实例てきすうすえしゅう paper and code

322. ようBERTざいひょうかくちゅう寻找答案とうあん github

323. PyTorch实现てきBERT事件じけん抽取(ACE 2005 corpus) github

324. ひょうかく问答てき系列けいれつ文章ぶんしょう

325. LibKGE:めんこう复现研究けんきゅうてき识图谱嵌入かんにゅう github

326. comparxiv :よう于比较arXivじょう两提交版本はんぽん异的命令めいれい pypi

327. ViSQOL:おと频质りょう感知かんちきゃく观、かんせい参考さんこうゆび标,ふんおん频、语音两种しき github

328. 方面ほうめん情感じょうかん分析ぶんせきつつみ github

329. dstlr:结构ぶんほん扩展识图谱构けん平台ひらだい github

330. よしぶんほん生成せいせい项选择题 github

331. だい规模またが领域ちゅうぶんにん务导こう轮对话数すえしゅう及模がたCrossWOZ paper & data

332. whatlies:词向りょう交互こうご视化 spacy 工具こうぐ

333. 支持しじ批并ぎょうてきLatticeLSTMちゅうぶん命名めいめい实体识别 github

334. もと于Albert、Electra,よう维基百科文本作为上下文的问答引擎 github

335. Deepmatch:针对推荐、广告搜索そうさくてき深度しんどひきはい模型もけい github

336. 语音こう具合ぐあいしゅう

  • zhrtvc こうよう的中てきちゅうぶん语音かつ隆兼たかかねちゅうぶん语音合成ごうせいけいgithub
  • aukit こうようてき语音处理工具こうぐばこ包含ほうがん语音くだ噪、おと频格しき转换、とくせい频谱生成せいせいとうgithub
  • phkit こうようてき音素おんそ处理工具こうぐばこ包含ほうがんちゅうぶん音素おんそ英文えいぶん音素おんそぶんほん转拼おんぶんほんせい则化とうgithub
  • zhvoice ちゅうぶん语音语料,语音更おとふけしん自然しぜん包含ほうがん8个开げんすうすえしゅう,3200个说话人,900しょう时语おん,1300まん github

337. 音字おんじ词典すうすえ及代码 github

338. audio:めんこう语音ぎょう为检测、值化、说话じん识别、动语おん识别、情感じょうかん识别とうにん务的おん频标ちゅう工具こうぐ github

339. だい规模、结构ちゅう英文えいぶんそう语的新冠にいかっぷとも识图谱(COKG-19) link

  • COKG-19包含ほうがんりょう505个概念がいねん、393个属せい、26282个实れい32352个知识さんげん组,くつがえ盖了疗、健康けんこうもの资、ぼうひかえけんかず人物じんぶつとう

340. 132个知识图谱的すうすえしゅう link

  • 涵盖つね识、城市じょうし金融きんゆう、农业、地理ちり、气象、社交しゃこうもの联网、疗、娱乐、生活せいかつしょう业、いでゆききょう

341. 42GBてきJDきゃくふく对话すうすえ(CSDD) github

  • 12亿句训练いたてきword embedding

342. 合成ごうせいすうすえ生成せいせいもとじゅん github

343. 汉字、词语、なり语查询接こう github

344. ちゅうぶん问题相似そうじ计算赛及方案ほうあん汇总 github

345. Texthero:ぶん本数ほんすうすえだかこう处理つつめ包括ほうかつ预处、关键词提命名めいめい实体识别、むこうりょうそら分析ぶんせきぶんほん视化とう github

346. SIMPdf:Pythonうつしてき简单PDFぶんけん文字もじ编辑 github

347. 《配色はいしょく辞典じてんすうすえしゅう github

348. carefree-learn:(PyTorch)おもてかくすうすえしゅう动化つくえがく习(AutoML)つつみ github

349. token2index:あずかPyTorch/Tensorflowけんようてき强大きょうだい轻量词条索引さくいん github

350. 开源对话しきしんいき搜索そうさく平台ひらだい github

351. 对联すうすえ github

  • 700,000 couplets, ちょう过70まん对对联
  • ひゃくうん盘:链接 みつ码:egpt

352. もと于PytorchてきBert应用,包括ほうかつ命名めいめい实体识别、情感じょうかん分析ぶんせきぶん本分ほんぶん类以及文ほん相似そうじとう github

353. TaBERT:理解りかいひょうかくすうすえ查询てきしん模型もけい paper

354. Dakshinaすうすえしゅうじゅう二种南亚语言的拉丁/本地ほんじ文字もじ平行へいこうすうすえ集合しゅうごう github

355. NLP标注平台ひらだい综述 github

356. ふう闭域ほろ调表かく检测 github

357. 深度しんどがく习情かんぶんほん语音合成ごうせい github

358. ちゅうぶんうつしさくこう对工 github

359. ようQuora问题对训练的T5问题译(Paraphrase) github

360. じょうさかい互动态对话挑战2020(DSTC9 2020) github

361. nlpgnn:图神经网络自然しぜん语言处理工具こうぐばこ github

362. Macadam:以Tensorflow(Keras)かずbert4keras为基础,专注于文本分ほんぶん类、序列じょれつ标注关系抽取てき自然しぜん语言处理工具こうぐつつみ github

363. よう新版しんぱんnlp库加载17GB+英文えいぶん维基语料ただうらないよう9MBないそんへん速度そくど2-3 Gbit/s github

About

ちゅう英文えいぶん敏感びんかん词、语言检测、中外ちゅうがいしゅつくえ/电话归属/运营しょう查询、名字みょうじ推断すいだんせい别、つくえごう抽取、份证抽取、邮箱抽取、中日ちゅうにち文人ぶんじんめい库、ちゅうぶん缩写库、拆字词典、词汇情感じょうかん值、とまよう词、はん动词ひょう、暴恐词表、しげる简体转换、英文えいぶん拟中ぶん发音、ひろしほう生成せいせい、职业名称めいしょう词库、どう义词库、はん义词库、否定ひてい词库、汽车ひんぱい词库、汽车れいけん词库、连续英文えいぶんきりわりかく种中ぶん词向りょう公司こうし名字みょうじ大全たいぜん诗词库、IT词库、财经词库、なり语词库、地名ちめい词库、历史名人めいじん词库、诗词词库、医学いがく词库、饮食词库、法律ほうりつ词库、汽车词库、动物词库、ちゅうぶん聊天语料、ちゅうぶん谣言すうすえ、百度中文问答数据集、相似そうじひきはい算法さんぽう集合しゅうごう、bert资源、ぶんほん生成せいせい&摘要てきようしょう关工、cocoNLPしんいき抽取工具こうぐ国内こくない电话ごう码正则匹はいきよし华大がくXLORE:ちゅう英文えいぶんまたが语言百科知识图谱、きよし华大がく人工じんこう智能ちのうわざ术…

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%