(Translated by https://www.hiragana.jp/)
GitHub - bigxu/sego: Go中文分词
Skip to content

bigxu/sego

 
 

Repository files navigation

sego

Goちゅうぶんぶん

词典もちいそうすう组trie(Double-Array Trie)实现, ぶん词器算法さんぽう为基于词频的最短さいたんみち动态规划。

支持しじ普通ふつう搜索そうさく引擎两种ぶん词模しき支持しじよう户词てん、词性标注,运行JSON RPCふく

ぶん速度そくど单线ほど9MB/s,goroutines并发42MB/s(8かくMacbook Pro)。

あんそう/更新こうしん

go get -u github.com/huichen/sego

使用しよう

package main

import (
	"fmt"
	"github.com/huichen/sego"
)

func main() {
	// 载入词典
	var segmenter sego.Segmenter
	segmenter.LoadDictionary("github.com/huichen/sego/data/dictionary.txt")

	// ぶん
	text := []byte("ちゅう人民じんみん共和きょうわこく中央ちゅうおう人民じんみん政府せいふ")
	segments := segmenter.Segment(text)
  
	// 处理ぶん词结はて
	// 支持しじ普通ふつうしき搜索そうさくしき两种ぶん词,见代码中SegmentsToString函数かんすうてきちゅう释。
	fmt.Println(sego.SegmentsToString(segments, false)) 
}

About

Goちゅうぶんぶん

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Go 91.1%
  • HTML 8.9%