首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件开发 >

paoding 汉语分词学习

2013-03-16 
paoding 中文分词学习因为毕业设计需要用到中文分词这个功能,自己写分词软件?简直是天方夜谭。查了一下比较

paoding 中文分词学习

因为毕业设计需要用到中文分词这个功能,自己写分词软件?简直是天方夜谭。

查了一下比较通用的分词软件,最后选择了paoding中文分词,理由看图片:

paoding 汉语分词学习

paoding 汉语分词学习


仅支持java语言,作为一个java爱好者,有什么比这句话更有诱惑的呢。

俗话说:万事开头难。第一步当然是先现在开发包了,下载地址:点击打开链接

下载之后,下一步就是去阅读开发文档了。于是,果断泪奔了!

paoding 汉语分词学习

paoding 汉语分词学习

有这么简陋的开发文档吗!!!能再简陋点吗!!!好吧,忍了!

还好上面还是有“效果体验”和“开始使用”两部分的文档。

先体验一下

paoding 汉语分词学习

paoding 汉语分词学习

效果还行吧~~


于是就开始使用

paoding 汉语分词学习

paoding 汉语分词学习

原来要设置一个词库,瞅瞅下载的开发包,里面有 dic 目录随便打开一个文件:

paoding 汉语分词学习原来是这样子的。

paoding 汉语分词学习

大致明白了,庖丁是根据这些库里面的词组,进行对中文的分词的。按照开发文档设置好环境变量,把example包下面的例子拷贝到自己新建的项目中,根据提示,导入需要的包:

paoding 汉语分词学习

paoding 汉语分词学习paoding依赖的是lucene,所以lucene的jar包要导入,logging的jar包主要负责日志生成,junit复测单元测试。

在paoding的开发包里面的lib目录下面,有两个spring的jar包,根据开发文档目录(因为只有目录没内容)推测,这个是用来支持spring的,暂时不用。


然后运行,结果报错!错误提醒说我没有设置PAODING_IDC_HOME,我明明设置了啊!重新搞了很多次,依旧不行。没办法了问google老师吧,查了半天,原来是开发文档搞错了

paoding 汉语分词学习

paoding 汉语分词学习

PAODING_DIC_HOME的变量值少个'/',应该是 E:/data/paoding/dic/  

不知道是哪个部分责任的写的开发文档。google环境变量的同时也找到了另一种方法,根据环境变量报错提示,发现还有另一种方法设置paoding_dic_home。

paoding 汉语分词学习

paoding-analysis.jar  包里面有个文件paoding-dic-home.properties

把里面的修改为下面的


下一步就是研究具体怎么使用paoding分词了。

-------------------------------------------------------------------------------

自己把自己的这个demo和paoding的开发包放在csdn了,供大家免积分下载,共同交流;点击打开链接

热点排行