首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

汉语分词 庖丁解牛 版本号 2.0.1

2012-10-27 
中文分词 庖丁解牛 版本号 2.0.1庖丁解牛 中文分词 版本号 2.0.1---------------------------------------

中文分词 庖丁解牛 版本号 2.0.1
庖丁解牛 中文分词 版本号 2.0.1

---------------------------------------------------
相对2.0.0版本变更如下:

重构(!)
svn上的代码和字典从原来的GBK编码转化为UTF-8编码(使用Eclipse下载代码的同学需要改变工程的encoding)
->从统计上,更多人使用UTF-8而非GBK,故改之;望谅。

重构(!)
重构PaodingMaker使调用make获取Paoding对象,一个配置文件默认只会产生一个Paoding(通过记录文件的绝对路径并记录之实现)
->2.0.0如果多次调用PaodingMaker.make会多次载入词典,虽然这是有意的。2.0.1不必有如此担心了,同一个配置文件的Paoding不会多次创建。

重构(!)
重构PaodingMaker使可以调用多次make方法根据不同配置文件(类路径或普通文件路径)产生不同的Paoding
->这个特性目的是为了支持根据不同的应用场合扩招Paoding的分词针对性(庖丁能够根据配置不同的Knife而具有完全不同的分词效果)
->2.0.0不能同时根据不同的配置文件产生Paoding对象

重构
删除几乎无用的net.paoding.dictionary.support.Util类(其中有一个函数被move到其他位置)

重构
增加Constants接口记录配置文件中配置项的name

增强
当指定的词典安装目录或其子目录下没有任何词典文件时,抛出PaodingAnalysisException,并提示:Not found any dictionary files, have you set the 'paoding.dic.home' right?

增强
可以在配置文件中指定字符集读取字典文件,如果没有配置则使用UTF-8。配置项名为paoding.dic.charset

增强:增加build.xml文件

错误:
当没有noiseWord、noiseCharactor、unit、confucianFamilyName等特定词典时无法使用,应为忽略之而正常使用

错误:
非词典直接目录下的设置词典忽略前缀无效

错误:
将错误的命名paoding-analy[s]is.jar纠正为paoding-analysis.jar
之前jar命名少了中括号标注的字母
---------------------------------------------------
任务表(还未实现的任务)
1、繁简体的支持[优先级:中]
2、动态转载变更的词典[优先级:高]
3、针对高级使用者的文档[优先级:低]


---------------------------------------------------
示例:
请参考:庖丁解牛 2.0.0版本发布 之《"庖丁解牛" 使用指南》


---------------------------------------------------
相关地址

svn地址:http://paoding.googlecode.com/svn/trunk/paoding-analysis

zip下载:http://code.google.com/p/paoding/downloads/list

论   坛:http://groups.google.com/group/paoding

JavaEye:http://analysis.group.iteye.com/

高亮问题已解决,原因是之前使用你的早期版本发现有问题,便拿Highlighter来开刀,谁知没改好就改出问题,后来忘了改回去,所以出问题。真不好意思。

现在又发现两个问题:

1、使用查询模式的PaodingAnalyzer去查询用写模式建立的索引时,基本上无法检索到结果,举例:索引中存在“计算机安全XXX”,如果查询“计算机”是可以查到结果的,但如果查询“计算机安全”就无法检索到结果。类似情况很多,只要你在检索结果中复制一段相对长的字符串作为检索词,很有可能无结果。

2、在索引比较大的情况下(如:400M),搜索速度会变成非常慢,由于查询模式的PaodingAnalyzer很多情况下无法检索结果,我使用写模式的PaodingAnalyzer,以求最多的检索结果,我的在实际中测试有时超过1秒,而且检索词越多,速度变慢得越明显。同样的Size的检索,我使用MMAnalyzer,速度在0.1秒以内

希望得到解决……t.jar;lib/ant/ant-launcher.jar;lib/ant/ant-trax.jar;lib/ant/ant-junit.jar;lib/ju
nit/junit.jar;lib/clover/clover.jar;"C:\j2sdk1.4.2_08/lib/tools.jar" org.apache.
tools.ant.Main
Buildfile: build.xml

compile:
   [delete] Deleting directory E:\temp\paoding-analysis-2.0.4-alpha2\classes
    [mkdir] Created dir: E:\temp\paoding-analysis-2.0.4-alpha2\classes
    [javac] Compiling 57 source files to E:\temp\paoding-analysis-2.0.4-alpha2\c
lasses
    [javac] E:\temp\paoding-analysis-2.0.4-alpha2\src\net\paoding\analysis\analy
zer\PaodingAnalyzerBean.java:123: cannot resolve symbol
    [javac] symbol  : constructor IllegalArgumentException (java.lang.String,jav
a.lang.ClassNotFoundException)
    [javac] location: class java.lang.IllegalArgumentException
    [javac]                     throw new IllegalArgumentException("not found mo
de class", e);
    [javac]                               ^
    [javac] E:\temp\paoding-analysis-2.0.4-alpha2\src\net\paoding\analysis\analy
zer\PaodingAnalyzerBean.java:160: cannot resolve symbol
    [javac] symbol  : constructor IllegalArgumentException (java.lang.String,jav
a.lang.InstantiationException)
    [javac] location: class java.lang.IllegalArgumentException
    [javac]                             throw new IllegalArgumentException("wron
g mode class", e);
    [javac]                                       ^
    [javac] E:\temp\paoding-analysis-2.0.4-alpha2\src\net\paoding\analysis\analy
zer\PaodingAnalyzerBean.java:162: cannot resolve symbol
    [javac] symbol  : constructor IllegalArgumentException (java.lang.String,jav
a.lang.IllegalAccessException)

---------------------------------------
[我的jdk版本:]
E:\temp\paoding-analysis-2.0.4-alpha2>java -vaersion
Unrecognized option: -vaersion
Could not create the Java virtual machine.

8 楼 Qieqie 2008-04-25   谢谢!
这是JDK1.4 API的问题。
很久之前已经有热心人士报告JDK1.4的问题并在当时fix commit到svn上了 9 楼 melin 2008-04-25   paoding 包的路径不能有中文或空格 10 楼 cqf820 2008-04-25   qieqie, 您好.
可是我连svn时候, 提示正在取数据, 但马上就没信息了.

无法正常取到数据.
我当的是paoding-analysis-2.0.4-alpha2版本.

回:melin, 我没有用到中文或空格路径
11 楼 qizhan 2008-04-27   cqf820 写道qieqie, 您好.
可是我连svn时候, 提示正在取数据, 但马上就没信息了.

无法正常取到数据.
我当的是paoding-analysis-2.0.4-alpha2版本.

回:melin, 我没有用到中文或空格路径





我这边连svn很正常的。 12 楼 heitu278 2008-05-08   切切!好样的!加油!

热点排行