首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar上载地址)

2012-09-29 
使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址)???? 耗

使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址)
???? "耗时一年研制出了ICTCLAS汉语词法分析系统";
?? SegTag segTag = new SegTag(1);// 分词路径的数目??
?? SegResult segResult = segTag.split(fileContent.trim());
?? String classifyContent = segResult.getFinalResult();
?? System.out.println("分词结果\n"+classifyContent);

}

}

就是这样,我们可以得到输出的结果,并且带有词性的标注。

分词结果:
中国科学院/n 计算/n 技术/n 研究所/n 在/c 多年/m 研究/n 基础/a 上/f ,/w 耗时/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 汉语/n 词法/n 分析/v 系统/a

三、关于可能出现的错误

??? 1.越界错误

在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句

if(wis != null)

否则有时会报出越界错误

2. “org.apache”

这个新建的测试类可能会提示错误:"The import org.apache cannot be resolved",这是由于系统需要一个Apache的commons的jar包。

?

附件中有 commons-lang-2.4.jar和停用词表(stopwords.rar)下载 。

热点排行