首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 开源软件 >

扩充词库构建设计方案

2013-07-11 
扩展词库构建设计方案背景:我们可以看到蓝天和白云几乎是同时出现的,那么他们的关联就比较强,这样我们就认

扩展词库构建设计方案

背景:

我们可以看到蓝天和白云几乎是同时出现的,那么他们的关联就比较强,这样我们就认为蓝天是白云的扩展词,这样在做文本计算的时候可以强关联替换,类似同义词一样,来弥补文本挖掘的不足。

?

技术背景:

基于Hadoop的MR

?

分析:

1.基于常用文本进行切词从而组建扩展词;

2.基于tf计算的时候要考虑词频的影响;

3.扩展词库是否需要考虑支持度和置信度;

4.约定每个文本切词完成之后为一个事务;

?

?

方案:

1.基于文本切词计算tf;

2.计算任意两词之间的距离,计算公式为:d(w1,w2)=|tf1-tf2|;

3.扫描所有的事务,累加距离;

4.只考虑支持度和距离阀值,低于支持度阀值的忽略,高于距离阀值的忽略;

5.基于w1,统计其扩展词库,并基于距离排序;

?

?

热点排行