文本分类中信息增益的计算
在文本分类中,需要进行特征选择,常采用的方法是计算每个特征的信息增益,
公式如下:
式中:P(Ci),表示类别Ci出现的概率,用类别Ci的文档数除以总的文档数;
P(t),就是特征T出现的概率,用出现过T的文档数除以总文档数
P(Ci|t)表示出现T的时候,类别Ci出现的概率,只要用出现了T并且属于类别Ci的文档数除以出现了T的文档数就可以了
P(Ci|~t)怎么计算?是P(Ci|~t)=1-P(Ci|t)吗?从概率论的角度看不对。
请高手指点
[解决办法]
是这样计算的