首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > 编程 >

从伪word格式的doc资料中提取文本内容

2012-12-19 
从伪word格式的doc文件中提取文本内容从mht文件中提取html内容最近做的一个程序中,需要把从51job导出来的

从伪word格式的doc文件中提取文本内容
从mht文件中提取html内容

最近做的一个程序中,需要把从51job导出来的简历进行解析,51job支持doc和mht格式。开始时以为该doc文件是Word文件,于是采用Apache POI中提供的WordExtractor来进行,从word文件中提取文本内容。

?

?

?

这样之后,htmlFile指定的文件中保存的就是提取出来html内容。在实际的测试中,发现需要对代码做一下小的修改,在类Html2MHTCompiler第441行附近。

?

                String strEncodng = getEncoding(bp1);                if (strEncodng == null) {                    strEncodng = "GBK"; // 2012.04.23                } else {                    strEncodng = strEncodng.replace(""", "");                }                String strText = getHtmlText(bp1, strEncodng);

?

?

至少在我测试的doc/mht文件中能正确处理。

?

?

热点排行