首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > PowerDesigner >

Word/Excel/PDF文件转换成HTML拾掇

2012-10-30 
Word/Excel/PDF文件转换成HTML整理项目开发过程中,需求涉及到了各种文档转换为HTML或者网页易显示格式,现

Word/Excel/PDF文件转换成HTML整理

项目开发过程中,需求涉及到了各种文档转换为HTML或者网页易显示格式,现在将实现方式整理如下:
一、使用Jacob转换Word,Excel为HTML

“JACOB一个Java-COM中间件.通过这个组件你可以在Java应用程序中调用COM组件和Win32 libraries。”

首先下载Jacob包,JDK1.5以上需要使用Jacob1.9版本(JDK1.6尚未测试),与先前的Jacob1.7差别不大

1、将压缩包解压后,Jacob.jar添加到Libraries中;

2、将Jacob.dll放至“WINDOWS\SYSTEM32”下面。

需要注意的是:
【使用IDE启动Web服务器时,系统读取不到Jacob.dll,例如用MyEclipse启动Tomcat,就需要将dll文件copy到MyEclipse安装目录的“jre\bin”下面。
一般系统没有加载到Jacob.dll文件时,报错信息为:“java.lang.UnsatisfiedLinkError: no jacob in java.library.path”】

新建类:

String cmd = "....";此处代码是调用创建的bat文件进行转换 

 

8) 测试转换

 

 

@echo offset folderPath=%1set filePath=%2cd /d %folderPath%\convertPdfpdftohtml -enc GBK %filePath%exit
34 楼 lanfanghe 2009-08-05   我直接在cmd中运行pdftohtml,都不通过,以下是我的执行过程

当我用pdftotext
E:\xpdf>pdftotext -f 1 -l 3 -layout  -enc GBK 森林碳汇市场发展现状及前景展望.pdf ztest.txt
生成文件成功,未出现任何异常,txt内容正常

然而用pdftohtml
E:\xpdf>pdftohtml -f 1 -l 3 -c -enc GBK 森林碳汇市场发展现状及前景展望.pdf  ztest.html
系统提示:pdftohtml.ext遇到问题需要关闭。我们对此引起的不便表示抱歉......
目录生成了文件如下:
ztest-1.html
ztest.html
ztest_ind.html

但是里面仅有一个大框,而且内容为空,而且这个文档有3页面,说明执行了一半就报错了,我更换了UTF-8也一样报错
这个文档的字体是:楷体_GB2312   宋体,
我又测试了一些其他的pdf,发现五个报错,而这五个都是这种字体!所以我怀疑pdftothml存在bug

其他字体,测试了大约20个左右,未发现问题。
35 楼 donglx2004 2009-08-12   请问楼主,excelToHtml转xls之后完全是乱码,不知道怎么解决

热点排行