首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > C++ >

pdf文本提取,该怎么处理

2013-01-05 
pdf文本提取最近在做的项目牵涉到一些pdf的内容,想向高手们请教下。需求是将pdf中的文字内容提取出来,现在

pdf文本提取
最近在做的项目牵涉到一些pdf的内容,想向高手们请教下。需求是将pdf中的文字内容提取出来,现在我已经做到将stream和endstream之间的部分用zlib解压还原,得到一堆pdf格式的内容,里面掺杂着我所需要的内容。
现在的问题有两个,一是解压出来的pdf的格式貌似有点乱,不知哪位有比较详细的讲这块的格式方面的资料可以提供,二是一个比较大的问题,就是中文的问题,解压出来的中文是乱码,我不知道这是什么编码,怎么处理,希望给予指教,谢谢。 
QQ:498259675 希望大侠指教。
[解决办法]
中文编码常用的有UTF8、GBK、Unicode即UTF16,试试是哪个吧。我想总不至于是JIS, Shift-JIS, EUC-JP
[解决办法]
推荐使用convertz软件进行汉字编码转换。
[解决办法]
恩 是个难题。
如果你只是提取文本内容,对于解压出的pdf格式,不需要关注太多,只要找Tj和TJ就行。
对于汉字的处理,真是不能给什么好的建议了。

热点排行