pdf文本提取,该怎么处理

pdf文本提取最近在做的项目牵涉到一些pdf的内容，想向高手们请教下。需求是将pdf中的文字内容提取出来，现在

pdf文本提取
最近在做的项目牵涉到一些pdf的内容，想向高手们请教下。需求是将pdf中的文字内容提取出来，现在我已经做到将stream和endstream之间的部分用zlib解压还原，得到一堆pdf格式的内容，里面掺杂着我所需要的内容。
现在的问题有两个，一是解压出来的pdf的格式貌似有点乱，不知哪位有比较详细的讲这块的格式方面的资料可以提供，二是一个比较大的问题，就是中文的问题，解压出来的中文是乱码，我不知道这是什么编码，怎么处理，希望给予指教，谢谢。
QQ：498259675 希望大侠指教。
[解决办法]
中文编码常用的有UTF8、GBK、Unicode即UTF16，试试是哪个吧。我想总不至于是JIS, Shift-JIS, EUC-JP
[解决办法]
推荐使用convertz软件进行汉字编码转换。
[解决办法]
恩是个难题。
如果你只是提取文本内容，对于解压出的pdf格式，不需要关注太多，只要找Tj和TJ就行。
对于汉字的处理，真是不能给什么好的建议了。