首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

urllib获取网页内容遇到了乱码!该怎么解决

2013-01-25 
urllib获取网页内容遇到了乱码!import urllibprint urllib.urlopen(http://www.hack921.cn).read()汉字

urllib获取网页内容遇到了乱码!


import urllib
print urllib.urlopen('http://www.hack921.cn').read()


汉字部分出现了像“\xef\xbb\xbf ”这样的乱码;经过分析,该网页没有进行编码设定,urllib是把这个网页的编码当什么字符编码进行处理了呢?该如何把这种字符编码转换成汉字呢???
[解决办法]
我在Linux上是没问题的。Windows可能没自动处理bom?要不你试下utf-8-sig:
import urllib
print urllib.urlopen('http://www.hack921.cn').read().decode('utf-8-sig')

[解决办法]
原来那个几个自己是本身页面上带的,我试着存了一下:


import urllib
l= urllib.urlopen('http://www.hack921.cn')
f = codecs.open(r'C:\WORK\build\build.properties', 'wb')

f.writelines(l.read())

热点排行