urllib获取网页内容遇到了乱码！该怎么解决

2013-01-25

urllib获取网页内容遇到了乱码！import urllibprint urllib.urlopen(http://www.hack921.cn).read()汉字

urllib获取网页内容遇到了乱码！


import urllib
print urllib.urlopen('http://www.hack921.cn').read()

汉字部分出现了像“\xef\xbb\xbf ”这样的乱码；经过分析，该网页没有进行编码设定，urllib是把这个网页的编码当什么字符编码进行处理了呢？该如何把这种字符编码转换成汉字呢？？？
[解决办法]
我在Linux上是没问题的。Windows可能没自动处理bom？要不你试下utf-8-sig：

import urllib
print urllib.urlopen('http://www.hack921.cn').read().decode('utf-8-sig')

[解决办法]
原来那个几个自己是本身页面上带的，我试着存了一下：


import urllib
l= urllib.urlopen('http://www.hack921.cn')
f = codecs.open(r'C:\WORK\build\build.properties', 'wb')

f.writelines(l.read())