urllib2 编码有关问题
urllib2 编码问题Python codedef getWebContent(url):response urllib2.urlopen(url, timeout20)return
urllib2 编码问题
Python codedef getWebContent(url): response = urllib2.urlopen(url, timeout=20) return response.read()if __name__=="__main__": print(getWebContent("http://www.hao123.com"))
显示的结果中:中文为
<meta name="keywords" content="\xe8\xae\xba\xe5\x9d\x9b" />
<meta name="description" content="\xe8\xae\xba\xe5\x9d\x9b " />
请问如何自动判断页面的编码得到正确的中文?
[解决办法]google urllib2 charset
[解决办法]python的编码是个复杂的问题,需要先搞清楚,还有你想怎么保存数据,是原样还是统一转换为utf8
[解决办法]咋编的就咋解...
[解决办法]解析内容,获取编码
好像返回的头信息里一般也有编码类型,可以getHeader一下
[解决办法]有的可以通过encode后再decode获取,另外也是html页面charset决定得