首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

用python抓取的一个网页,本来是简体字的,抓下来之后变成繁体字了,怎么转换成简体字

2012-04-11 
用python抓取的一个网页,本来是简体字的,抓下来之后变成繁体字了,如何转换成简体字我编了一个python程序来

用python抓取的一个网页,本来是简体字的,抓下来之后变成繁体字了,如何转换成简体字
我编了一个python程序来抓取网页内容,
file_url='http://www.....'
urldata = opener.open(file_url)
m=urldata.read()

原始网页是简体字的,charset=UTF-8 可是爬下来之后却是繁体字的,charset=UTF-8
为什么会变成繁体字的呢?
要怎么再转换成简体字网页呢?
新手,多谢高手指导

[解决办法]
设下http header:

Accept-Language: zh-cn,zh;q=0.7,en-us;q=0.3

这个是我的firefox设的。你可以自己抓包看下你的浏览器发的是什么。

[解决办法]
gbk啊或者gb2312
sdata = str(urldata,encoding="gbk")
[解决办法]

探讨

设下http header:

Accept-Language: zh-cn,zh;q=0.7,en-us;q=0.3

这个是我的firefox设的。你可以自己抓包看下你的浏览器发的是什么。

热点排行