python用正则解析html的问题
用py读取网页,并简单地解析html源码,遇到了一些问题,还希望各位能花些时间帮忙解答一下。
py版本是2.7,系统平台是win
比如cn.bing.com的网页,有<div id="sw_pb"></div>的部分。我想用正则获取到这部分。
import re, urllib2request = urllib2.urlopen('http://cn.bing.com/')html = request.read()p = re.compile('<div id="sw_pb">.*</div>')print p.match(html)# -*- coding: utf-8 -*-import re, urllib2request = urllib2.urlopen("http://cn.bing.com/")html = request.read()p = re.compile(unicode('<div id="sw_pb">.*</div>', 'utf-8').encode('utf-8'))print p.match(html)