BeautifulSoup解析HTML(1)

2013-03-12

BeautifulSoup解析HTML(一)用BeautifulSoup解析时要注意在有汉字的网页中编码解码问题,下面是获取大街网网

BeautifulSoup解析HTML(一)

用BeautifulSoup解析时要注意在有汉字的网页中编码解码问题,下面是获取大街网网页中class='jobInfo'的div标签的数据内容

from bs4 import BeautifulSoupimport urllib2c = urllib2.urlopen('http://job.dajie.com/7262fae6-a1aa-4674-9efa-3baf697faa46.html')soup = BeautifulSoup(c.read())for div in soup.find_all('div'):    if div.get('class') == ['jobInfo']:        print 'find it'        #print div.contents        s = div.contents        for x in s:            if (x.encode('GB2312')) != '<br/>' and (x.encode('GB2312')) != '\n': #注意此处GB2312编码不是utf8                print x.encode('GB2312')        break

热点排行

css3卡通系列之animation 属性
纯css多级菜单的解决方法
请问IE8兼容视图下CSS样式显示不正确有关
一个简单的有关问题不伤脑细胞
帮初学者解决分页效果
html下载按钮,该如何解决
小弟我做了一个置顶，为什么火狐打开就能
JavaScript TO HTML 变换
显示宽度的有关问题
页面。解决方案

CSS

BeautifulSoup解析HTML(1)