首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

应用 Python 蛮力提取"网易读书"书籍内容

2012-12-24 
使用 Python 蛮力提取网易读书书籍内容示例网址:?http://data.book.163.com/book/home/009200020011/000

使用 Python 蛮力提取"网易读书"书籍内容

示例网址:?http://data.book.163.com/book/home/009200020011/000BAfLU.html

思路

+各个页面的地址十分相似, 从而直接可以通过循环得到

?

?

代码

?

----------------------------------
正则表达式一般都是如此匹配的吧,贪婪匹配。
要么用he.*?o非贪婪匹配,或者he[^o]*o,匹配到第一个o就可以了。----------------------------------
正则表达式一般都是如此匹配的吧,贪婪匹配。
要么用he.*?o非贪婪匹配,或者he[^o]*o,匹配到第一个o就可以了。

恩, 我不怎么了解正则表达式, 不知道"贪婪匹配", 这是所有正则表达式引擎的默认规则吗?
我做过<代码之美>里的正则表达式的小例子, 实现 * 的匹配, 匹配的时候没有贪婪匹配. 3 楼 zwhc 2010-11-26   补充一下:
1、 feedparser.org,详细了解 Universal Feed Parser,其中还包括一些下载资料和文档。
2、抓取下来的是 gbk 的好象,不能用 vim 直接看,如果能直接转成 utf-8 的就好了。
4 楼 zwhc 2010-11-26   zwhc 写道补充一下:
1、 feedparser.org,详细了解 Universal Feed Parser,其中还包括一些下载资料和文档。
2、抓取下来的是 gbk 的好象,不能用 vim 直接看,如果能直接转成 utf-8 的就好了。

确认了下下,发现 2 是我弄错了。下载的是 utf-8 的,只是没有 bom 头。

热点排行