使用 Python 蛮力提取"网易读书"书籍内容
示例网址:?http://data.book.163.com/book/home/009200020011/000BAfLU.html
思路
+各个页面的地址十分相似, 从而直接可以通过循环得到
?
?
代码
?
----------------------------------
正则表达式一般都是如此匹配的吧,贪婪匹配。
要么用he.*?o非贪婪匹配,或者he[^o]*o,匹配到第一个o就可以了。----------------------------------
正则表达式一般都是如此匹配的吧,贪婪匹配。
要么用he.*?o非贪婪匹配,或者he[^o]*o,匹配到第一个o就可以了。
恩, 我不怎么了解正则表达式, 不知道"贪婪匹配", 这是所有正则表达式引擎的默认规则吗?
我做过<代码之美>里的正则表达式的小例子, 实现 * 的匹配, 匹配的时候没有贪婪匹配. 3 楼 zwhc 2010-11-26 补充一下:
1、 feedparser.org,详细了解 Universal Feed Parser,其中还包括一些下载资料和文档。
2、抓取下来的是 gbk 的好象,不能用 vim 直接看,如果能直接转成 utf-8 的就好了。
4 楼 zwhc 2010-11-26 zwhc 写道补充一下:
1、 feedparser.org,详细了解 Universal Feed Parser,其中还包括一些下载资料和文档。
2、抓取下来的是 gbk 的好象,不能用 vim 直接看,如果能直接转成 utf-8 的就好了。
确认了下下,发现 2 是我弄错了。下载的是 utf-8 的,只是没有 bom 头。