应用 Python 蛮力提取"网易读书"书籍内容

使用 Python 蛮力提取网易读书书籍内容示例网址:?http://data.book.163.com/book/home/009200020011/000

使用 Python 蛮力提取"网易读书"书籍内容

示例网址:?http://data.book.163.com/book/home/009200020011/000BAfLU.html

思路

+各个页面的地址十分相似, 从而直接可以通过循环得到

代码

----------------------------------
正则表达式一般都是如此匹配的吧，贪婪匹配。
要么用he.*?o非贪婪匹配，或者he[^o]*o，匹配到第一个o就可以了。----------------------------------
正则表达式一般都是如此匹配的吧，贪婪匹配。
要么用he.*?o非贪婪匹配，或者he[^o]*o，匹配到第一个o就可以了。

恩, 我不怎么了解正则表达式, 不知道"贪婪匹配", 这是所有正则表达式引擎的默认规则吗?
我做过<代码之美>里的正则表达式的小例子, 实现 * 的匹配, 匹配的时候没有贪婪匹配. 3 楼 zwhc 2010-11-26 补充一下：
1、 feedparser.org，详细了解 Universal Feed Parser，其中还包括一些下载资料和文档。
2、抓取下来的是 gbk 的好象，不能用 vim 直接看，如果能直接转成 utf-8 的就好了。
4 楼 zwhc 2010-11-26 zwhc 写道补充一下：
1、 feedparser.org，详细了解 Universal Feed Parser，其中还包括一些下载资料和文档。
2、抓取下来的是 gbk 的好象，不能用 vim 直接看，如果能直接转成 utf-8 的就好了。

确认了下下，发现 2 是我弄错了。下载的是 utf-8 的，只是没有 bom 头。