采集问题...不知道怎么弄了..
定价:</span> 28<br/><span class="pl">出版社:</span> 当代世界出版社<br/><span class="pl">装帧:</span> 平装<br/><span class="pl">出版年:</span>
比如这段.我想采集...
正则:
"定价:</span> [^w]*<br/><span class="pl">出版社:"
首字的唯一关键字,我找到了。但第二关键字,却不好把握,因为如:出版社,装桢等,如果没有则不显示了.就会变成
定价:</span> 28<br/><span class="pl">装帧:</span> 平装<br/><span class="pl">出版年:</span>这个样子.变化太大。所以就采集不到信息了..
但我以前用别人的采集程序,比如我采集定价.
正则:定价:</span> [^w]*<br/>
这样就行了.程序会默认找里首个关键字最近的结尾..
但我自己写的程序就不行了.好象默认是找最后一个关键字的结尾..
麻烦大家告知一下。
还有.比如我设置好采集规则后.
定价:</span> [^w]*<br/>
实际上我应该采集28就行了。但采集出来是</span> 28<br/>这样的.还要分别过滤<br/>和</span>,比较麻烦。有什么简单的方法吗?
[解决办法]
(?<=<span\s+.*?>)(?<author>.*?)(?=</span>)
--------
这一句的语意就是匹配网页当中所有<span>标签中的内容
------
然而是所以<span>中的全部内容,但我们只需要包含作者的内容的<span>标签中的内容
所以需要再加一个限制
即
(?<=<span\s+.*?>\s*作者:\s*)(?<author>.*?)(?=</span>)
--------------------
这一句的语意就是匹配网页当中所有<span>标签中包含作者的<span>标签的内容