首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > .NET > VB Dotnet >

采集有关问题.不知道怎么弄了.

2011-12-26 
采集问题...不知道怎么弄了..定价:/span 28br/span classpl出版社:/span 当代世界出版社br/

采集问题...不知道怎么弄了..
定价:</span> 28<br/><span class="pl">出版社:</span> 当代世界出版社<br/><span class="pl">装帧:</span> 平装<br/><span class="pl">出版年:</span>
比如这段.我想采集...
正则:
"定价:</span> [^w]*<br/><span class="pl">出版社:"
首字的唯一关键字,我找到了。但第二关键字,却不好把握,因为如:出版社,装桢等,如果没有则不显示了.就会变成
定价:</span> 28<br/><span class="pl">装帧:</span> 平装<br/><span class="pl">出版年:</span>这个样子.变化太大。所以就采集不到信息了..
但我以前用别人的采集程序,比如我采集定价.
正则:定价:</span> [^w]*<br/>
这样就行了.程序会默认找里首个关键字最近的结尾..
但我自己写的程序就不行了.好象默认是找最后一个关键字的结尾..

麻烦大家告知一下。
还有.比如我设置好采集规则后.
定价:</span> [^w]*<br/>
实际上我应该采集28就行了。但采集出来是</span> 28<br/>这样的.还要分别过滤<br/>和</span>,比较麻烦。有什么简单的方法吗?


[解决办法]
(?<=<span\s+.*?>)(?<author>.*?)(?=</span>)
--------
这一句的语意就是匹配网页当中所有<span>标签中的内容
------
然而是所以<span>中的全部内容,但我们只需要包含作者的内容的<span>标签中的内容
所以需要再加一个限制

(?<=<span\s+.*?>\s*作者:\s*)(?<author>.*?)(?=</span>)
--------------------
这一句的语意就是匹配网页当中所有<span>标签中包含作者的<span>标签的内容


热点排行