采集有关问题.不知道怎么弄了.

采集问题...不知道怎么弄了..定价:/span 28br/span classpl出版社:/span 当代世界出版社br/

采集问题...不知道怎么弄了..
定价: 28 出版社: 当代世界出版社 装帧: 平装 出版年:
比如这段.我想采集...
正则：
＂定价: [^w]* 出版社:＂
首字的唯一关键字，我找到了。但第二关键字，却不好把握，因为如：出版社，装桢等，如果没有则不显示了．就会变成
定价: 28 装帧: 平装 出版年:这个样子．变化太大。所以就采集不到信息了．．
但我以前用别人的采集程序，比如我采集定价．
正则：定价: [^w]* 
这样就行了．程序会默认找里首个关键字最近的结尾．．
但我自己写的程序就不行了．好象默认是找最后一个关键字的结尾．．

麻烦大家告知一下。
还有．比如我设置好采集规则后．
定价: [^w]* 
实际上我应该采集２８就行了。但采集出来是 ２８ 这样的．还要分别过滤 和，比较麻烦。有什么简单的方法吗？

[解决办法]
(?<=<span\s+.*?>)(?<author>.*?)(?=)
--------
这一句的语意就是匹配网页当中所有标签中的内容
------
然而是所以中的全部内容,但我们只需要包含作者的内容的标签中的内容
所以需要再加一个限制
即
(?<=<span\s+.*?>\s*作者:\s*)(?<author>.*?)(?=)
--------------------
这一句的语意就是匹配网页当中所有标签中包含作者的标签的内容