首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > Web前端 >

用以抓取网页内容的常用正则

2012-11-05 
用于抓取网页内容的常用正则下面列出在抓取网页中常用的正则规则,其中$content代表网页内容,$tmparray为抓

用于抓取网页内容的常用正则
下面列出在抓取网页中常用的正则规则,其中$content代表网页内容,$tmparray为抓取的结果存储数组。

抓取HTML中CSS里背景图片地址
preg_match_all('/(background|background-image):url\(["\']?([^\)]+)["\']?\)/i', $content, $tmparray);

抓取HTML中图片标签中的地址
preg_match_all('/<img[^>]+src=["\']{1}([^"\'\s]+)["\']{1}[^>]+>/i', $content, $tmparray);

抓取HTML中图片背景地址

preg_match_all('/background=["\']?([^"\'\s>]+)["\']?/i', $content, $tmparray);

抓取HTML中的Flash地址

preg_match_all('/<embed[^>]+src=["\']{1}(([^"\'\s]+)\.swf)["\']{1}[^>]+>/i', $content, $tmparray);

抓取HTML中的iframe的链接地址
preg_match_all('/<iframe[^>]+src=["\']?([\w\-\/\.]+)["\']?[^>]+><\/iframe>/i', $content, $tmparray);

抓取HTML中的超链接地址
preg_match_all('/<a[^>]+href=["\']{1}([^>"\']+)["\']?[^>]+>([^<]+)<\/a>/i', $content, $iframeurlarray);

以上分别为CSS背景图片、图片标签、图片背景、FLASH地址、IFRAME地址、超链接地址 的抓起正则。


本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/fafa211/archive/2009/12/23/5061832.aspx

热点排行