首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > .NET > VB Dotnet >

匹配网页源代码里URL地址的正则表达式

2013-02-19 
求一个匹配网页源代码里URL地址的正则表达式http://([\w-]+\.)+[\w-]+(/[\w- ./?%&]*)?网上找到的这个表

求一个匹配网页源代码里URL地址的正则表达式
http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?


网上找到的这个表达式,虽然也能匹配出一些结果,但这些结果还需要处理,有一些结果是乱七八糟的,里面有空格,但这还不是最主要的。

我发现这个表达式用在网易的首页源代码时,根本抓不下几个链接。

就去仔细看了下网页的URL,发现它里面有很多地址是

<li class="order-num-1"><a href="http://news.163.com/13/0124/08/8LVID9O000014JB5.html#f=wwwrank" title="黑龙江上访妇女劳教期满获释 又被关太平间三年">黑龙江上访妇女劳教期满获释 又被关太平间三年</a></li>

<a href="http://news.163.com/13/0124/08/8LVID9O000014JB5.html#f=wwwrank"就是这样的地址,上面的正则表达式就不能匹配了,希望能有人帮我修改下,能匹配像网易的URL。

正则表达式 url
[解决办法]
(https?://)?[^"'\s] 
[解决办法]
https?://([\w-]+\.)+[\w-]+([\w-\ ./?%&=#]*)?
[解决办法]
你要大概理解正则表达式才好的
上面的表达式改为:http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=#]*)?
就可以了,就是后面增加一个#好,还是老老实实看看正则的介绍吧

热点排行