正则表达式提取网页链接url
我用的是:
TRegExpr class library
Delphi Regular Expressions
Copyright (c) 1999-2004 Andrey V. Sorokin, St.Petersburg, Russia
我现在用的表达试是这样的:
\b(href|src|url|background)=(( " "| ')?\s*([^\> \s]*?)\2?(\s)|([^> ]*?> ))
但还是有问题,哪位朋友提供一个正确提取所有链接的表达式? 万分感谢.
[解决办法]
关注
[解决办法]
([A-Za-z][A-Za-z0-9+.-]{1,120}:[A-Za-z0-9/](([A-Za-z0-9$_.+!*,;/?:@&~=-])|%[A-Fa-f0-9]{2}){1,333}(#([a-zA-Z0-9][a-zA-Z0-9$_.+!*,;/?:@&~=%-]{0,1000}))?)
[解决办法]
\ <a.+?href=[ ' " "](?!http\:\/\/)(?!mailto\:)(?> foundAnchor> [^ ' " "> ]+?)[^> ]*?\>
[解决办法]
自己再处理一下,把没有用的去掉
[解决办法]
自己再处理一下,把没有用的去掉
[解决办法]
小改了一下你的正则
改为:
(? <=\b(href|src|url|background)=( "| ')?)(\s*([^ " ']*?)\3?(\s)|([^ " '> ]*))
提取结果:http://yp.sina.net/