首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > asp.net >

关于用正则表达式解析html文件,该如何处理

2012-03-17 
关于用正则表达式解析html文件例如有这样一段html代码:tablewidth100%border0cellpadding0cellspacing

关于用正则表达式解析html文件
例如有这样一段html代码:
<table   width=100%     border=0   cellpadding=0   cellspacing=0> <tr> <td> <img   src= 'images/article_common.gif '   alt= '普通文档 '> &nbsp; <a   href= 'Article_Show.asp?ArticleID=1116 '   title= '文档标题:最高人民法院关于规范行政案件案由的通知(法发[2004]2号)
文档作者:佚名
更新时间:2005-11-10   12:15:02
点击次数:1846 '   target= '_blank '> 最高人民法院关于规范行政案件案由的通知(法发[2004]… </a> <img   src= 'images/hot.gif '   alt= '热点文档 '> </td> <td   align=right> [佚名| <font   color=#999999> 2005年11月10日 </font> |1846] </td> </tr> </table> <table   width=100%     border=0   cellpadding=0   cellspacing=0> <tr> <td> <img   src= 'images/article_common.gif '   alt= '普通文档 '> &nbsp; <a   href= 'Article_Show.asp?ArticleID=672 '   title= '文档标题:关于加强广告执法办案协调工作的指导意见(试行)
文档作者:佚名
更新时间:2004-9-27   11:24:00
点击次数:1128 '   target= '_blank '> 山西6部新法规获省人大常委会通过 </a> <img   src= 'images/hot.gif '   alt= '热点文档 '> </td> <td   align=right> [佚名| <font   color=#999999> 2004年9月27日 </font> |1128] </td> </tr> </table> <table   width=100%     border=0   cellpadding=0   cellspacing=0> <tr> <td> <img   src= 'images/article_common.gif '   alt= '普通文档 '> &nbsp; <a   href= 'Article_Show.asp?ArticleID=506 '   title= '文档标题:我国首部循环经济法规出台
文档作者:佚名
更新时间:2004-9-27   11:22:05
点击次数:1039 '   target= '_blank '> 我国首部循环经济法规出台 </a> <img   src= 'images/hot.gif '   alt= '热点文档 '> </td> <td   align=right> [佚名| <font   color=#999999> 2004年9月27日 </font> |1039] </td> </tr> </table>
                    </td>
                </tr>
            </table>
  我要获得像 <a   href=> </a> 这样格式中的连接地址和title(标题)
我将如何用正则表达式解析呢?

[解决办法]
不懂 友情UP
[解决办法]
document.title
[解决办法]
如果考虑href=后面可能为“ '”,“ "”或者直接接网址,可以这样改下,否则用我上面写的即可

string yourStr = ..............;
MatchCollection mc = Regex.Matches(yourStr, @ " <a[^> ]*?href=([ ' " "])?(? <url> [^ ' " "\s> ]*)\1?[^> ]*?title=([ ' " "])(? <title> [^ ' " "]*?)[ ' " "][^> ]*?> ", RegexOptions.IgnoreCase);
foreach(Match m in mc)
{
richTextBox2.Text += m.Groups[ "url "].Value + "\n "; //链接
richTextBox2.Text += m.Groups[ "title "].Value + "\n "; //标题
}

热点排行