请问.net如何采集指定页面指定区间的内容呢?
如题,比如一个网页源代码里面有<!--a-->
……
<!--n-->
如果我要采集这两个标记之间的内容,.net应该如何实现呢?
[解决办法]
很高兴的回答你,抓取网页的内容,最好使用正则表达式,其他的实现起来都没正则简单.
<!--a-->[\s\S]*?<!--n-->,试试这个正则,也许可以帮到你
[解决办法]
html下载下来(google HttpWebRequest)
然后解析,看1楼的
[解决办法]
"(?i)<(\w+)[^<>]*>[^<>]*\$Insert\$[^<>]*</\1>"
或者
(?<=div\s*id='div1'[^>]*>)(?=.*</div>)[^<]*|(?<=img\s+src=')(?=.*\/>)[^']*
[解决办法]
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Text.RegularExpressions;namespace ConsoleApplication1{ class Program { static void Main(string[] args) { string strSource = @"C:\sdsd\sdsds\aa\wssww\ww\ee\rrrss.jpg"; //这里放网页源代码 strSource = Regex.Match(strSource, @"(\\[^\\]+){3}$", //这里可以放正则 RegexOptions.IgnoreCase | RegexOptions.RightToLeft).Groups[0].Value; Console.WriteLine(strSource); Console.ReadLine(); } }}