首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > .NET > .NET >

100分问个.net采集器的有关问题

2012-03-23 
100分问个.net采集器的问题从51aspx上下的一些例子都不是自己想要的。而且51aspx关于采集的例子才4,5个,都

100分问个.net采集器的问题
从51aspx上下的一些例子都不是自己想要的。而且51aspx关于采集的例子才4,5个,都是输入个网址然后在根据正则获取
这种方法我会了。
想问的是
例如输入个主页的网址,然后根据主页里面的链接一个一个采集下去,可以自己定义数量要采集几个,这个要用到多线程
该怎么用呢?
就是不用要采集一个页面还要输入那个页面的网址,只要输入一个网址可以根据里面的网址采集下去
该怎么写呢?有谁有例子可以参考下吗?

[解决办法]
从51aspx上下的一些例子都不是自己想要的。而且51aspx关于采集的例子才4,5个,都是输入个网址然后在根据正则获取

while(获取的结果里面还有链接){
 结果 = 采集(此链接)
}
[解决办法]

探讨

从51aspx上下的一些例子都不是自己想要的。而且51aspx关于采集的例子才4,5个,都是输入个网址然后在根据正则获取

while(获取的结果里面还有链接){
结果 = 采集(此链接)
}

[解决办法]
不了解,帮顶,关注!
[解决办法]
探讨
引用:

从51aspx上下的一些例子都不是自己想要的。而且51aspx关于采集的例子才4,5个,都是输入个网址然后在根据正则获取

while(获取的结果里面还有链接){
结果 = 采集(此链接)
}

好提议。。。反复的循环,只要有链接的地方就看可有子链接,有就继续采集,但是这样的数据量是不是太恐怖了啊。

[解决办法]
void Func(string url){
Document doc = new Document(url);

ElementCollect els = doc.GetElementsByTagName("a");

foreach(Element el in els){
Func(el.Attributes["href"]);
}
}

http://blog.csdn.net/sq_zhuyi/archive/2010/06/26/5695397.aspx
[解决办法]
循环套循环,中间加上控件变量 .

[解决办法]
一般情况下就是输入首页地址,然后把首页中的地址全抓出来,然后再一个一个往下抓
一般都是用队列

[解决办法]
路过,帮顶下
[解决办法]
采集要有针对性!

不同的网站配置不同的采集方案!(正则方案)。没有通用的
[解决办法]
是获取一个地址就采集,还是地址全部获取完了之后一次性采集
[解决办法]
获取一个地址列表。一个个采集。都这么做的。
[解决办法]
不懂
[解决办法]
可以定义个最大线程数,采集的任务采用队列形式。根据任务动态分配线程
[解决办法]

热点排行