首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > C++ >

larbin 是什么东西?该如何解决

2012-07-03 
larbin 是什么东西?http://www.larbin.org 看了半天也稀里糊涂的[解决办法]点击 右上角的 红色国旗出现中

larbin 是什么东西?
http://www.larbin.org 看了半天也稀里糊涂的

[解决办法]
点击 右上角的 红色国旗

出现中文页面


Larbin
多功能网络爬虫
english version
简介

Larbin是一个网络爬虫(也称作(网络)机器人,蜘蛛,网页采集器等...)它的意图是用来抓取大量的web网页页面来填充搜索引擎的数据库。拥有一个足够快的网络速度的话,Larbin在一台普通的PC机上能够很快的抓取到100多万张网页页面。

Larbin(仅仅)是一个web页面的抓取器,并没有索引功能。你必须自己动手写一些程序代码以便把网页页面存储或索引到数据中。

Larbin最初开发是为了 XYLEME(一个复杂的组织中由导管组成的高等植物的脉络系统,主要的功能是水传导和溶解矿物质,支持并且能够储存食物) 工程,由法国国家信息与自动化研究所的VERSO团队设计,Larbin的目是在互联网上抓取xml页面去填充一个面向xml的搜索引擎数据库。由于最初是这样的目的,所以Larbin通用性非常强且容易定制。

Larbin怎样使用?

Larbin怎样根据自己的要求定制?
获得软件(下载)

Larbin可以在网络上免费下载使用。它在GPL协议下发行和传播。欢迎大家使用和评论!如果你正在使用Larbin请发送电子邮件给我,我将非常高兴听到这样的消息。但是,这个程序不适合个人使用,并且可能导致意想不到的结果。(个人使用wget或ht://dig往往更合适)。

无论怎样,你在使用Larbin去爬取网页或其它数据时,不要忘记对于您使用该程序所带来的损失我将不负任何责任。
最新情况

Larbin当前版本程序在普通的PC电脑上一天能够爬取五百万张网页,但下载速度主要是由您的网速所决定的。
Larbin运行在Linux系统下并且使用标准函数库,另外还使用了异步域名解析库-adns(包含在发布的Larbin程序包中)。这个程序是多线程的,但是更多的是选择线程而不是大量的使用线程(目的是为了提高效率)。
Larbin比wget或ht://dig更有优势的地方在于它有更快的速度向多个服务站点请求网页页面文件(原因在于它在往往同时建立多个连接)并且有很好的通用性(尤其可以很容易的去定制爬虫)。
实践

我还有很多改进的想法,如果你需要一些更具体的东西,可以发电子邮件给我(sebastien@ailleret.com). 以下是我想要去做的事情 :

使程序运行在多个主机上。
兼容Solaris和windows操作系统。
向内核结构发展

下面是你能够使用Larbin去做的事情:

为一个标准搜索引擎去爬取网页页面文件。
作为一个主题网络爬虫为搜索引擎去爬取(xml文件, 图片, mp3音乐等...)。
统计web数据 (服务器或页面内容)。

热点排行