如何做好一个垂直搜索引擎
网络搜索主要包括信息采集、信息抽取、信息加工、信息检索四个模块。
1)信息采集(网络蜘蛛)
对指定网站进行数据采集,把需要的信息存放到本地,并记录相应的采集信息。以供信息抽取模块进行数据提取。
2)信息抽取
从采集的信息中抽取有效的数据进行结构化处理。剔除垃圾信息,获得正文内容,以及相关图片、种子文件等相关信息。对网站的追加信息、更新信息、删除信息进行分类处理。通过配置XML文件对不同站点的数据进行提取。
3)信息加工
对抽取的信息进行数据加工处理。添加、修改、审核及相关的业务数据整理分类等。信息加工后的数据提交进行信息分词及建立索引。
4)信息检索
提供信息查询接口。对信息进行分词处理提供全文检索接口。
1 楼 imjl 2008-02-20 lz自己写的?如果是请修改标题,加上原创,如果是转载,请写明转载,原始link。
如果是这里copy点,那里copy点,然后修修改改的,那么请delete。
如果整理只为表达某些看法,请列上你的看法,我相信大家更喜欢看你的看法,而不是copy。