首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 互联网 >

在DedeCMS中建立采摘点

2012-07-30 
在DedeCMS中建立采集点转载请标明是引用于 http://blog.csdn.net/chenyujing5678 欢迎拍砖! 我们能采用中

在DedeCMS中建立采集点

转载请标明是引用于 http://blog.csdn.net/chenyujing5678 

欢迎拍砖!

 

我们能采用中英网的生活综合为例来讲解。中英网的链接是:http://life.uker.net/other/

我们准备把下面的文章摘录下来:

在DedeCMS中建立采摘点

 

1、新建采集点

采集->采集点管理->添加采集点->普通文章

2、完成采集第一步 网址索引:2、1 添加节点名称,目标页面编码可以从源代码中查看

如下图,我们的页面编码是gb2321。

在DedeCMS中建立采摘点

2、2 引用网址

它是我们建立采集点后的效果的测试网页,一般选择一个文章页的网址。

我们以点开在DedeCMS中建立采摘点

这篇文章为例,它的网址是: http://life.uker.net/other/136566.html

2、3  来源属性

它是我们得到文章列表的网址,这里我们可以有三种选项:批量生成列表网址、手工指定列表网址、从RSS中获取。

如下图所示,如果选择批量生成列表网址,那么我们会把下面的[1] 2 3 4 5 6 .....所有的列表都抓下来;

而如果选择手工指定,那么只能抓取一个列表,这里我们选择手工指定第一个列表。

在DedeCMS中建立采摘点

 

 

所以我们的网址是:http://life.uker.net/other/index.html(如下图所示)

在DedeCMS中建立采摘点

 

注意:有些人就说他们的第一个列表的网址怎么是: http://life.uker.net/other/(如下图)

在DedeCMS中建立采摘点

那么我们该用哪个网址呢?怎么得到那个网址呢?

答案是肯定的,得选择http://life.uker.net/other/index.html网址。

如果大家有兴趣可以依次把列表2、列表3、、、、、的网址都找出来对比:

http://life.uker.net/other/index_1.html

http://life.uker.net/other/index_2.html

http://life.uker.net/other/index_3.html

http://life.uker.net/other/index_4.html

、、、、、、

这么看来,当然我们的第一个列表是http://life.uker.net/other/index.html了。

2、4 文章网址匹配规则

我们找开第一个列表(http://life.uker.net/other/index.html)的源代码来查看。

(1)通过在代码中查找第一篇文章标题:在DedeCMS中建立采摘点

我们定位到下图,所以区域开始的HTML是<ul class="other">在DedeCMS中建立采摘点

(2)通过在代码中查找最后一篇文章标题:在DedeCMS中建立采摘点

我们定位到下图,所以区域开始的HTML是</li></ul>

在DedeCMS中建立采摘点

 

 

 

这样我们得到如下结果:

在DedeCMS中建立采摘点

 

 

 

3、完成采集第二步 内容配置:

我们只关心两个方面:文章标题与文章内容。

3、1 文章标题

我们点开一篇文章,查看源码,在里面查找标题的地方,这时我们以第一篇文章为便来说明。

在DedeCMS中建立采摘点

从上图所示,标题是 "英国留学生如何去警察局注册",在源码中的位置有三个:

在DedeCMS中建立采摘点

 

在DedeCMS中建立采摘点

 

在DedeCMS中建立采摘点

上图的第一个是在title里面,它应该当之无愧是标题,可是大家注意红色圈部分,它含有中英网的字眼,这要出现在我们的网站上肯定不合适;

第二个地方出现在<h2>里,是我们选择的地方。(在做过SEO的网站中,文章标题一般放在<h1>或<h2>里面),

当然有人会问在这个文章里会不会出现第二个<h2>呢?  我也不明白原因,有知道的网友可以告诉我一下。

第三个地方在<h3>里面,没有<h2>来得好。

所以我们的文章标题匹配规则就是  <h2>[内容]</h2>

 

3、2  过滤规则:

我们选择把超链接去掉

在DedeCMS中建立采摘点

3、3 匹配规则:

这是文章内容的匹配规则,

我们从源代码中查找内容的第一行文字: 英国留学新生开学报道之后,学校通常会安排1-2天的时间让警方到学校办理学生

在DedeCMS中建立采摘点

找到了两个地方:

在DedeCMS中建立采摘点

 

在DedeCMS中建立采摘点

比较两个地方,我们不选择在meta里的内容,因为它是定义描述及关键字的地方,不是内容,所以我们从第二张图入手,

得到内容的开始标志是:
<div class="bianzhean">

查找内容结尾的标志同理。。。。。。

得到结尾标志是 :

<div class="nextxx" id="nextxx">

这里大家一定要记住,不能写成

 <div class="nextxx"

不然抓取文件时会使DedeCMS死掉,我试过了。

 

 

这样我们得到的结果如下图:

在DedeCMS中建立采摘点

4、保存采集点后可以去采集了

 

 

热点排行