首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > XML SOAP >

Site地图的XML格式

2012-10-07 
Sitemap的XML格式此文档介绍适用于 Sitemap 协议的 XML 架构。Sitemaps 协议格式由 XML 标记组成。Sitemap

Sitemap的XML格式

此文档介绍适用于 Sitemap 协议的 XML 架构。

Sitemaps 协议格式由 XML 标记组成。Sitemap 的所有数据数值应为实体转义过的。文件本身应为 UTF-8 编码。

Sitemap 必须:

<urlset> 开始标记作为开始,以 </urlset> 结束标记作为结束。在 <urlset> 标记中指定命名空间(协议标准)。 每个网址包含一个<url> 条目作为 XML 父标记。在每个 <url> 父标记中包含一个 <loc> 子标记条目。

其他所有标记均为可选,搜索引擎不同,对可选标记的支持也各不相同。有关详情,请参阅各个搜索引擎的文档。

而且,Sitemap 中的所有网址都必须来自于同一个主机,如 www.example.com 或 store.example.com。有关详细信息,请参阅 Sitemap 文件位置。

?

XML 标记定义

以下对可用 XML 标记进行说明。

属性 说明 <urlset> 必填

压缩此文件并提供当前协议标准作为参考。

使用 Sitemap 索引文件(对多个 Sitemap 文件进行分组)

您可以提供多个 Sitemap 文件,但每个 Sitemap 文件包含的网址不得超过 50,000 个,并且文件不得超过 10MB(10,485,760 字节)。如果您愿意,可以使用 gzip 压缩 Sitemap 文件,以减少带宽要求;但是解压缩后的 Sitemap 文件不得超过 10MB。如果要列出 50,000 个以上的网址,您需要创建多个 Sitemap 文件。

如果您确实提供多个 Sitemap,则应当在 Sitemap 索引文件中列出每个 Sitemap 文件。Sitemap 索引文件中最多可列出 50,000 个 Sitemap,文件不得超过 10MB(10,485,760 字节),并且是可以压缩的。您可以具有多个 Sitemap 索引文件。Sitemap 索引文件的 XML 格式与 Sitemap 文件的 XML 格式非常相似。

Sitemap 索引文件必须:

<sitemapindex> 开始标记作为开始,以 </sitemapindex> 结束标记作为结束。每个 Sitemap 包含一个<sitemap> 条目作为 XML 父标记。每个 <sitemap> 父标记包含一个 <loc> 子标记条目。

可选的 <lastmod> 标记同样适用于 Sitemap 索引文件。

注意:Sitemap 索引文件只能指定与其位于同一网站的 Sitemap。例如,http://www.yoursite.com/sitemap_index.xml 可包含 http://www.yoursite.com 上的Sitemap,但不能包含 http://www.example.com 或 http://yourhost.yoursite.com 上的 Sitemap。与 Sitemap 一样,Sitemap 索引文件也必须为 UTF-8 编码。

XML Sitemap 索引示例

下例显示包含两个 Sitemap 的 Sitemap 索引文件:

<?xml version="1.0" encoding="UTF-8"?><sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">???<sitemap>??????<loc>http://www.example.com/sitemap1.xml.gz</loc>??????<lastmod>2004-10-01T18:23:17+00:00</lastmod>???</sitemap>???<sitemap>??????<loc>http://www.example.com/sitemap2.xml.gz</loc>??????<lastmod>2005-01-01</lastmod>???</sitemap></sitemapindex>

注意:与 XML 文件中的所有值一样,Sitemap 网址必须经过实体转义。

Sitemap 索引 XML 标记定义 属性 说明 <sitemapindex> 必填 压缩文件中所有 Sitemap 的相关信息。 <sitemap> 必填 压缩个别 Sitemap 的相关信息。 <loc> 必填

识别 Sitemap 的位置。

此位置可以为 Sitemap、Atom 文件、RSS 文件或简单的文本文件。

<lastmod> 可选

识别相对 Sitemap 文件的修改时间。它与该 Sitemap 中列出的任一网页的更改时间不相符。lastmod 标记的值应采用 W3C 日期时间 格式。

通过提供最近修改的时间戳,您可以让搜索引擎抓取工具只检索索引中的 Sitemap 子集,也就是说,抓取工具只检索某个特定日期之后修改的 Sitemap。通过这一递增的 Sitemap 提取机制,可以快速发现超大型网站上的新网址。

?

您可以提供纯文本文件,其中每行包含一个网址。此文本文件需要遵循以下指南:

文本文件每行都必须有一个网址。网址中不能有换行。您必须指定完整的网址,包括 http。每个文本文件最多可包含 50,000 个网址,并且不得超过 10MB(10,485,760 字节)。如果网站所包含的网址超过 50,000 个,则可以将列表分割成多个文本文件,然后分别添加每个文件。文本文件需使用 UTF-8 编码。在保存文件时您可指明此项(例如,在记事本中,此项会在“另存为”对话框中的编码菜单中列出)。文本文件不应包含网址列表以外的任何信息。此文本文件不应包含任何标题或注脚信息。如果愿意,您可以使用 gzip 压缩 Sitemap 文本文件,以减少带宽要求。您可以随意为此文本文件命名。请检查并确保您的网址符合 RFC-3986 标准中的 URI 规定和 RFC-3987 标准中的 IRI 规定。您应该将文本文件上传至您希望搜索引擎抓取的最高级别的目录,并确保在文本文件中未列出位于更高级别目录的网址。 Sitemap 文件位置

Sitemap 文件的位置决定该 Sitemap 中可以包含的网址组。位于 http://example.com/catalog/sitemap.xml 的 Sitemap 文件可以包含任何以 http://example.com/catalog/ 开头的网址,但不能包含以 http://example.com/images/ 开头的网址。

?

验证您的 Sitemap

下列 XML 架构定义可以出现在 Sitemap 文件中的元素和属性。可从以下链接下载此架构:

对于 Sitemap: http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd
对于 Sitemap 索引文件: http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd

有多种工具可帮助您根据此架构来验证您的 Sitemap 结构。在下面的每一个位置您都可以找到 XML 相关的工具列表:

http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html

?

Sitemap 协议可让您告知搜索引擎您希望将那些内容编入索引。要告知搜索引擎您要编入索引的内容,请使用 robots.txt 文件或 robots 元标记。有关如何从搜索引擎中排除内容的详情,请参阅 robotstxt.org。

-----------

总结:

1、文件随小但这是一套完整的方法和规范,他是对外开放的窗口。

2、灵活掌握其精髓,搭建网站的map你会对网站了解深入骨髓。

?

热点排行