Sitemap(站点地图)详解

Sitemap(站点地图)是一种文件,站长可通过该文件列出网站上的网页,将网站内容的组织结构告知搜索引擎,搜索引擎网页抓取工具会读取此文件,以便更加智能地抓取网站内容。理想状况下,如果您的网站网页间关联得当,网页抓取工具便能够发现其中的大多数网页。

即便如此,提交站点地图仍有助于搜索引擎更加有效地抓取网站,尤其是当网站符合以下某个条件时:

  1. 网站为新建网站且指向该网站的外部链接不多。搜索引擎的网页抓取工具通过跟踪网页之间的链接来抓取网页,如果没有其他网站链接到您的网页,可能不会发现您的网页
  2. 网站规模很大。 在这种情况下,网页抓取工具可能会在抓取时漏掉部分新网页
  3. 网站中大量内容页之间互不关联或缺少有效链接。 如果您的网站网页没有自然地相互引用,那么您可以在站点地图中列出这些网页,以确保搜索引擎不会漏掉您的网页

需要注意的是,搜索会按正常流程分析、处理 Sitemap,但不保证一定会抓取及索引您提交的所有网址,不保证其在搜索结果中的排名

Sitemap 格式:

一般搜索引擎支持的 Sitemap 文件包括标准 xml 文件和索引型 xml 文件。标准 xml 文件最多包含 10,000 条url,如果 url 超过 10,000 条可采用索引型 xml 文件,索引型 xml 限定最多不超过三层

标准 xml 文件格式示例:

<?xml version="1.0" encoding="utf-8"?>
  <!-- XML文件需以utf-8编码-->
  <urlset>
    <!--必填-->
    <url>
        <!--必填,定义某一个链接的入口,每一条数据必须要用<url>和</url>来标示 -->
        <loc>https://www.tianlunvip.com/archives/1423.html</loc>
        <!--必填,URL长度限制在256字节内-->
        <lastmod>2014-05-01</lastmod>
        <!--更新时间标签,非必填,用来表示最后更新时间-->
        <changefreq>daily</changefreq>
        <!--更新频率标签,非必填,用来告知引擎页面的更新频率 -->
        <priority>0.5</priority>
        <!--优先级标签,优先级值0.0-1.0,用来告知引擎该条url的优先级-->
     </url>
     <url>
        <loc>https://www.tianlunvip.com/archives/1423.html</loc>
        <lastmod>2019-05-01</lastmod>
        <changefreq>daily</changefreq>
        <priority>0.8</priority>
    </url>
  </urlset>

XML 标签含义

urlset url  的父标签,必填
url 每个 URL 链接入口
loc 页面永久链接地址
lastmod 页面最后修改时间
changefreq 页面内容更新频率。
priority 相对于其他页面的优先权

lastmod 必须采用ISO 8601中指定的时间格式进行描述,如下:

YYYY(2019)
年和月 YYYY-MM(2019-08)
年月日 YYYY-MM-DD(2019-08-15)
年月日小时分钟 YYYY-MM-DDThh:mmTZD(2019-08-15T10:37+08:00)
年月日小时分钟秒 YYYY-MM-DDThh:mmTZD(2019-08-15T10:37:30+08:00)

这里需注意的是 TZD,TZD 指定就是本地时间区域标记,像中国就是 +08:00 了

changefreq 用来告诉搜索引擎此链接的更新频率,比如首页一般要用 always (经常),这里可以用来描述的单词共这几个:”always”, “hourly”,”daily”, “weekly”,”monthly”,”yearly”,根据字面就应该明白是什么意思了。

注意,这个 xml 文件必须是以 utf-8 的编码格式

索引 xml 文件格式示例:

<sitemapindex>
  <sitemap>
    <loc>https://www.tianlunvip.com/archives/1423.html</loc>
    <lastmod>2016-10-18 06:05:12</lastmod>
    <!--更新时间标签,必填,用来表示xml文件最后更新时间-->
</sitemap>
</sitemapindex>
2.中间层Sitemap格式(非必要,视url数量而定)
<sitemapindex>
  <sitemap>
    <loc>https://www.tianlunvip.com/archives/1423.html</loc>
    <lastmod>2017-06-15 11:30:12</lastmod>
  </sitemap>
</sitemapindex>

3.内容层 Sitemap 格式

参照标准 xml 文件格式示例

评论

还没有任何评论,你来说两句吧!