最近对于网站地图的探索,应该是12年写的robots与网站地图的相关经验分享了,那会发表在博客上面就没有太多关注,其后在各种网站优化操作中,也基本上很少去专门要求程序制作一个网站地图的自动生成程序,大部分用一些工具简单快捷的来实现网站地图的制作,这是典型小站点的做法,因为网站更新不频繁,页面数量不多,基本上对于网站地图的依赖性不强。
通过研究我们发现,很多大型的站点对于网站地图的依赖性在逐步随着站点页面数的增加而增强,甚至很多的网站不同的频道栏目都有独立的网站地图文件。那么,它有着什么样的神奇魅力,让这么多的网站都为之折腰呢?
网站地图就是蜘蛛爬行的网
这就要说到网站地图的几种格式了,一般来说,网站地图分用户类型与搜索引擎类型,都是为了方便根据链接进行的相关行为。
正常来说,大型站点的用户地图,都是将网站的分类栏目、二级域名等进行排列,一个简单的静态页面,锚文本链接就能实现一切。比较典型的比如淘宝的网站导航与京东的网站导航,我们基本上可以看到其大部分的产品与栏目。
再一种就是搜索引擎网站地图了,这是我们今天分析的重点。其针对不同的搜索引擎,可能有不同的文件格式。具体见下方:
因为每个搜索引擎主要识别地图格式效果不同,建议分别采用以下格式:
百度:建议使用Xml或Html格式的网站地图
Google:建议使用Xml格式的网站地图
Yahoo:建议使用Txt格式的网站地图
对于SEO,网站地图的好处就更多了:
1.为搜索引擎蜘蛛提供可以浏览整个网站的链接简单的体现出网站的整体框架出来给搜索引擎看;
2.为搜索引擎蜘蛛提供一些链接,指向动态页面或者采用其他方法比较难以到达的页面;
3.作为一种潜在的着陆页面,可以为搜索流量进行优化;
4.如果访问者试图访问网站所在域内并不存在的URL,那么这个访问者就会被转到“无法找到文件”的错误页面,而网站地图可以作为该页面的“准”内容。
以上两段来自百度百科的资料很鲜明的说明了网站地图的重要性,其对于seo的作用不言而喻。那么,针对搜索引擎的网站地图应该如何设置呢?
1)文件名与格式
网站地图一般存放在根目录下并命名为sitemap,格式分为html与xml两种就好,txt可不考虑,下面说说XML文件的生成规则与注意事项。
2)页面头部
<?xml version=”1.0″ encoding=”UTF-8″?>
这一行代码会告诉解析器和浏览器,这个文件应该按照1.0版本的XML规则进行解析。encoding = “utf-8″表示此xml文件采用utf-8的编码格式。<!– XML文件必需以utf-8编码–>
3)地图正文内容
<urlset>
<url>
<loc>http://www.xppseo.com</loc>
<lastmod>2015-12-01T13:39:29+00:00</lastmod>
<changefreq>daily<changefreq>
<priority>1.0</priority>
</url> ……. </urlset>
以上是深圳萧龙seo网站的部分代码提取,网站地图中,一个url标签代表的是一个页面。
<urlset>:相当于页面的body。
loc:网页目标网址
<lastmod>:网页更新时间,一般来说,都是日期T时间+00:00的格式。
<changefreq>:更新频率,具体可设置为:Always(总是)、Hourly(每小时)、Daily(每天)、Weekly(每个星期)、Monthly(每个月)、Yearly(每年)。这里根据你的实际情况填写就可以了,正常来说,首页一般每天有更新就用daily,详情页很难有更新就使用yearly。
<priority>:<priority>优先权比值–是0-1.0之间的值,一般来说,1.0是非常重点的页面,页面值越大,对应的优先级越高,告诉搜索引擎这个页面越重要。常规来说,多优先权比值也是在无形之中告诉搜索引擎,这个页面的框架类型。一般详情页面的比值都比栏目页要低也是基于这个道理。
4)多页面地图文件
假如一个网站的页面数量很大,那地图文件一般都需要分拆和合并,分拆一般是说将本来可以放在一个文件中的代码分拆在几个文件中展示,而合并是说将已经分拆的文件,通过合并在某个文件中,用以告诉搜索引擎进行了分拆以及各个地图位置。
具体写法为:
<?xml version=”1.0″ encoding=”utf-8″?>
<sitemapindex>
<sitemap>
<loc>http://www.xppseo.com/sitemap1.xml</loc>
<lastmod>2015-12-01</lastmod>
</sitemap>
<sitemap>
<loc>http://www.xppseo.com/sitemap2.xml</loc>
<lastmod>2015-12-01</lastmod>
</sitemap>
……………………………
</sitemapindex>
5)移动网站sitemap
假如存在移动站点,并希望百度进行友好的抓取,也可以针对移动站点做站点地图的写作,具体写作方法为:
百度推出了移动Sitemap协议,用于将网址提交给移动搜索收录。百度移动Sitemap协议是在标准Sitemap协议基础上制定的,增加了<mobile:mobile/>标签,它有四种取值:
<mobile:mobile/> :移动网页
<mobile:mobile type=”mobile”/> :移动网页
<mobile:mobile type=”pc,mobile”/>:自适应网页
<mobile:mobile type=”htmladapt”/>:代码适配
案例:同时向移动搜索和PC搜索提交了一个自适配网页http://www.xppseo.com/autoadapt.html:
<url>
<loc>http://www.xppseo.com/autoadapt.html</loc>
<mobile:mobile type=”pc,mobile”/>
<lastmod>205-12-01</lastmod>
<changefreq>yearly<changefreq>
<priority>0.2</priority>
</url>
<url>
<loc>http://www.xppseo.com/autoadapt.html</loc>
<mobile:mobile type=”htmladapt”/>
<lastmod>205-12-01</lastmod>
<changefreq>yearly<angefreq>
<priority>0.2</priority> </url>
假如存在pc站与手机站进行适配,可修改以上的内容。
<loc>http://m.xppseo.com/</loc>
<mobile:mobile type=”mobile”/>
<loc>http://www.xppseo.com/index.html</loc>
其它跟上方的写法一样。 通过以上的数据我们也发现,多了移动站点后,其实我们相当于将两个页面都出现了,只是在代码中将对应关系进行了罗列。
注意事项:
1)网址必须为http://。。。的绝对地址。
2)一个站点支持提交的sitemap文件个数必须小于5万个,多于5万个后会不再处理,并显示“链接数超”的提示。
32)拆分后的地图文件无需在robots中进行一一指出,只需要合并在一个总的地图文件并指数此文件就好。
4)最好定期进行网站地图文件的同步生成;
5)个Sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。如果您的Sitemap超过了这些限值,请将其拆分为几个小的Sitemap。这些限制条件有助于确保您的网络服务器不会因提供大文件而超载。
6)如果验证了网站的主域,那么Sitemap文件中可包含该网站主域下的所有网址,但最好进行拆分,同时主域名下根目录网站地图指数其它二级域名站域名网址。
7)可使用百度站长工具进行网站地图文件的提交。
8) 最好将网站在百度站长工具中进行移动站点和pc站点的适配。
那么,html页面应该如何制作呢?
html页面的制作要符合html页面的构成,一个html的网站地图样本为:
<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml”>
<head profile=”http://gmpg.org/xfn/11″>
<meta http-equiv=”Content-Type” content=”textml; charset=UTF-8″ />
<body id=”main_page”>
<li><a href=’http://www.’ title=’文本标题’ target=’_blank’>文本标题</a><span>2015-09-18</span></li>
<li><a href=’http://www./’ title=’首页’ target=’_blank’>首页</a><span>2015-09-18</span></li>