什么是网址规范化
举个例子,下面这几个url指向的是同一个网页,内容相同:
1 | http://www.wangxiaokai.vip |
当搜索引擎需要从这些选择中,挑选出一个合适的链接,来对应搜索的内容,却存在不确定性。
那么网址规范化要做的事:通过SEO技术手段,帮助搜索引擎判断出真正的、具有代表性的链接。这个过程,就是规范化。
网址不规范化,会有哪些问题?
1、网页排名可能受影响
如果复制的内容出现在不同网站上,搜索引擎判断错误,那么原创版本可能没有得到排名。
这也是一些站长的痛:原创的内容被一些引流变现的网站爬虫爬取,导致其页面被优先加入索引,而原创的站点却没有搜索排名。
2、网址的权重被分散
多个不规范的网址,导致网站上的内链和外链,可能指向不同的版本。
使得本该获得所有链接的规范化网址,得不到应有的权重,从而影响关键词排名。
3、对抓取资源的爬虫造成浪费
一个网站,分配的爬虫是一定数量的。因为搜索引擎需要爬取每个版本URL,这样会挤占抓取其他更有用页面的份额。
规范化的处理方式
1、尽量从源头上杜绝
选定一个规范化网址版本后,要全站贯彻这个策略。
这样,搜索引擎就明白,哪一个是规范化的网址。
2、利用好301跳转
如果没办法控制别的网站用哪一个网址指向你的页面,则需要在服务器上,将所有非规范化的网址,做301重定向,跳转到规范化的网址。
3、使用canonical
标签指定
canonical
标签可以实现和301跳转一样的效果,区别是用户停留在原URL上。
如果可以,优先使用301
跳转,这样是最好的解决方式。
4、sitemap.xml提交
sitemap.xml
站点地图文件,提交给搜索引擎时,只提交规范化网址。
rel=canonical的使用
在页面的head
中,加入以下语句:
1 | <head> |
这里语句的含义是:当前页面,规范化的网址是https://wangxiaokai.vip
。
需要避免的误区
1、rel=canonical
的位置
只在<head>
中出现,而且尽早将rel=canonical
添加到<head>
中。
如果rel=canonical
出现在<body>
中,搜索引擎会将其忽略。
2、避免多次声明rel=canonical
如果多次声明rel=canonical
,则Google很可能会忽略所有rel=canonical
提示。
这样,就会丧失正确rel=canonical
带来的所有好处。
3、href对应的网址,必须是绝对网址
<link>
标记既接受绝对网址,也接受相对网址。
如果指定相对网址<link rel="canonical" href="/example.html"
,则Google搜索引擎,无法识别它的真实规范化网址https://wangxiaokai.vip/example.html
。
搜索引擎的做法是:忽略这个rel=canonical
。
4、避免rel=canonical
指向404
指向404,也即网页不存在。则所做的SEO优化,都白费了。
案例分析
如图所示 ,是笔者在掘金上发表的一篇文章:JavaScript实现十大排序算法(图文详解)
网址的路径是:https://juejin.cn/post/7099436855388536869
rel=canonical
在这里的作用,就是对当前页面,进行网址规范化,把页面权重集中到当前网址上。
另外,掘金的markdown编辑器,也会屏蔽rel=canonical
,避免被白嫖党利用,造成页面的搜索排名损失。