搜索引擎抓取链接的一种程序,我们主要将其称为爬虫、机器人、或者蜘蛛,而在国外,我们经常称呼其为bot,就例如Google,他所使用的爬虫就是Googlebot。
当爬虫开始抓取网站的时候,其首先会向网站发出访问信号,首先其访问的就是robots文件,查看网站是否允许该爬虫进行抓取,而robots文件的作用也就是限制和开放爬虫可抓取的范围,我们SEO经常用这个文件来控制网站的上线和下线。当bot访问网站得到可以访问网站的请求以后,其会将访问页面html全部内容抓取,并且保存到自己的数据库当中,等待合适的时间再次进行抓取和处理。
在前面的内容我们提到了,所有的bot进行抓取网站的时候,并不是一个一个进行抓取的,一般搜索引擎会在一个网站上派出多个bot进行抓取,这就导致网站经常会出现服务器加载的问题或者页面重复抓取。当然这也不是代表网站所有的页面都有可能被bot进行抓取,这就要不得不说搜索引擎一天的抓取工作是非常庞大的,全球或者全国拥有无数个网站,所有的网站其都会尝试抓取,除非网站robots文件限制或网站处于5xx的状态,不然搜索引擎都会隔三差五的进行访问,在网站设计网站,根据搜索引擎的爬行方式,内链的重要性就不言而喻了,接下来,我就给大家聊一聊搜索引擎的爬行方式,且根据这种爬行方式,用户该如何去设计网站。
深度爬行
搜索引擎在抓取网站的时候,会通过一个页面,不断的访问下一个页面,直到其爬行结束,不再进行爬行的时候,其会再次回到最初的起点,该过程就是深度爬行。在这个阶段,我们可以通过一张图了解:
这里有一个重要的知识点,无论是什么搜索引擎的爬虫,其最喜欢的爬行还是深度越浅越好,通常情况下搜索引擎爬行深度超过3层已经算是极好的状态,当然这不是链接目录的层级,而是页面目录的层级或者页面的层级,这就涉及到了页面的设计和内部链接的构建。
我们在设计网站的时候,首先要理解网站页面的组成结构,也就是首页、目录页、内页,三者之间存在一定的联系性和层级性,对于搜索引擎来说,其也会去区分该三种类型的页面,在这里同学们可以思考为什么首页会成为搜索引擎最看重的页面,其之间的关系又是什么?这些内容我会在讲页面与页面之间的关系时,与大家具体介绍页面与内链的构建,以及网站如何为bot设计最佳状态,且有符合用户最佳的转化。
深度爬行,一般bot会根据网站的喜爱程度,对网站的层级进行抓取,但是其也会仅抓取单个页面,不会继续进行抓取,这就要说到广度爬行。
广度爬行
一个优质的页面,里面会存在导航栏、图片、锚文本等,这些内容里,经常会设计对应的链接或者页面,而我们这里的广度爬行,就是bot在进入A页面的时候,并没有直接从第一个链接进入下一个页面,而是会在这个页面当中爬行,并且找到其中一个链接进行抓取或多个链接进行抓取,抓取结束后,会再次返回该页面。
在这里,Simon还是以一张图来为大家解答:
广度爬行,也就是其会从一个页面上发现不同的链接,并且可以直接到达该页面,爬虫可以对其中一个页面进行访问,也可以对无数个页面进行抓取,且抓取的页面一般不会有顺序限制,但是对于搜索引擎来说,靠近代码最前端的链接,确实是最常抓取的内容,这也跟搜索引擎抓取的习惯和网站的承载力有关系,除此之外,对于这些爬虫来说,其会将每一次鼠标的点击作为一次爬行,特殊的设计会导致bot并没有抓取页面,就离开了,后面我会总结该解决方式。
很多同学会陷于一种误区,比如说既然搜索引擎会进行广度爬行,是不是我的页面只要不断的增加内容,就可以让搜索引擎一直在此页面进行抓取?这种方法前期看似有效,就拿Google来说,对于一个网站的抓取,若该网站并没有得到其喜欢,最终Googlebot可能只会抓取100k左右,即使是受到了Googlebot的喜爱,若页面内容过大,其会考虑富媒体性、用户体验度、以及抓取的压力,尤其是内容过大,页面加载会产生50x的影响,该影响对于搜索引擎来说是不可逆的损伤。所以说所有的页面长度和丰富程度都有一个度,这个度在哪里?同学们可以根据自己作为用户的角度去思考,什么样的页面才是最喜欢的。
讲到这里,很多同学可能会吐槽,爬虫抓取是这两种方式,对于我们优化来说有什么好处呢?大家可以从上述讲的内容总结,深度爬行和广度爬行是爬虫的抓取方式,而我们在做网站的时候是不是可以将这两种方式进行设计呢?我主要总结一下几点:
1. 网站页面的深度设置-一般深度不会超过3层
2. 网站导航栏的设计-误触碰点击
3. 网站单个页面的长度设计
4. 页面增加锚文本或分类标签的重要性
爬虫的爬行方式,简单理解是抓取习惯,从深度去思考,其还涉及网站的页面与页面的设计,大家可以去思考,网站设计还能怎么去操作呢?并且有哪些形式呢?我们将在后面的课程讨论页面与页面的联系和如何设计一个SEO网站时,为大家讲解。