SEO培训（5）：搜索引擎爬虫的爬行方式

By simon 28 3 月, 2024

浏览量: 459

搜索引擎抓取链接的一种程序，我们主要将其称为爬虫、机器人、或者蜘蛛，而在国外，我们经常称呼其为bot，就例如Google，他所使用的爬虫就是Googlebot。

当爬虫开始抓取网站的时候，其首先会向网站发出访问信号，首先其访问的就是robots文件，查看网站是否允许该爬虫进行抓取，而robots文件的作用也就是限制和开放爬虫可抓取的范围，我们SEO经常用这个文件来控制网站的上线和下线。当bot访问网站得到可以访问网站的请求以后，其会将访问页面html全部内容抓取，并且保存到自己的数据库当中，等待合适的时间再次进行抓取和处理。

在前面的内容我们提到了，所有的bot进行抓取网站的时候，并不是一个一个进行抓取的，一般搜索引擎会在一个网站上派出多个bot进行抓取，这就导致网站经常会出现服务器加载的问题或者页面重复抓取。当然这也不是代表网站所有的页面都有可能被bot进行抓取，这就要不得不说搜索引擎一天的抓取工作是非常庞大的，全球或者全国拥有无数个网站，所有的网站其都会尝试抓取，除非网站robots文件限制或网站处于5xx的状态，不然搜索引擎都会隔三差五的进行访问，在网站设计网站，根据搜索引擎的爬行方式，内链的重要性就不言而喻了，接下来，我就给大家聊一聊搜索引擎的爬行方式，且根据这种爬行方式，用户该如何去设计网站。

深度爬行

搜索引擎在抓取网站的时候，会通过一个页面，不断的访问下一个页面，直到其爬行结束，不再进行爬行的时候，其会再次回到最初的起点，该过程就是深度爬行。在这个阶段，我们可以通过一张图了解：

这里有一个重要的知识点，无论是什么搜索引擎的爬虫，其最喜欢的爬行还是深度越浅越好，通常情况下搜索引擎爬行深度超过3层已经算是极好的状态，当然这不是链接目录的层级，而是页面目录的层级或者页面的层级，这就涉及到了页面的设计和内部链接的构建。

我们在设计网站的时候，首先要理解网站页面的组成结构，也就是首页、目录页、内页，三者之间存在一定的联系性和层级性，对于搜索引擎来说，其也会去区分该三种类型的页面，在这里同学们可以思考为什么首页会成为搜索引擎最看重的页面，其之间的关系又是什么？这些内容我会在讲页面与页面之间的关系时，与大家具体介绍页面与内链的构建，以及网站如何为bot设计最佳状态，且有符合用户最佳的转化。

深度爬行，一般bot会根据网站的喜爱程度，对网站的层级进行抓取，但是其也会仅抓取单个页面，不会继续进行抓取，这就要说到广度爬行。

广度爬行

一个优质的页面，里面会存在导航栏、图片、锚文本等，这些内容里，经常会设计对应的链接或者页面，而我们这里的广度爬行，就是bot在进入A页面的时候，并没有直接从第一个链接进入下一个页面，而是会在这个页面当中爬行，并且找到其中一个链接进行抓取或多个链接进行抓取，抓取结束后，会再次返回该页面。

在这里，Simon还是以一张图来为大家解答：

广度爬行，也就是其会从一个页面上发现不同的链接，并且可以直接到达该页面，爬虫可以对其中一个页面进行访问，也可以对无数个页面进行抓取，且抓取的页面一般不会有顺序限制，但是对于搜索引擎来说，靠近代码最前端的链接，确实是最常抓取的内容，这也跟搜索引擎抓取的习惯和网站的承载力有关系，除此之外，对于这些爬虫来说，其会将每一次鼠标的点击作为一次爬行，特殊的设计会导致bot并没有抓取页面，就离开了，后面我会总结该解决方式。

很多同学会陷于一种误区，比如说既然搜索引擎会进行广度爬行，是不是我的页面只要不断的增加内容，就可以让搜索引擎一直在此页面进行抓取？这种方法前期看似有效，就拿Google来说，对于一个网站的抓取，若该网站并没有得到其喜欢，最终Googlebot可能只会抓取100k左右，即使是受到了Googlebot的喜爱，若页面内容过大，其会考虑富媒体性、用户体验度、以及抓取的压力，尤其是内容过大，页面加载会产生50x的影响，该影响对于搜索引擎来说是不可逆的损伤。所以说所有的页面长度和丰富程度都有一个度，这个度在哪里？同学们可以根据自己作为用户的角度去思考，什么样的页面才是最喜欢的。

讲到这里，很多同学可能会吐槽，爬虫抓取是这两种方式，对于我们优化来说有什么好处呢？大家可以从上述讲的内容总结，深度爬行和广度爬行是爬虫的抓取方式，而我们在做网站的时候是不是可以将这两种方式进行设计呢？我主要总结一下几点：

1. 网站页面的深度设置-一般深度不会超过3层
2. 网站导航栏的设计-误触碰点击
3. 网站单个页面的长度设计
4. 页面增加锚文本或分类标签的重要性

爬虫的爬行方式，简单理解是抓取习惯，从深度去思考，其还涉及网站的页面与页面的设计，大家可以去思考，网站设计还能怎么去操作呢？并且有哪些形式呢？我们将在后面的课程讨论页面与页面的联系和如何设计一个SEO网站时，为大家讲解。

By simon

SEO培训

发表回复取消回复

GSC绑定的域名选择？ (3,053)
用户只需要使用最终跳转的链接（状态码200的链接）即可，比如用户确定跳转前使用SSL证书时，最后的域名肯定是H […]
SEO运营：关键词的选择 (2,648)
关键词在选取的过程中，并不是越短的关键词越好，也不是关键词长度可以随意进行选取，一切都要伴随Google或者其 […]
如何判断企业网站是否适合做SEO？ (2,550)
很多企业或者新手SEO不理解自己的产品适不适合做优化，也就导致不知道该如何对自己网络渠道的排兵布阵
SEO培训（4）：搜索方式与呈现方式 (2,437)
搜索引擎除了需要去了解其原理以外，同学们还必须了解其呈现呈现方式和搜索方式，虽然这一章节为理论知识，但是大家可 […]
网站改版：Google何时才能收录？ (2,356)
网站改版以后，网站的框架多少会影响到最原始的框架结构，导致原有页面或者JS生成的页面或消失，从而影响到网站的数 […]

SEO培训（5）：搜索引擎爬虫的爬行方式

深度爬行

广度爬行

By simon

Related Post

发表回复取消回复

精选话题

Google Search Console的sitemap提示: 无法获取 or 无法读取站点地图

如何使用内部链接进行SEO？

针对Google SEO 网站改版:旧链接的处理

海外搜SEO – 7天（线下）Google优化陪跑课

站点快速导航

深度爬行

广度爬行

By simon

Related Post

发表回复 取消回复

精选话题

发表回复取消回复