搜索引擎的工作原理十分复杂,它涉及了发现、抓取、预处理、收录、产生关键词排名、呈现结果等等,我们在学习SEO的时候,必须要了解该部分的运作方式,其可以为用户优化网站及学习SEO打下深厚的基础。
从这一节课开始,我将以Google为主要的搜索引擎,并以此为大家讲解。我们所了解的搜索引擎主要分为两个层次:搜索结果和用户搜索。简单理解,搜索结果也就是我们通过优化,让我们的网站显示在搜索结果当中,在这里用户主要扮演的是提供信息的一方,而用户搜索就是用户通过搜索页面搜索其想要搜索的界面,这种方式很像我们电脑中的共享文件夹,用户将文件夹按照同种类别分类之后,可能会分为成千上百个文件夹,而其他用户想要在这个文件夹找到想要的目录的时,只能通过检索相应的关键词,并且用户可以通过关键词找到相关的文件,也可以为相关的文件夹提供文件。
搜索引擎的所有步骤,我主要将其分为发现、抓取、预处理、收录、呈现结果五个方面:
发现
对于搜索引擎来说,整个网络是非常庞大的,例如Googlebot(Google用来发现和抓取网站或其他文件的一种程序),其想要发现一个网站容易,但是全球有那么多网站,不可能所有的网站和链接都能被发现,这就需要我们使用一些方法,例如sitemap、API等方式,这里我们不多讲,感兴趣的同学可以先做好笔记,也可以私聊我。Googlebot想要发现新的网站或者新链接,一般需要一个信号,新网站可以通过这个信号,使用对应的站长工具或者优质的外链,让搜索引擎更快的发现,而老网站还可以通过网站的内部链接,完成新链接的发现。
在这里我要强调一下,搜索引擎“发现”这个步骤,主要是将用户的链接保存在搜索引擎的数据库当中,其可能不会在发现的时候立马抓取,但搜索引擎会将当前的链接作为抓取的地址,保存在数据库当中,并在特定的时间内进行统一抓取。
抓取
Googlebot抓取网页主要分为两种形式,一种为自主抓取,一种为主动提交。当Googlebot进行自我抓取的时候,其会通过一个页面,进行深度爬行和广度爬行的方式,找到当前被抓取的页面,并将其数据和地址抓取到Google数据库当中。
预处理
搜索引擎在预处理这个阶段,经常会发现自己的网站已经被抓取了,但是尚未编入索引,这就是搜索引擎需要进行的这一步预处理,其会判断该页面是否符合显示在搜索结果页面当中,进行文字提取、中文分词、索引、倒排索引等,为排名和权重的划分做准备。在这个预处理的过程中,所有搜索引擎都不能保证页面一定收录,并且其还会将相应的页面划分为三种方面,我们一般以高级索引库、普通索引库、低级索引库当中。
收录
对于网站的收录,前面我提到了三种类型的索引库,对于该索引库,首先是高级索引库,一般就会有很高的排名,并且产生很多稳定的关键词,普通索引库一般能被收录,也可以显示在搜索结果页面当中,但是其基本不具备很好的排名或关键词,随时都有可能掉出搜索当中,而低级索引库一般通过Google站长工具可以查到已经收录,但是并未显示在搜索结果当中。
在这里有个误区,不是说索引库有什么高低贵贱之分,其可能会因为季节性热度、关键词的质量、竞争压力等方面,随时掉出相应的等级库当中,也可以随时上升到更高一级的索引库当中。
呈现结果
呈现结果一般会通过产生关键词、排名显示在Search当中,但是页面显示的方式可能会通过搜索引擎拥有的展示效果当中,例如网页、图片、视频、文库、问答等。而搜索用户可以通过指定的关键词找到想要找的文件类型。
这几个方面看文字,同学们可能会觉得都是理论知识,但是通过这些方面,可以找到其他有用的信息,例如呈现结果,我们的网站页面不仅可以以页面显示在Search当中,还可以同时优化Google的网页、图片、视频等方面,具体的方法后面我会引导大家去自我思考和总结。