搜索引擎基本工作原理

核心提示搜索引擎通过使用叫做蜘蛛的爬虫程序来进行抓取工作。这些网络爬虫能有效地跟踪页面之间的链接,以查找要添加到索引中的新内容。使用搜索引擎时,将从索引中提取相关结果,并使用算法对其进行排名。如果听起来很复杂,那是因为事实如此。但是,如果你想在搜索

搜索引擎通过使用一种叫做蜘蛛的爬行器来爬行。这些网络爬虫可以有效地跟踪页面之间的链接,以找到要添加到索引中的新内容。使用搜索引擎时,会从索引中提取相关结果,并通过算法进行排序。

如果听起来很复杂,那是因为它确实很复杂。但是,如果你想在搜索引擎中排名更高,这样你的网站可以获得更多的点击量,你需要对搜索引擎如何搜索,索引和排名有一个基本的了解。

这是您将在本指南中学到的内容。

本章内容:

1.搜索引擎的基本概念

2.搜索引擎如何建立索引?

3.搜索引擎如何对网页进行排名?

4.搜索引擎如何个性化搜索结果?

一、搜索引擎的基本概念

在引入技术之前,我们应该首先确保我们理解搜索引擎的真正含义,它们为什么存在,为什么重要。

什么是搜索引擎?

搜索引擎是一种工具,用于查找和排列与用户搜索相匹配的Web内容。

每个搜索引擎包含两个主要部分:

搜索索引。关于网络信息的数字图书馆。

搜索算法。匹配和排序的计算机程序。

目前国内比较流行的搜索引擎有,搜狗和360。

搜索引擎的目的是什么?

每个搜索引擎都旨在为用户提供最佳和最相关的结果。至少在理论上,这是他们获得或保持市场份额的方式。

搜索引擎是如何盈利的?

搜索引擎有两种类型的搜索结果:

自然排名结果。你不能为此付出代价。

付费排名结果。你可以付费得到它。

每次有人点击付费搜索结果,广告商就向搜索引擎付费。这就是所谓的点击付费广告。

这就是为什么市场份额很重要。更多的用户意味着更多的广告点击和更多的收入。

你为什么要关心搜索引擎是如何工作的?

了解搜索引擎如何查找内容,索引和排名可以帮助你更好地优化和排名关键词。

如果你能在这些搜索中排名靠前,你的内容就会获得更多的点击和自然流量。

哪个是最受欢迎的搜索引擎?

2021年第三季度

中国市场份额为82.51%,排名第一;

搜狗搜索第二,市场份额7.62%;

必应第三,市场份额3.45%;

60第四,市场份额为2.21%;

谷歌第五,市场份额2.15%;

神马第六,市场份额1.71%;

2.搜索引擎如何建立索引?

最著名的搜索引擎,如Google和Bing,它们的搜索索引中有数万亿的页面。因此,在讨论排名算法之前,让我们更深入地研究一下用来建立和维护Web索引的机制。

分解后是:

统一资源定位器

夺取

处理和渲染

指数

提示。这个过程是谷歌特有的,但它可能与其他网络搜索引擎非常相似。还有其他类型的搜索引擎,如mazon、YouTube和维基百科,它们只显示内部页面结果。

1.统一资源定位器

这一切都始于一个已知的网址列表。谷歌通过各种方法找到了这些,但最常见的三种方法是:

通过外链

谷歌已经有一个包含数万亿网页的索引库。如果有人在这些页面中添加了指向其网站的链接,那么Google可以从这些页面中找到该链接。

从网站地图上看

站点地图列出了网站上所有重要的页面。如果你把网站地图提交给谷歌,你可以帮助他们更快地找到你的网站。

从URL提交

谷歌还允许通过谷歌搜索控制台提交单个URL。

第二步:抓取

爬行是一个叫做蜘蛛的爬虫访问并下载找到的页面的地方。

需要注意的是,谷歌并不总是按照页面被发现的顺序抓取页面。

Google会根据以下因素对你的待抓取的ul进行排序,包括:

URL的PageRank

URL多久更改一次?

是新的吗?

这很重要,因为这意味着搜索引擎可能会在其他页面之前抓取和索引一些页面。如果您的网站很大,搜索引擎可能需要一段时间才能完全抓取它。

步骤3:治疗

谷歌将在处理过程中从捕获的页面中提取关键信息。谷歌之外没有人知道这个过程的细节,但我们识别的重要部分是提取链接、存储内容并将其编入索引。

谷歌必须渲染页面才能完全处理,谷歌会运行页面的代码,了解外观对用户的影响。

也就是说渲染前后会做一些处理——如图所示。

第四步:索引

索引是将抓取的页面中的信息添加到一个叫做搜索索引的大型数据库中。本质上,这是一个由万亿网页组成的数字图书馆,谷歌的搜索结果都来自于此。

这是很重要的一点。当你在搜索引擎中搜索时,你并不直接匹配互联网上的结果。相反,它在搜索引用中匹配。如果网页不在搜索索引中,搜索引擎用户将找不到它。这就是为什么让你的网站在谷歌和必应等主要搜索引擎中被索引是如此重要。

三、搜索引擎如何对网页进行排名?

发现抓取和索引内容仅仅是该过程的第一部分。当用户执行搜索时,搜索引擎还需要一种匹配结果排名的方法。这是搜索引擎算法使用。

每个搜索引擎都有一个独特的网页排名算法。然而,由于Google是目前使用最广泛的搜索引擎,我们将在本指南的剩余部分重点介绍这个引擎。

谷歌有200多个排名因素。

没有人知道所有这些排名因素,但关键因素是已知的。

让我们来讨论其中的一些:

外部连接

相互关系

新鲜

话题权威

页面速度

移动友谊

外部连接

外链是Google最重要的排名因素之一。

谷歌搜索质量高级策略师安德烈·利帕采夫(Andrey Lipattsev)在2016年的一次在线网络研讨会上证实了这一点。当被问及最重要的两个排名因素时,他的回答很简单:内容和链接。

当然可以。我可以告诉你它们是什么。一个是内容。一是它是你网站的链接。

自1997年链接被引入PageRank以来,它一直是谷歌的一个重要排名因素。PageRank是根据指向一个网页的链接的数量和质量来判断该网页价值的公式。

我们分析了超过10亿个页面,发现链接到该页面的网站数量与其从谷歌获得的自然流量之间存在明显的相关性。

但是,不仅仅是量的问题,因为不是所有的外链都一样。拥有少量高质量链接的页面完全有可能胜过拥有大量低质量链接的页面。

好的外链有六个关键属性。

让我们仔细看看两个最重要的部分:权重和相关性。

链接权重

来自高度权威页面的外部链接通常对排名影响最大。

SEO中如何定义权重?加权页面和网站有很多外部链接。

在Ahrefs中,我们有两个指标来估计网站和页面的相对权重:

网站评级:网站的权重指数,范围从0-100。

URL分数:页面的权重指数,范围从0到100。

链接相关性

相关网站和网页的链接通常是最有价值的。

当谷歌讨论搜索如何工作时,它谈到了相关性对页面的影响。

如果这个话题的其他知名网站都链接到这个页面,说明这个页面的信息质量很高。

如果你想知道相关性为什么重要,请考虑现实世界中的事情是如何运作的。在寻找最好的意大利餐厅时,你可能会相信厨师朋友的建议,而不是兽医朋友的建议。但是,如果你在寻找猫粮推荐,那就另当别论了。

相互关系

谷歌有很多方法来确定一个页面的相关性。

基本上,它会找到与搜索词包含相同关键字的页面。

但是相关性不仅仅是关键字匹配。

谷歌还使用互动数据来评估搜索结果是否与搜索词相关。换句话说,用户觉得页面对他们有帮助吗?

比如“苹果”所有排名靠前的结果都和科技公司有关,而不是水果。从谷歌互动数据中,我们知道大多数用户寻找的是前者的信息,而不是后者。

然而,交互式数据远不是谷歌做到这一点的唯一方式。

谷歌投资了许多技术来帮助理解人、地点和事物等实体之间的关系。知识地图就是这些技术中的一种,它本质上是一个庞大的实体间关系知识库。

苹果和苹果是知识图谱中的实体。

利用Google实体之间的关系,更好地理解页面的相关性。“苹果”谈论橙子和香蕉的匹配结果,显然是关于水果的。但谈论iPhone、iPad、iOS的人,显然是在谈论这家科技公司。

得益于“知识图谱”,谷歌可以超越关键词匹配的限制。

有时候,你甚至会看到,看似重要的关键词,在搜索结果中并没有被提及。比如以“苹果纸app”的第二个结果为例。结果在页面的任何地方都没有提到“苹果”这个词。

谷歌知道这是一个相关的结果,部分原因是它在其知识图谱中提到了与苹果密切相关的实体,如iPhone和iPad。

提示:交互式数据和知识地图并不是谷歌用来理解页面与搜索词相关性的唯一技术。许多工作是通过使用BERT和RankBrain等技术来理解搜索词本身背后的意义和意图。

新鲜

新鲜度是一个基于搜索词的排名因素,这意味着它对一些结果的影响比其他结果更大。

对于“亚马逊prime上有什么新内容”这样的搜索,新鲜感非常重要。因为搜索者想知道最近增加的电影和电视节目。这可能是谷歌将新发布或更新的页面排名靠前的原因。

对于“最佳耳机”等搜索,新鲜感也很重要,但不是最重要的。所以2015页可能不合适,但是2-3个月前发表的帖子还是有用的。

谷歌知道这一点,并显示了过去几个月更新或发布的结果。

还有一些查询结果的新鲜度无关紧要,比如“怎么打领带”。因为方法没有变化,所以搜索结果是昨天还是1998年并不重要。谷歌知道这一点,对多年前发表的文章进行排名没有问题。

话题权威

谷歌希望对在这个话题上有权威的网站内容进行排名。这意味着谷歌可能会把网站本身作为评价搜索结果质量的标准。

谷歌在其专利中谈到了这一点:

搜索系统是否认为网站权威通常取决于搜索词。[……]搜索系统可以把疾控中心的网站作为“疾控中心蚊虫止咬”搜索的权威网站,但不一定能作为“餐厅推荐”搜索的权威网站。

虽然这只是谷歌申请的众多专利中的一项,但我们发现了“话题权威”在许多搜索的搜索结果中很重要的证据。

只需检查“真空密封器”的结果。

在这里,我们看到两个小的利基网站,这两个网站的排名都高于纽约时报。

虽然毫无疑问这里还有其他因素在起作用,但“话题权威性”应该是这些网站排名的原因之一。

这大概就是为什么谷歌的SEO入门指南告诉站长们:

在特定领域以专业知识和可信赖度赢得声誉。

页面速度

没有人喜欢等待页面加载,谷歌知道这一点。因此,他们将网页速度列为2010年桌面搜索和2018年移动搜索的排名因素。

很多人痴迷于页面速度。值得注意的是,你的页面排名不需要快如闪电。谷歌说,只有当你的页面速度太慢时,才需要考虑速度问题。

换句话说,在网站上节省几毫秒的时间不太可能提高排名。它只需要足够快,以免对用户产生负面影响。

您可以在PageSpeed Insights中检查任何网页的速度,以及速度优化的建议。

PageSpeed Insights还显示核心页面指标的信息。

网页核心指标由三个指标组成,分别用于评价网页的加载性能、交互性和视觉稳定性。谷歌已经确认核心页面指标将在2021年6月成为排名要素之一。

你可以使用谷歌搜索控制台中的核心页面指示器报告来检查网站上所有页面的效果。

如果很多网址性能很差或者需要改进,请及时联系开发者。

移动友好

65%的谷歌搜索发生在移动设备上。因此,从2015年开始,移动设备的友好度成为移动设备搜索排名的重要因素。

自2019年以来,由于谷歌转向移动设备优先的索引技术,移动设备友好性也成为桌面搜索的排名因素。这意味着谷歌在所有设备上“主要使用移动版本的内容进行索引和排名”。

换句话说,移动不友好可能会影响排名。

您可以使用谷歌的移动设备友好测试工具或谷歌搜索控制台中的移动设备可用性报告来检查任何网页的移动设备友好性。

4.搜索引擎如何个性化搜索结果?

搜索引擎知道不同的结果会吸引不同的人。这就是为什么他们为每个用户量身定制搜索结果。

如果你在多个设备或浏览器上搜索过相同的内容,你可能会看到这种个性化的效果。结果通常会根据各种因素出现在不同的地方。

由于这种个性化,如果你想进行SEO,最好使用Ahrefs Rank Tracker这样的特殊工具来跟踪排名。这些工具中报告的排名位置可能更接近真实情况,因为它们不太可能产生个性化的结果。

搜索引擎如何个性化结果?

谷歌指出:“你的地理位置、过去的搜索历史和搜索设置等信息可以帮助[我们]用最有用和最相关的信息定制你的结果。

下面就来详细说说这三点:

1.位置

如果你搜索“意大利餐馆”或类似的东西,地图包中的所有结果都是当地的餐馆。

谷歌推荐这个,因为你不太可能飞到对岸吃午饭。

谷歌还将使用你的位置来个性化搜索结果,而不是地图。如果我们向下搜索“意大利餐馆”,甚至猫途鹰的结果也是个性化的,我们看到许多高排名的搜索结果是当地餐馆的网站。

对于“买一套房子”这样的搜索,情况也差不多。Google会返回本地的列表页面,而不是其他国家的列表页面,因为你很有可能迁移到其他国家/地区。

您的位置将极大地影响本地查询的结果,因此当从两个不同的位置搜索同一个单词时,几乎没有相同的结果。

2.语言

谷歌知道向西班牙用户显示英文结果是没有意义的。所以Google分别对YouTube SEO教程文章的英文版和西班牙文版进行排名。

但是,谷歌在某种程度上依赖于站长来做细分。如果你有多种语言的网页,除非你告诉谷歌,谷歌可能不会意识到这种情况。

您可以使用名为hreflang的HTML属性来实现这一点。

Hreflang有点复杂,远远超出了本指南的范围。原则上,它只是一小段代码,用来表示同一页面不同语言版本之间的关系。

3.搜索历史

谷歌将使用搜索历史来个性化搜索结果。也许最明显的例子是,当下次运行相同的搜索时,它会将之前点击的搜索结果“排名”更高。

当然,这种情况并不总是发生,但似乎很常见——尤其是在短时间内多次点击或访问该页面的情况下。

摘要

理解搜索引擎如何工作是获得更高的谷歌排名和更多流量的第一步。如果搜索引擎不能找到、抓取和索引你的页面,那么你可能一开始就失败了。

 
友情链接
鄂ICP备19019357号-22