搜索引擎的产生和发展经历了哪几个阶段

核心提示SEO常常停在耳边的话,具体是什么?能干什么?大多数人一脸懵逼。我也是从一脸懵逼过来的,走了很多弯路,但结果还好。初登大雅之堂,希望大家能有收获。谈到seo它就是告诉浏览器,快来把我家网站收录一下,顺便把它放在最亮眼的地方。只要用户想要我产

如果SEO经常停在我耳边,那是什么?你能做什么?大多数人看起来都很蠢。

我是从一张蠢脸逼过来的,走了很多弯路,但结果还是不错的。我希望你能玩得开心。

说到seo,就是告诉浏览器,过来收录我的网站,放在最亮的地方。只要用户想接触我的产品,就可以直接跳转。不过话说回来,天上没那么多好东西。虽然在成人的世界里都是需要的,但你不是超人。让我们一步一步来。

搜索引擎工作过程

搜索引擎的工作过程非常复杂,但简单来说,搜索引擎的工作过程大致可以分为三个阶段。

  • 爬行和抓取
  • 预处理
  • 等级
  • 爬行和抓取

    搜索引擎蜘蛛通过跟随链接访问页面,获取页面的HTML代码并存储在数据库中。

    两个方面:深度优先搜索和广度优先搜索。

    它从这九个方面来处理和净化你的网站,也就是生成关键词的过程。其中每个都包含以下内容:

  • 文本提取:搜索引擎蜘蛛抓取你的网站页面后,会提取你的html中的文本,不仅是显示的文本,还有未显示的文本,也就是你的代码会是未标记的,只要是你输入的都会爬下来。
  • 中文分词:分词是中文搜索引擎特有的一步。搜索引擎存储和处理页面,用户基于单词进行搜索。英语语言中的单词是用空分隔的,搜索引擎索引程序可以直接把句子分成一组组的单词。但是中文单词之间没有分隔符,一个句子中的所有单词都是连在一起的。搜索引擎首先要区分哪些词构成一个词,哪些词本身就是一个词。比如“减肥法”会分为“减肥”和“方法”两个词。不同的搜索引擎有不同的方法,大致可以分为两种:基于词典的匹配和基于统计的分词。
  • 去停用词:无论在英语还是汉语中,都有一些在页面内容中出现频率很高但对内容没有影响的词,比如说的、的、的等助词,啊、哈、呀等感叹词,这样、一、确等副词,或者这些词对页面的主要意思影响不大,就叫停用词。英语中常见的停用词有the、a、an、to、of等。
  • 去噪:大部分页面上还有一些对页面主题没有贡献的内容,比如版权声明文字、导航栏、广告等。搜索引擎需要识别并消除这些噪音,在排名时不要使用有噪音的内容。
  • 去重:去重的基本方法是计算页面上的特色关键词的指纹,也就是说,从页面的主要内容中选取关键词最有代表性的部分,然后计算这些关键词的数字指纹。也用于审查文章或页面的抄袭情况。
  • 前向索引:前向索引也可以简称为index。也就是关键词库的生成。它记录了每个关键词在页面上出现的频率、次数、格式和位置。
  • 反向索引:正向索引不能直接用于排名。假设用户搜索关键词。如果只有正索引,排序程序需要扫描索引数据库中的所有文件,找出包含关键词的文件,然后计算相关度。这样的计算量无法满足实时返回排名结果的要求。因此,搜索引擎会将前向索引数据库重构为倒排索引,将关键字对应的文件映射转化为关键字到文件的映射。
  • 链接的计算:搜索引擎必须提前计算页面上的哪些链接指向其他哪些页面,每个页面上有哪些导入链接,链接使用了哪些锚词。这些复杂的链接指向关系形成了网站和页面的链接权重。
  • 特殊文件处理:搜索引擎不能处理图片、视频、Flash等非文本内容,也不能执行脚本和程序。根据内容来处理这部分事情。
  • 等级

    搜索引擎蜘蛛抓取界面后,搜索引擎程序计算倒排索引后,搜索引擎就做好了随时处理用户搜索的准备。用户在搜索框中填入关键词后,排名程序调用索引数据库数据,计算排名并显示给客户。排名过程直接与客户互动。

    这是一个浏览器收集新网站并对其关键词进行生成和排名的过程。也是SEO的关键,是优化这个过程,帮助网站有直达位置的出发点。请期待接下来的seo之旅。

     
    友情链接
    鄂ICP备19019357号-22