想让网站排名靠前,必定离不开对搜索引擎原理的掌握,今天带大家来了解下网站排名靠前的先决条件!
搜索引擎工作原理
第一步 爬行
有过网站优化经验的人都清楚,搜索引擎抓取程序是沿着链接爬行的,如果没有链接就相当于没有路径,没有路径网站就不可能被搜索引擎抓取内容,收录页面。所以第一步必须要给搜索引擎链接。链接的方式有很多种给法,可以向各大搜索引擎提交网站域名和网站原创内容链接,也可以去找朋友或者平台建立友情链接交换,还可以去其他平台发布外链。不管采用那一种方式,链接建设必不可少。
第二步 抓取
的抓取程序叫baiduspider,也成为机器人bot。以为例 抓取的是网站页面上的文字信息,然后返回给数据库,数据库比对信息,如果信息已经存在,那么视为伪原创,不予收录到数据库,直接丢弃信息;如果信息不存在,那么视为原创内容,存进数据库,收录此网站内容页面。等搜索引擎是不会抓取图片,flash,动画,视频等内容的。
seo优化第三步 预处理
抓取工作完成之后,要对抓取的信息进行预处理,预处理的过程就比较复杂了,这边一步一步给大家分析一下。
1、提取文字
搜索引擎对抓取来的网页信息,提取其中的文字信息,丢掉除文字信息以外的内容。
2、中文分词
搜索引擎对提取出来的文字按照两种策略进行中文分词,第一种是基于词典的匹配,第二种是基于数据统计的匹配。举个例子重庆装修这个词就被分为重庆和装修两个词,这是基于词典的匹配策略;基于数据的匹配是看哪几个字挨着出现的几率比较高,这叫基于数据统计的匹配。
3、去停止词
提取出的文字信息中,像的,地、得这样的组词是毫无意义的,所以需要去掉。
4、消除噪声
哪种类型的信息叫做噪声呢?像网站里面的广告,版权信息,注册登录信息等,多网站没有任何作用,反倒会分散网站权重。所以需要消除掉!
5、去重
去掉重复的信息。前面提到过搜索引擎都不需要重复的内容,第一会降低客户体验度,第二会浪费存储空间。所以原创的内容,是搜索引擎做喜欢的。伪原创什么的就别来了!
6、正向索引和倒排索引
每个文件对应一个ID,根据搜索词返回相应的页面信息
7、链接关系的计算
计算网站有多少外部链接/导入链接,多少内链,多少导出链接!评判网站权重
8、文件处理
除了HTML以外,搜索引擎还可以抓取PDF/WORD/WPS/XLS/PPT/TXT等文件。只是图片,视频,flash等还不能抓取和处理
网站seo第四步 排名
经过前面3步之后,最后一步就是网站排名了。网站排名会根据用户检索的关键词来匹配。把网站权重高,相关性高的页面,优先排在前面,其余网站再后面!这里要提到,只会返回1000个搜索结果给用户,但是1000个搜索结果已经可以完全满足用户需求了。
只有在了解搜索引擎的工作原理之后,才能更好的开展网站优化工作,提高网站排名!喜欢的朋友可以关注孤军奋战的小强!继续给大家分享网络运营知识。