对于一个SEO新手来说,不需要考虑太多的东西。懂得伪原创的真谛也是制胜法宝,懂得如何获取外链资源足以让你受益匪浅。随着SEO工作的深入,你会慢慢发现充分利用网络赋予你的东西的重要性。了解搜索引擎的工作原理,其意义自然不言而喻。
搜索引擎的工作原理,简而言之,主要是三个步骤:第一,在互联网中寻找和收集网页信息;同时对信息进行提取和组织,建立索引数据库;然后,检索器根据用户输入的查询关键词,在索引数据库中快速检出文档,评估文档与查询的相关度,对要输出的结果进行排序,并将查询结果返回给用户。这个设计算法排名的问题我们暂且不去深究。这里主要讲爬取、抓取、预处理。
搜索引擎爬行及爬行原理
通过蜘蛛程序,每个搜索引擎在访问网站时都会先抓取网站根目录下的robots.txt文件,从而获取网站中被禁网站的信息。对于禁止抓取的网站,不会被搜索引擎收录。
robots.txt文件功能示例每个独立的搜索引擎都有自己的网络爬虫。为了获得更多的信息,蜘蛛会按照页面上的链接爬取页面。理论上,蜘蛛可以通过链接抓取互联网上的全部信息,但实际操作中,考虑到页面的复杂性,蜘蛛会在深度和广度上抓取页面。为了避免重复爬取和爬取,搜索引擎会建立包括已找到但未爬取的和已爬取的两个网页地址数据库,以供参考和比较,爬取的页面会进入原页面数据库。至此,原始数据库的建立告一段落。
搜索引擎预处理阶段的原理
蜘蛛抓取网页后,建立原始数据库,搜索引擎会从网页中提取文本。当然,除了页面显示的文字,搜索引擎还会提取一些文字如meta标签、flash替代文件、锚文本、alt标签等。文本提取出来后,会进入下一个阶段:分词。
无论算法如何,不可否认的是,没有人能撼动中文分词技术在搜索引擎中的霸主地位。对于页面上抓取的词,搜索引擎会进行分词,比如“十堰网站优化”分为“十堰”和“网站优化”两部分。一般有两种分词方法:词典法和统计法。这本字典不需要太多解释;至于统计,是指通过分析大量文本来计算相邻词的概率。概率越大,越容易成词。目前两种方法结合使用,效果最好。
此时,大家会问,我们将如何处理一些汉语常用词,如“的”、“了”、“呀”等没有实际意义但使用频率很高的词?答案是消除它们,从而提高搜索引擎的计算效率。
在浏览网页上的信息时,我们会发现有些栏目在网站上重复出现,如“导航”和“广告”等。这些东西对于所属页面的显示内容没有实际意义。搜索引擎也会对这部分内容进行处理,从而筛选出被收录页面内容的最终文本部分。当然,在筛选出文字部分后,搜索引擎还会对最终显示在各个网页上的文字内容进行对比,从而删除重复内容并显示出来。
经过以上步骤,就可以建立索引数据库了。这时指数可以分为两个阶段:正向指数和反向指数。前向索引可以简单理解为以被收录页面的URL为主键,以页面上的分词结果为内容的数据库,如下图所示。
搜索引擎正向索引图示在正向索引的最后,我们可以发现它不能用于排名。这时就需要反向索引,即建立一个以关键词为主键,以包含该关键词的网址和对应内容为内容的索引数据库,如下图所示。
搜索引擎倒排索引图示当用户通过关键字搜索信息时,搜索引擎将在数据库中进行搜索。如果找到符合用户要求的网站,就会采用特殊的算法——通常是根据匹配度、位置、频率、链接质量等。一个网页中关键词的相关度(of keywords)——计算每个网页的相关度和排名等级,然后这些网页链接会根据相关度按顺序返回给用户。
此时,搜索引擎将通过分析链接和处理特殊文件来完成预处理阶段。从中也可以看出,了解搜索引擎的原理,对于日常SEO工作的理解和启发是非常明显的。比如你在伪原创的时候,只是简单的给一些文章加了简单的助词或者简单的修改了一小部分文字内容。不好意思,你的文章在预处理甚至是抓取抓取阶段就通过了。
知道了搜索引擎抓取的原理,还需要在日常优化中注意技巧:
Url优化建议
在网站上创建一个描述性好、规范、简洁的网址,有助于用户更方便地记忆和判断网页内容,也有助于搜索引擎更有效地抓取你的网站。网站设计之初,就要有合理的url规划。
1.系统中只使用正常网址,不允许用户接触异常网址。
2.不要将会话id、统计代码等不必要的内容放在url中。
3.不同形式的网址,301永久跳转到正常形式。
4.为防止用户输入错误而启用的备用域名,301将永久跳转到主域名。
5.使用robots.txt禁止Baiduspider抓取不希望显示给用户的表单。
关于标题网站信息优化的建议
网页标题是用来告诉用户和搜索引擎这个网页的主要内容是什么,当用户在web搜索中搜索你的网页时,标题会作为最重要的内容显示在摘要中。标题是搜索引擎判断网页内容权重的主要参考信息之一。
1.首页:网站名称或网站名称_服务介绍或产品介绍。
2.频道页面:频道名称_网站名称。
3.文章页面:文章标题_频道名称_网站名称。注:1。标题应该有一个明确的主题,包含这个网页中最重要的内容。2.简明扼要,不列出与网页内容无关的信息。3.用户通常从左向右浏览,重要的内容要放在标题前面。
4.使用用户熟悉的语言。如果你有中英文网站名称,尽量使用用户熟悉的一个作为标题描述。
网站信息优化的元建议
meta描述是meta标签的一部分,位于html代码区域。元描述是对网页内容的简明总结。如果描述与网页内容一致,该描述将被视为摘要的选择目标之一。一个好的描述会帮助用户更方便地从搜索结果中判断你的网页内容是否符合他们的需求。元描述不是权重计算的参考因素。该标签的有无不影响网页权重,只能作为搜索结果汇总的选择目标。推荐做法:
1.网站首页、渠道页面、产品参数页面等。,没有大段文字可以作为摘要,最适合使用描述。
2.为每个网页创建不同的描述,以避免所有网页使用相同的描述。
3.长度合理,但不能太长也不能太短。
网站Alt优化技巧
建议给图片加上alt描述。因为这样可以让用户在网速慢无法显示的情况下,理解图片所要传达的信息,也可以让搜索引擎理解图片的内容。同样,在使用图片进行导航时,也可以使用alt标注来告诉搜索引擎网页的内容是什么。
Flash网站信息建议
Baiduspider只能读取文本内容,flash、图片等非文本内容暂时无法处理。放在flash和图片中的文字无法识别。因此,如果必须使用flash,建议在对象标签中添加注释信息。这些信息将被视为Flash的描述信息。让搜索引擎更好地了解你的flash内容。
不推荐框架和iframe框架结构,通过iframe显示的内容可能会被丢弃。
通过对搜索引擎工作原理的了解,结合你掌握的网站seo优化方法,相信会有事半功倍的效果。