站内优化是整个SEO工作最核心的部分:
SEO人员需要通过站内优化,把网站结构做得更容易被Spider抓取;设计整体内部链接架构把站内权重导给最重要的页面;均衡站内链接使得尽可能多的长尾关键词着陆页得到支持;优化页面内容使得搜索引擎更容易识别和匹配等。
很多网站根本不需要花费精力去搞外链,只注重站内优化,精心优化内容和内链,同样也会获得搜索引擎的青睐,得到比较好的排名和流量。
在搜索引擎不断打击外链作弊的情况下,站长和SEO人员更需要注重网站内功的修炼。本章所有示例均只是参考,并不是优化规则和标准操作模式。SEO没有太多固定的规则,在“没有硬性错误、迎合搜索用户搜索习惯、保证用户体验”的原则下,任何优化方法和技巧都是允许的,SEO更多的是注重策略及方法变通,而不是过多地追求固定的技巧。
1.网站结构优化:良好的网站结构不仅可以引导Spider快速高效地抓取全站内容,还可以辅助站内权重的合理导向,最重要的是,良好的网站结构是用户体验的基础。
虽然这部分内容在网络和其他SEO书籍中已经被讨论得比较多了,但确实还是有很多需要注意的地方值得讨论一下。这里不再赘述Flash网站不利于优化之类的话题,仅挑选一些业内经常讨论的、疑惑比较多的点进行讨论。
2.URL优化注意事项:并不是所有的SEO人员都能在工作中接触到URL优化。不少公司网站不需要新的URL规则,也不需要改版重新设计URL,就算设计URL结构,一般也都是SEO负责人来设计的,基层SEO人员并不会实际操作URL的设计和优化。
但是为了赢得搜索引擎喜欢,或者如果自己拥有个人站试验,也要对这部分内容进行详细的了解。
首先SEO人员都知道的URL设计原则是越短越好,参数越少越好,下面针对URL设计中的几个小问题进行讨论。
3. URL目录层级不要过多:有SEO基础的朋友应该都了解网站的物理结构和逻辑结构。
一般认为物理结构上,网站URL涉及的目录层级越少越好,即网页在物理结构上越靠近首页越好。
可以这样比喻,目录层级类似于家族辈分,层级越多辈分越低,不考虑其外链的情况下,从族长处分得的地位就越低,也就是页面权重越低。很多大型网站由于历史或者其他原因都有很复杂的物理层级结构,理论上这不仅会降低页面本身通过层级传递获得的“天生的重”,也不利于网页链接在站内站外的引用。
举例:
新闻网站的URL:
www.baidu.com/program/jsbd/20210708/107910.shtml
www.baidu.com/2021-07/08/content 2921856.htm
www.baidu.com/system/2021/07/08/012681457.shtml
当然这是强势媒体网站,使用的一般都是比较久远的CMS文章系统。
当初设计时就没有考虑到URL结构问题,只是管理人员按自己意愿进行设置的。
比如这三个URL中的日期,有的占了一层,有的占了两层,有的占了三层,除了按日期归档的目录层级以外,还有不必要的系统目录。
其实完全可以把文章都放到一个固定分类的一级目录中,如有必要进行日期归档的话,单独设计日期归档页面就可以了,没有必要把文章都放到多层日期归档目录的下面。这些媒体网站有着自己的流量渠道,也可能不太注重或者还没有开始注重SEO。
如果营销型网站也这样来设计URL结构,那么可能在最基础的部分就比竞争对手差了一些。同样的网站权重、同样的内部链接设计、同样的外链质量和数量,但是你的目录层级多,家族辈分低,出门竞争的强度也会相对弱一些。
比如,下面是某房网和某村在线的URL结构设计示例。
某房网租房房源中的交叉组合查询页面的链接,全部参数有10多个,搜房网通过伪静态把URL结构控制在了两层以内:
某房网/house-a073-b01215/a21-c20-d2500-g22-n20-o25-p21-r22-s25-t22-u22-n31/
某村在线平板电脑产品库的交叉查询页面的链接,全部参数也超过10个了,和某房网一样,也是通过伪静态把URL的目录层级控制在了两层以内:
某村/tablepc index/subcate702夕8-list-s3596-s1978一s2780-s2397-s2526-s3092-c79 1.html
所以如果需要设计URL结构,目录层级应该控制一下。尽量使网站趋于扁平化,不要增加不必要的目录层级。
现在常见的URL结构设计为:目录页和专题页URL的设计层级都尽可能少,甚至很多人会设计成全部使用一级目录。
内容页一般放在一级目录下,甚至直接放在域名下,而不是放在分类目录下,目录页面往往只是对内容的归类列表页而已。
例如域名下的信息页URL及该信息所隶属的分类目录URL:
www.baidu.com/s4618198.html
www.baidu.com/cp/wujingongju/
2.动态URL并不一定需要伪静态:在SEO诊断工作中,很多朋友喜欢先检查对方网站是不是动态URL,如果是动态URL,就会毫不思索地建议对方做伪静态。这其实是不合理的,有的网站所有URL中只会有一个动态参数,只是不同类型页面URL的动态参数不同而已。
做不做伪静态都是可以的,搜索引擎都会正常抓取,也并不会因为做了伪静态而提升多少用户体验。很多博客系统就是这样,比WordPress的URL结构。
文章页:www.smiseo.com/ p=5 91
目录页:www.smiseo.com/ cat=3
单页面:www.smiseo.com/ page id=38
文章归档页面:www.smiseo.com/ m=201208
这样页面URL己经很简单了,就不需要进行伪静态了。
除非有的朋友喜欢在URL中加几个关键词,需要进行伪静态的设置,否则完全没有必要做伪静态的工作。
使用开源CMS系统做伪静态一般都会有官方规则,如果是找建站公司做网站,那么就需要自己或重新找建站公司来写伪静态规则,虽然参数少的情况下对技术要求并不高,但也是需要技术支持的。没必要的工作何必浪费精力呢
对于站内参数复杂的网站,做伪静态还是有必要的。比如商城类、房产类网站都有很多交叉查询的参数,房产类网站的参数经常会有10个以上。其实如果站内参数设置没有问题也不必进行伪静态,不过大部分网站为了使得URL简洁、目录层级少,也会精心设计伪静态规则。
有必要提醒的是超过10个参数的伪静态就不能通过简单映射完成了,还需要其他技术辅助。如上面提到的某网和某村在线的链接结构。
以前之所以强调把动态URL转化成静态URL,是因为原先搜索引擎比较排斥动态URL的多参数。
有很多网站设置了很多动态参数使得Spider永远抓不完这些页面,并且这些页面的内容可能是完全重复的,或者程序出现Bug产生无数动态链接使得Spider陷入死循环。
现在,随着站长们SEO意识的提高,以及搜索引擎自身技术的提高,很少会出现把Spider引入无底洞的情况了。站长会经常检查网站是否有链接错误或无效URL产生,Spider也会对各种URL有选择性地抓取,所以以前因为动态URL而产生的Spider抓取问题,现在已经很少了。
另外,现在还会自动去除URL中的无效参数。如千品网的大部分URL的末尾都加上了追踪用户行为的参数,并且原来千品网并没有设置robots文件,但是并没有收录这些带参数的URL,而收录了去除参数后的URL。当时由于千品网站内只有带参数的URL,反而真实的URL并没有直接链接。
千品网的SEO负责人还和笔者进行了多次讨论,首先这些参数是运营人员要求加的,再者也疑惑为什么没有收录这些带参数的URL,反而收录了不带参数的URL,因为真实的URL当时在网络是不存在的。
就此,笔者专门咨询了站长平台的运营人员,对方说明“会自动尝试去掉URL中的一些无效参数”。后来千品网使用Sitemap把真实URL提交到了,并且以防万一,配置了robots文件来禁止Spider抓取站内动态URL。
由于千品网没了所以拿别的网站作例子:
SEO优化教程
SEO视频教程
由此可见现在搜索引擎对动态URL的处理还是比较智能的,所以如果网站内的动态参数不多,网站结构不复杂,完全没有必要纠结于做伪静态。当然必要的URL优化工作还是要做的,不可能完全寄希望于搜索引擎,如果搜索引擎什么问题都能解决,那么SEO就没有存在的意义了。
对于千品网的这类URL问题,也有不少网站没有处理好。不知道一些特殊网站为什么会有“ tob0odt6ll=WGmDSiNhRV”这样的参数,并且这个参数并不会改变网页内容,然而还是收录了,可见完全依靠自己判断URL中的参数是否有意义是不靠谱的。
很多拿万年历系统来举例的SEO人员,表示万年历系统会引导Spider无限地抓取下去,不仅造成站内资源浪费,也会浪费Spider的抓取。
先不谈现在的搜索引擎会不会玩命地抓取这些URL,但作为站长和SEO人员,除非你用万年历系统来归类内容,否则在该功能上线之初就应该屏蔽搜索引擎对这些URL的抓取。
综上,如果是出于方便Spider抓取的目的,并不是所有动态URL的网站都需要静态化。
如果你的网站系统庞大或者拥有和搜房、中关村在线类似的多参数URL,那么就最好静态化处理一下;
如果你的网站系统很简单,只有一两个参数,就没有必要纠结伪静态问题。对于动态参数产生的页面重复问题,不是通过伪静态来解决的,而是需要通过技术去除或robots.txt文件及其他标签设置来解决的;对于由程序BUG生成无限参数造成蜘蛛陷阱的网站,使用伪静态也未必能解决问题,还是需要站长和SEO人员时常分析网站日志,修补Bug。
当然伪静态还可以把动态参数映射成关键词拼音或英文单词,甚至可以是中文关键词,有些网站出于这方面考虑,也可以推进网站URL的静态化。
SEO人员在进行网站优化方案写作时,最好根据网站实际情况进行伪静态建议。不要一旦发现对方是动态URL就提出做伪静态的建议,除非你认为这样做SEO方案显得你更加专业。
3. URL中最好可以包含关键词:在搜索“ipad3”的结果,把URL中的“ipad3”也进行匹配加粗。所以在URL中布局关键词也可以增加网页和搜索词的相关度,很多大型网站甚至在URL中使用了大量中文。现在双拼和三拼域名炒得这么火,域名本身所带来的自然流量也是提升域名价值的一个重要因素。这种域名对在搜索引擎上优化对应关键词也有一定的促进作用。
4.中文URL问题:经官方人员确认,只要URL不是过长,对中文URL的收录就没有问题。如下图所示为在中使用inurl指令搜索URL中含有“联想笔记本”的网页。可见有不少网站在URL中使用了中文,并没有影响的收录。在URL中使用中文关键词可以加强网页和关键词的匹配程度,不过现在有一些网站认为对中文URL收录可能不够友好,而采用了拼音、英文单词或者拼音首字母形式的URL。
其实并没有必要担心中文URL的收录情况,而是需要考虑站内中文URL过多是不是会造成用户体验下降的情况。
中文URL在大多数浏览器中是编码形式的,当用户复制引用时也会是长长的编码,在一定程度上降低了用户体验,也不便于分享和外链建设。
并且如果是非知名的网站,中文URL过多,很容易被用户认为是垃圾站点,所以不宜对站内重要页面使用中文URLO对于TAG聚合页面倒是不必担心中文URL问题,现在很多网站都使用TAG词库来作弊抢夺流量。
可见搜索引擎对中文URL收录还是很友好的,不过因为网站没有内容而凑关键词,很多使用TAG词的网站都被惩罚了。
因此中文URL是可以使用的,但是要综合考虑,它可以增加页面和关键词的相关度,也会降低用户体验度,同时,如果自身内容不到位,还有可能被处理TAG词作弊时所误伤。
5.相对路径和绝对路径:在网站设计时,有不少朋友会考虑相对路径和绝对路径对SEO的影响。其实不论使用相对路径还是使用绝对路径,搜索引擎都可以正常抓取。两种路径各自的优缺点如下。
绝对路径优缺点:
如果你的文章内容被转载或采集且对方比较懒,没有除去你加的链接,就会给你的网站增加一些外链。
如果你的网站没有做301,并且你把带。和不带vvww的域名都解析到一个站点可能会产生网址规范化问题。使用绝对路径,可以告诉搜索引擎你使用是哪个版本的URL,防止搜索引擎自动选择你不想让它收录的URL版本。
比如你把domain.com和www.domain.com解析到了一个站点,你想让搜索引擎收录www.domain.com下的内容。但是你没有做或者不能做301,并且你使用的是相对路径的URL,那么搜索引擎从domain.com进入网站后,网站内所有的URL就都是以domain.com开头的了。最终搜索引擎很可能把你不想被收录的domain.com版本URL的网页作为主要网页参与排名,而www.domain.com版本的URL被搜索引擎雪藏了。
如果你的网页移动位置,不会影响站内链接,因为是固定的链接。
不利于测试,有规模的网站一般会有线下测试,如果网站内的链接不是动态参数,就会造成很多死链接,没办法进行测试。
如果网页中链接过多,会加大网页的体积。
相对路径的优缺点正好和绝对路径相反。解释一下第条,如果页面中使用了相对路径,当页面移动目录或者域名时就会出现死链接,这种问题常见于大型新闻CMS系统。笔者曾经使用的TRS系统就有这个问题,比如:
在目录加le/下放置了文件1.html;
1 .html中用相对链接指向了同目录下的2.html;
编辑突然发现1.html放错了目录,应该放到目录//news/下;
如果此时只是机械地把1.html转放到目录/news/下,那么l.html中的链接会自动改变指
向目录/news/下的2.html;
如果目录//news/下没有2.html,就会产生404错误;
即使目录//news/下有同文件名的2.html,两个目录下2.html的内容也是不同的,也会造成链接指向混乱。
推荐网站使用绝对路径,现在都是动态语言开发网站,完全可以避免测试时的问题。至于加大网页体积的问题,一是普通网站都不会在同一个页面上放太多链接;二是如网页其他方面精简到位,正常的网页体积都不会太大,都可以被搜索引擎完整抓取。所以相对来说绝对路径更好一些。
6.字母小写且不要用特殊符号:URL中的字母全部小写,便于人工输入,不会因为大小写掺杂产生错误。并且Linux系统服务器是区分大小写字母的。在一些流量统计工具中也会把有大小写问题的同一个URL当成两个URL来统计,这增加了流量分析的难度。
如无必要,不要在URL中使用特殊符号,否则可能会出现不可预知的错误。并且在站外引用链接时,如果URL中包特殊符号,很可能导致被引用的链接解析不完整。
7.目录最后的斜杠问题:有很多朋友发现同时收录了网站URL最后带“/”与不带,’/”的两种形式,两个URL的快照并不同,可见把两个URL当成了不同的页面,曾经一度出现过两种URL共同存在某个关键词的搜索结果首页。现过两种URL共同存在某个关键词的搜索结果首页。
且不论会不会把这两种URL当成重复页面对待,站长和SEO人员自己首先就应该先把URL进行统一。如果是目录那么就用正常的目录形式,如果是文件那么就用文件形式。当用户或Spider访问www.domain.com/abc时,部分服务器发现网站根目录下没有abc这个文件,那么就会报404错误,也可能会自动301或302跳转到www.domain.com/abc/上,也有部分服务器是两个URL都可以正常访问的。
不论服务器使用哪种处理方式,站长和SEO人员最好都要保持站内URL的统一,不至于内链和外链都被分散到两种URL上去。因为指不定会在排名中使用哪个版本的URL。另外,目录URL和目录首页文件的URL也有同样的问题,同样需要网址规范化,做好301及站内只使用一个版本的URL,例如www.domain.com/abc/和www.domain.com/abc/index.html。
《搜索引擎优化指南》中对于网站URL的建议如下:
网站中同一网页只对应一个URL,如果网站上多种URL都能访问同样的内容,
会有如下危险:
搜索引擎会选一种URL为标准,可能会和正版不同;
用户可能为同一网页的不同URL Ac仁荐,多种URL形式分散了该网页的权重。
如果你的网站上已经存在多种URL形式,建议按以下方式处理:
在系统中只使用正常形式URL,不让用户接触到非正常形式的URL;
不把Session ID、统计代码等不必要的内容放在URL中;
不同形式的URL, 301永久跳转到正常形式;
防止用户输错而启用的备用域名,301永久跳转到主域名;
使用robots.txt禁止BaiduSpider抓取你不想向用户展现的形式。
让用户能从URL判断出网页内容以及网站结构信息,并可以预测将要看到的内容。
http://jc.smiseo.com/smiseo/
http://jc.smiseo.com/smiseo/blog/
http://jc.smiseo.com/smiseo/blog/item/abcd.html
http://jc.smiseo.com/smiseo/album/
举例,URL结构中加入了用户ID信息,用户在看到空间的URL时,可以方便的判断是谁的空间.URL结构中还加入了Blog. Album等内容信息,用户可以通过URL判断将要看到的内容是一篇博客,还是一个相册。
URL尽量4A,长长的URL不仅不美观,用户还很难从中获取额外有用的信息.另一方面,短URL还有助于减小页面体积,加快网页打开速度,提升用户体验。
https://www.baidu.com/link url=qQoAVUnOJJXJ9Vk-sO87ZA9wKrQdEZspIKqSsI3oQcMxj9XNsLrOdsKtfTLiH0dXrJ4kSGNiwUosGBR6VSDfuq&wd=
&eqid=923931dc00009b11000000065b5542bd
http://tieba.baidu.com/f kw=吧
例子中的第一个URL,会让用户望而却步,第二个URL,用户可以很轻松地判断是贴吧中关于的。
正常的动态URL对搜索引擎没有影响。URL是动态的还是静态的对搜索引擎没有影响,但建议尽量减少动态URL中包含的变量参数,这样既有助于减少URL长度,也可以减少让搜索引擎掉入黑洞的风险.
不添加不能被系统自动识别为URL组成部分的字符、URL中力口入了‘,;"、“,"等字符,用户在通过论坛、即时通信工具等渠遥拼仁荐这些URL时,不能被自动识别为链接,增加了用户访问这些网页的困难度。
利用提供的URL优化工具检查。
站长平台提供了URL优化工具,可以帮助检查URL对搜索引擎的友好程度并提出修改建议。
是否需要Sitemap及制作方法:Sitemap即网站地图。网站地图分为两种,一种是HTML地图,主要让普通用户使用,一种是XML地图,主要是引导Spider抓取网站。很多SEO人员在制作网站优化方案时,如果发现目标网站没有网站地图,一般都是写上制作网站地图的建议。那么网站是否真的需要网站地图呢
1.网站是否需要地图:首先要明白制作网站地图的目的是什么
比如针对Spider抓取的XML地图,XML网站地图的制作可以方便Spider对全站重要页面的抓取。这是SEO人员熟悉得不能再熟悉的理论了。如果你的网站结构比较复杂,或者你有资源处于多级目录下,Spider自己不容易抓取全站的内容,此时你是需要XML地图引导一下Spider的;
如果你只是一个小型博客站点,或者只有几十个网页的公司网站,网站结构没问题,链接都可以正常抓取的话,Spider很容易就把你网站所有内容都抓一遍了,此时就没有必要制作XML地图了。所以并不是所有的网站都必须使用XML地图,做SEO的朋友也不需要把制作XML地图当做SEO优化方案的必加建议。
对于HTML地图,一般认为是方便用户浏览网站才进行制作的,和XML地图一样,结构复杂的网站需要,结构简单的网站并不需要。如果一个网站所有频道和重要内容都在首页上有链接了,那么再单独做一个HTML的地图干什么呢 如果网站结构复杂,频道众多,网站首页上不可能放么多重要页面的链接,此时就需要一个HTML的地图来方便引导用户浏览网站。
如下图所示为搜房网的HTML地图,搜房网有太多重要的目录和页面了,在网站首页不可能有这么多空间来放这么多链接,即使全放到首页,用户体验也会非常糟糕,所以这个HTML地图对用户有很好的引导作用,方便用户快速找到自己所需要浏览的频道、目录、专题或详细信息页面。
2.不推荐使用站外XML地图生成工具:如果确定网站的确需要制作XML地图引导一下Spider,就要考虑怎样制作这个XML地图了。
对于XML地图的格式,网络上有很多介绍,站长平台的“推荐阅读”区Sitemap工具的介绍中也有详细讲解,在此就不多做介绍了。这里重点谈一下怎么来做这个XML地图。
很多朋友在网上寻找制作XML地图的工具,网上也确实有很多相关工具。这些工具一般需要你提交一个页面作为入口,然后模拟Spider抓取你的网站。
笔者不认为这些工具的Spider比搜索引擎的Spider还要强大,这些工具的Spider能够抓取到的页面搜索引擎基本上都可以抓取到。并且对于网站内隐藏比较深的页面,这些工具也不一定能够抓全,所以不推荐使用站外XML地图生成工具。
作为站长或SEO人员,应该对自己的网站了如指掌。如果想制作XML地图,最好根据网站内容和数据库字段批量生成有效网页的URL。现在的网站差不多都是动态程序了,网站URL一般都是数据库驱动的。
所以大家根据数据库的字段和网站URL结构进行对比组合批量生成就可以了,去除那些不希望被搜索引擎抓取的参数,只提取有效参数,才能制作出高质量的XML地图。这样的XML地图才可以方便Spider抓取正常情况下抓取不到的内容,方便搜索引擎抓取全站的内容。
使用外部工具抓自己的网站不但消耗自己的服务器和带宽资源,抓取到的URL可能还会包含很多垃圾页面,更会降低这种XML地图的价值。
不过,如果确实没有能力根据数据库批量生成有效页面的URL,通过日志分析又发现有太多站内页面迟迟没有被搜索引擎抓取,本着“有总比没有强”的目的也可以使用站外工具制作一个XML地图提交到搜索引擎,在制作过程中及提交地图之前一定要检查一下地图中URL是否有错误,是否存在垃圾链接过多等问题。
不提交Sitemap就只能等待搜索引擎发现网站的URL后才抓取,提交Sitemap后就是把网站的URL提交给搜索引擎直接抓取,提交Sitemap就相当于帮助搜索引擎省去了发现URL的步骤,相对来说会提升网站内网页被搜索引擎抓取效率。至于生成工具,Site Map Maker, SiteMap Builder等都是相对比较不错的,有需要的朋友可以T解一下。
所以,如果网站结构比较简单,网页也比较少,就没有必要纠结是否需要制作和提交网站地图;如果网站内页面比较多且有一定的技术能力,就可以按照数据库中的字段来批量为有内容的页面生成网站地图;
如果网站内页面比较多,但又没有能力通过技术手段生成高质量的网站地图,那么也可以通过站外生成工具来制作,不过一定要严格检查生成URL的正确性和质量,如果提交太多垃圾页面的URL,就等于直接告诉搜索引擎你的站点内容质量不怎么样了。
3.网站地图入口和格式问题:对于XML版的地图,Google Webmaster和站长平台都已经有专门的提交入口。对于HTML版的地图,最好在全站的页脚都推荐一下,因为这是主要为用户服务的,要让用户随时都可以找到网站地图,从而更方便地浏览网站。
对于Google,还可以在robots.txt文件中声明站点地图的位置,且Google可以支持单个地图文件含URL的上限为50 000条,文件大小为50MB。
而暂时只支持通过站长平台提交网站地图,不支持:obots.txt文件声明,所支持的地图文件URL条数上限也为50 000条,不过文件大小上限为10MB。另外Google和都支持XML形式之外的纯文本地图,但是Google只支持UTF-8编码,则支持UTF-8和GBK两种编码。
所以,如果使用同一套地图文件同时提供给Google和,需要让地图文件同时符合两边的要求:单个文件的大小不要超过10MB,所含URL不要超过50 000条;当使用纯文本文件时,要使用UTF-8编码;两边都支持经过gzip压缩的地图文件;两边都支持地图索引文件提交。
robots.txt相关问题及用途:
robots.txt文件是引导搜索引擎Spider抓取网站的文件。合理地使用robots.txt文件可以防止自己网站内诸如后台登入之类的秘密页面被搜索引擎抓取索引和公布,还可以屏蔽搜索引擎对网站非内容页面的抓取,只让搜索引擎抓取和收录能够带来排名和流量的页面。
在robots.txt文件的使用中有下面几个问题值得讨论一下。
1.要不要使用robots.txt:对于有需要屏蔽Spider抓取的内容的网站,当然是需要robots.txt文件的。但是对于希望把内容全部开放给Spider的网站来说robots.txt就没有意义了,那么此时还需不需要这个robots.txt文件呢?
2012年11月1日,、360和搜狗等国内主流搜索引擎签署了《互联网搜索引擎服务自律公约》,表态全部支持robots协议。搜索引擎支持robots协议,也就是在抓取网站内容之前需要先抓取网站的:robots.txt文件。
如果网站不设置robots.txt文件,正常情况下服务器会返回404状态码,但是也有些服务器会返回200或者其他错误。针对返回404状态码的服务器,就不需要做特殊处理了。因为搜索引擎抓取一两次都发现网站并没有设置robots.txt文件,在一定周期内就不会再进行抓取了,而是正常抓取网站内容。
对于返回404状态码之外的信息的服务器,最好重新配置一下服务器,设置为对访问服务器上不存在的URL或文件的用户返回404状态码。如果不能进行配置,那么就在网站根目录下放一个空设置或允许抓取全部内容设置的robots.txt文件,以防服务器对Spider做出错误的引导。
有些人认为如果允许Spider抓取全站内容,还在服务器上放一个robots.txt文件有可能会浪费Spider的抓取次数,毕竟Spider对一个网站的抓取次数是有限的。
其实这种担心是不必要的,不论你设置不设置robots.txt文件,搜索引擎都会频繁地抓取这个文件,因为搜索引擎并不知道你以后是不是要设置或者更新这个文件,为了遵守互联网协议,就只能频繁地对此文件进行抓取。并且搜索引擎每天只抓几次robots.txt文件,并不会造成对网站抓取次数的浪费。
2.不同搜索引擎对robots协议的支持并不相同:虽然主流搜索引擎都声明支持robots协议,但是对于robots.txt文件中的限制语句可能会有不同的匹配解读。在本书后续对Google Webmaster的“已拦截的网址”介绍中,介绍了和Google对robots协议匹配不同的地方即“Disallow:/tmp”在中是不可以匹配“/tmpdaf"的,但是在Google中是可以匹配的。
所以站长和SEO人员在配置robots.txt文件时,‘需要特别注意一下,最好使用通用的屏蔽语句,或者研究几个主流搜索引擎的官方帮助说明,针对不同的搜索引擎进行单独的屏蔽设置。
3. robots.txt可以声明网站地图:robots.txt文件除了有限制搜索引擎抓取的功能外,还可以声明网站地图的位置。这其实是Google所支持的一个功能,站长可以通过Google Webmaster直接向Google提交XML版本或纯文本的网站地图,也可以选择在robots.txt文件中添加一行声明:
Sitemap: http://example.com/Sitemapes location.xml
该声明和限制搜索引擎抓取的语句没有关系,可以放到文件中的任何位置。不过暂时只有Google支持,搜索工程师曾经表示不支持,并且现在在站长平台中有了专门的Sitemap提交入口,所以这个声明对不一定有效。不过由于robots.txt文件的特性,搜索引擎都必须频繁抓取此文件,所以在robots.txt文件中声明一下网站地图,单从促进搜索引擎对网站抓取方面来看,只会有益无害。
4. robots meta标签的使用:robots协议除可以在网站根目录使用robots.txt文件外,还可以使用meta标签。具体写法如下:
nofollow会在后面进行详细的介绍,noarchive是禁止显示快照的意思,也就是当网友搜索到你的网站时,只能进入你的网站浏览内容,不能通过搜索引擎的快照浏览你的网站的内容。
使用meta标签中的nofollow可以使得搜索引擎不跟踪页面中的链接。值得一提的是在网络上和其他SEO书籍中提及的
现在禁止收录某个页面只能使用robots.txt来实现,或者针对Spider返回404状态码,robots meta暂时还不可以,不过官方表示己经在计划支持noindex。
robots.txt的具体用途:一般都说可以使用robots.txt文件来屏蔽不想被搜索引擎抓取的页面,但是这些“不想被抓取的页面”一般都会有哪些呢 下面来举几个简单的例子。
多版本URL情况下,非主显URL的其他版本。比如网站链接伪静态后就不希望搜索引擎抓取动态版本了,这时就可以使用robots.txt屏蔽掉站内所有动态链接。
如果网站内有大量的交叉组合查询所生成的页面,肯定有大量页面是没有内容的,对于没有内容的页面可以单独设置一个URL特征,然后使用robots.txt进行屏蔽,以防被搜索引擎认为网站制造垃圾页面。
如果网站改版或因为某种原因突然删除了大量页面,众所周知。网站突然出现大量死链接对网站在搜索引擎上的表现是不利的。虽然现在可以直接向提交死链接,但是还不如直接屏蔽对死链接的抓取,这样理论上就不会突然发现网站多了太多死链接,或者两者同时进行。当然站长自己最好把站内的死链接清理干净。
如果网站有类似UGC的功能,且为了提高用户提供内容的积极性并没有禁止用户在内容中夹杂链接,此时为了不让这些链接浪费网站权重或牵连网站,就可以把这些链接做成站内的跳转链接,然后使用robots.txt进行屏蔽。现在有不少论坛己经这样操作了。
常规的不希望被搜索引擎索引的内容,比如隐私数据、用户信息、管理后台页面等都可以使用robots.txt进行屏蔽。
以上就是robots.txt常见的功能。合理地使用 robots.txt,不仅可以保护网站的隐私数据,还可以只给搜索引擎展现网站高质量的一面,同时也可以使得搜索引擎多多抓取其他允许抓取的页面。
不过,站长和SEO人员要慎重考虑是否需要把后台地址写到robots.txt文件中,现在很多黑客都在频繁地扫描各个网站的后台地址,如果直接把后台地址写入到robots.txt中,也就相当于直接告诉黑客网站的后台地址了;
还有,现在只是Google支持robots.txt文件声明Sitemap地址,并不支持,并且站长现在完全可以通过Google Webmaster提交Sitemap,所以使用robots.txt文件声明网站XML地图位置并没有太大的必要性。现在有不少做采集的人都会通过robots.txt文件寻找网站的Sitemap,然后批量地提取目标内容的URL,如果站内有比较有价值的资源,就很容易被竞争对手钻空子。
所以在制作robots.txt文件时一定要综合考虑都需要写什么,而不能只站在SEO的角度思考问题。
另外,SEO人员不要被robots.txt文件本身原始的作用所限制,要将思维扩散一下,多多思考。比如为防止被搜索引擎抓到把柄,不让搜索引擎抓取透露网站弊端的页面链接;为提升网站在搜索引擎眼中的整体质量等,不让搜索引擎抓取无搜索价值的页面。
导航优化注意事项:网站导航的本职作用是引导用户和Spider更好地浏览网站内容。常见的网站导航有主导航、多级导航、底部导航和面包屑导航等。这些导航链接在SEO中,不仅可以引导用户和Spider浏览全站内容,告诉用户和Spider自己所在网页的位置;还可以布局整站内链架构,控制站内权重的流动及向Spider声明站内各个页面的重要程度等。
1.主导航:
展示网站一级重要频道入口,一般是整站内容的大分类栏目。作为网站的最重要的导航,一般都位于整个网站所有页面的上方,主导航中最好不要添加过细分类或内容页面的链接。
2.多级导航:
如果网站内容丰富复杂,一般会有树形的多级分类。此时为了方便用户浏览及方便Spider的抓取和权重提升,也会在网站主要频道首页或者全站进行多级导航的推荐。有的网站会独立于主导航单独设置多级导航,有的网站会在主导航的基础上进行扩展,如图5-10所示为马可波罗网站首页的多级导航。
3.底部导航:
原本此导航一般是提供网站介绍、投诉