网站维护涉及面很广,具体到搜索引擎优化。可以每天统计整理网站访客日志中搜索引擎爬虫的以下数据。根据统计数据,你可以根据各种参数的变化,做出问题调查、页面优化、内容更新、调整等相应的操作。
以数据分析为基础的网站维护提升爬虫的总抓取量
统计不重复抓取的次数。
计算所有状态代码的数量
数一数被抓取的404页。
计数404响应代码与总响应代码的比率。
统计404响应代码在每个目录中出现的次数。
Crawler非200状态代码捕获比率
统计一个目录的爬行次数。
统计每个ip下对应URL的抓取次数
来访爬行动物数量的统计
提取蜘蛛访问的前10个网站和访问次数,按降序排列。
统计主页搜索次数占总搜索次数的比率。
计算捕获的总字节数。
提取目录中蜘蛛访问的次数。
打印带有非200状态代码的URL
爬行动物时期的情况
计算总抓取时间和总抓取次数。
访问量最大的20个ip
列出传输大小最大的文件。
列出最耗时的页面以及相应的页面出现次数。
以上参数可以从很多角度借鉴,比如发现搜索引擎爬虫的抓取规律,发现网站结构的不足,提高网站的用户体验。在网站维护方面,你可以以第二个为出发点,你会发现网站有很多可以优化的地方。