有时候很好奇5118 站长工具 爱站 等一些三方平台爬取排名是怎么做到每天几亿甚至几十亿的查询量,其实这里关键核心技术就是绕过验证码触发条件。
目前大部分同行的解决方案都是cookie入口解决,分析出ip和cookie是否关联,分析cookie主要参数,生产虚拟cookie,cookie使用次数等等。
搜索引擎肯定会考虑用户体验度的,触发条件肯定都是针对恶意搜索。
其实我们可以这样想,一个办公室有200人,同时使用某个搜索引擎 搜索不同的关键词,如果触发验证码是什么原因,没有触发验证码又是什么原因。
本文只是近期做搜索引擎大数据爬虫整理的一点心得,有说的不对的地方还希望批评指正。