有时候我在想,一些三方平台比如爱站,站长工具5118,是怎么做到每天有几亿甚至几十亿的查询量的。其实这里的关键核心技术就是绕过验证码的触发条件。
目前绝大多数的对等解决方案都是cookie入口解决方案,比如分析ip和cookie是否有关联,分析cookie的主要参数,产生虚拟cookie,cookie的使用次数等等。
搜索引擎肯定会考虑用户体验,触发条件肯定是针对恶意搜索的。
其实我们可以这么想。武汉一间200元日夜的办公室,用一个搜索引擎同时搜索不同的关键词。如果触发了验证码,不触发验证码的原因是什么?
本文只是最近整理搜索引擎大数据爬虫的一点心得,希望批评指正。