爬虫验证码处理

核心提示有时候很好奇5118 站长工具 爱站 等一些三方平台爬取排名是怎么做到每天几亿甚至几十亿的查询量,其实这里关键核心技术就是绕过验证码触发条件。目前大部分同行的解决方案都是cookie入口解决,分析出ip和cookie是否关联,分析cooki

有时候我在想,一些三方平台比如爱站,站长工具5118,是怎么做到每天有几亿甚至几十亿的查询量的。其实这里的关键核心技术就是绕过验证码的触发条件。

目前绝大多数的对等解决方案都是cookie入口解决方案,比如分析ip和cookie是否有关联,分析cookie的主要参数,产生虚拟cookie,cookie的使用次数等等。

搜索引擎肯定会考虑用户体验,触发条件肯定是针对恶意搜索的。

其实我们可以这么想。武汉一间200元日夜的办公室,用一个搜索引擎同时搜索不同的关键词。如果触发了验证码,不触发验证码的原因是什么?

本文只是最近整理搜索引擎大数据爬虫的一点心得,希望批评指正。

 
友情链接
鄂ICP备19019357号-22