基本步骤
1、发现可读且可访问的URL。
2、浏览种子或URL列表以识别新链接并将它们添加到列表中。
3、索引所有已识别的链接。
4、使所有索引链接保持最新。
很多网站都具有反爬虫策略,常见的方式有:验证码、登陆、限制IP等。
1、验证码。可以利用打码平台破解(如果硬上的话用opencv或keras训练图);
2、登陆。利用requests的post或者selenium模拟用户进行模拟登陆;
3、限制IP。使用代理IP,因免费IP效果非常差,所以建议选择收费代理IP。
基本步骤
1、发现可读且可访问的URL。
2、浏览种子或URL列表以识别新链接并将它们添加到列表中。
3、索引所有已识别的链接。
4、使所有索引链接保持最新。
很多网站都具有反爬虫策略,常见的方式有:验证码、登陆、限制IP等。
1、验证码。可以利用打码平台破解(如果硬上的话用opencv或keras训练图);
2、登陆。利用requests的post或者selenium模拟用户进行模拟登陆;
3、限制IP。使用代理IP,因免费IP效果非常差,所以建议选择收费代理IP。
--结束END--
有问题投稿请发送至: 邮箱/kf@guangfuqiang.com QQ/162020580
本文标题: 如何正确利用网络爬虫
本文链接: https://www.guangfuqiang.com/zobk/a832513.html (转载时请保留)