今天我在做SEO收录提升工具集的搜狗推送功能的时候,发现搜狗根本没有推送URL的接口,不过好在有一个地方可以推送URL,如下图:
但是一次只能提交20个URL并且还需要验证码,这就有点困难了,本来打算用请求验证码识别平台返回验证码结果,但考虑到如果每天都要使用的话验证码识别费用也是一笔不小的开销,所以破解掉搜狗验证码势在必行
先把验证码下载下来
没想到验证码竟然不是一张图片,而是一个SVG
这里解释一下SVG,简单来说就是用代码绘制成的图片,无法直接下载保存为图片
我们这里就需要用python 把SVG转成jpg格式的图片保存下来
这里我们用到的库为svglib
转换下载完成
调用ocr.dll进行验证码识别
ocr.dll据说是一个易语言编写的动态链接库,训练了大量图形验证码,识别成功率非常高
但是仅运行在32位Python中,因为ocr.dll它们是使用语言训练而成的,而易语言是32位的..
那么动态链接库,python中如何调用呢
导入ctypes 库
选择要调用的动态链接库,ctypes.windll.LoadLibrary可以调用动态链接库
初始化方法
请求验证码转成PNG格式的字节流并临时存储在内存中
调用ocr.dll动态链接库中的ocr方法
传入 PNG格式的字节流和字节流长度 这两个参数
返回结果
下面是代码demo
测试识别结果
对比一下原图,可以看到验证码识别率是非常高的,最重要的是不需要花一分钱去打码
不光是搜狗站长的验证码,市面上常见的数字字母组合验证码都可以轻松破解
感兴趣的同学私信发完整源码