[方便查看] 新浪微博爬虫系列之自动注册新浪微博账号
新浪微博的用户僵尸用户可以达到亿级别的,
这些僵尸用户 一部分是新浪自己搞出来的
一部分是第三方自动注册的,有多少人在弄这个,光我记得的我就为新浪贡献了50W级别的用户了。。。。
新浪微博注册的难点
1.邮箱激活的问题
2.验证码的问题
3.中文问题是或者加减乘除算法验证码的问题
4.账号 密码 JS 加密的问题
5.IP的问题
总的来说 这4个问题吧
新浪微博一般是通过邮箱住的
注册后,新浪会发送一个激活链接过来,必须请求这个链接后,才能激活这个账号。
所以说邮箱就是一个大问题
你会发现公共的邮箱都需要注册,登录,等操作,并且登录和注册又都有验证码,这样光是在邮箱这部分就需要花费很大的力气。
好在 有临时邮箱服务,临时邮箱顾名思义,只是个临时的,一般的是在24小时左右,并且不需要注册,
比如这个:http://www.fakemailgenerator.com/
如图上所示,用户名可以自定义,当然,由于不需要登录的,只有有这个邮箱地址,都可以受到有限,当然 ,这个对我们没什么影响
在注册开始前,程序申请一个临时邮箱就可以了,到注册完毕后,自动监控这个邮箱,是否有受到来自新浪的邮箱,如果有,提取出激活URL,
再请求这个URL,这个新浪微博账号也就注册成功了
临时邮箱有很多的,不过大部分是外国的服务.
至于怎么解决申请临时邮箱,怎么监控是否有新的邮件,这个又不需要验证码,相信这个很简单,稍微watch下就知道了。
2.验证码的问题
3.中文问题是或者加减乘除算法验证码的问题
验证码的问题,的确是问题,好在也能解决,虽说成功率不是很高,放在之前我有写.
4.账号和密码加密的问题了,
看了下JS,是通过RSA加密的,程序实现的RSA提交不了,用的是同样的密钥的,很是奇怪,应该是新浪在RSA算法上做了手脚。。
不过我前面有讲到webBrower中JS注入的方法,这个可以解决掉
5.IP的问题,同一个IP 一天只能注册5个账号,这对于我们来说远远不够的,
怎么办呢,
1)自己购买代理VPS
2)程序自动抓取网上免费的代理。至于程序怎么自动抓取免费的代理,如果做过webRequest的,就很简单了。先找很多的免费代理网站,提取出你要的代理就OK了
至于会提交什么参数,流程和我之前的模拟登录差不多了,
这样就可以大规模的自动注册新浪微博账号了.