写了个cookie操作模块: cookie2dict - 字符串型cookie转字典 dict2cookie - 字典型cookie转字符串 merge_cookie - cookie合并操作 计划将其放入sitedigger库中。 http://code.google.com/p/sitedigger/ # coding:utf-8# cookie function # cookie.py# by re
开源我的数据抓取模块:sitedigger 欢迎使用,欢迎提出意见或建议! 谷歌代码: http://code.google.com/p/sitedigger/ 版本控制:HG 获取代码拷贝: hg clone https://sitedigger.googlecode.com/hg/ sitedigger
今天早上登QQ,提示我QQ号码被限制登录了。晕,第一反映就是QQ密码被盗了。解除限制、修改密码,登录后QQ提示我上次登录地址是在贵州某地,看来真是中招了。 前几天下了几个小软件,没太注意,感觉可能就是它们有问题
很多网站为了防止用户的隐私信息(电话、手机、邮箱)被爬虫抓取,都对这些信息作了特殊处理。例如,采用JS输出、采用Ajax方式触发后动态加载、以图片的形式显示。其中最常见的就是采用JS输出,这种方法实现的成本最低,同样也最好被抓
列表转换为字符串 list=['redice','@','163.com'] ''.join(list) 'redice@163.com' '?'.join(list) 'redice?@?163.com' 使用re.DOTALL修饰符,.可匹配任意字符(包括换行) str=redic\ne@163.com match=re.compile((.*?)@(.*?)$).search(str) match.groups()
与之前的版本 http://www.redicecn.com/html/yuanchuangchengxu/20101205/201.html 相比,这个使用了多线程。验证时间由原来的20分钟缩短到现在的1分钟左右。 直接上源码: proxy_verify.zip # coding:gbk# 验证最新可用代理 For http://www.5uproxy.net 多