最近遇到了个比较BT的网站,限制每个IP每天只能下载50个页面,多余50就会出现block提示信息。即便用30个代理一天也才只能下载1500个页面。
Richard给我推荐了两个解决方案:
(1)从Google Cache中读取页面。
(2)利用Google Translation。
我首先尝试了方案二(Google Cache被墙了,所以一开始我没有选择它)。
方案二为了获取最终页面,需要额外下载两个Google Translation的跳转页面,所以速度肯定会比较慢(慢点无所谓啊,只要能顺利地下完就ok)。
下了整整一晚上,得到了5000多条记录。这时杯具发生了,Google Translation也被那个网站block了。
(我的猜测:Google Translation有很多个服务器,每次将翻译请求随机发送给这些服务器之一,因此一开始没有被block,后来所有服务器都达到50上限后就杯具了。)
不得不采用方案一,翻。
Google Cache的读取接口: 'http://www.google.com/search?&q=cache%3A' + urllib.quote(url)
这里会有一个30X跳转,建议使用urllib2(自动下载跳转后的页面),而不要用httplib(不会自动跳转)。
呵呵,谢谢
VaTG790i.最好的<a href=http://www.kyfei.com>网站推广软件</a>,
非常好
....................
;ui;普i;uighur;ui;ui;个
在unix网络编程中看到了关于TCP/IP的一些内容,我感觉还是写的不够。正在下载中,一定
下载地址呢