
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
项目名称:代理IP池
项目描述:
爬取西刺,云代理IP网,快代理上的免费高匿名代理IP,爬取成功后访问www.baidu.com,
如果访问成功则把代理IP和端口号存入Mongodb数据库,需要用的时候再从数据库读取出来
功能模块:
Spiders模块 负责配置文件,数据读取,爬取数据,检测数据
config.py 配置爬取网站,提取方式,提取语句
crawler.py 调度器
getting.py 发起请求,如果请求成功获取网页
parserpage.py 解析器,根据config.py中的'type'选择解析方式(xpath,re)解析数据
validate.py 把获取有用的代理IP存入Mongo数据库
无效的代理IP删掉
db模块 数据库村粗模块
mongo_db.py 插入Mongo数据库的具体方法,删除方法,从数据库读取数据方法
scheduler.py
创建多进程,调用方法,执行程序(程序入口)
【免责声明】本文部分系转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与联系我们,我们会予以更改或删除相关文章,以保证您的权益!