酷辣虫 CoLaBug
综合技术
Scrapy-redis分布式爬虫+Docker快速部署
简书 简书 2018-07-28 本文共6495个字,预计阅读需要17分钟。
生成海报
微信扫一扫,分享到朋友圈
Scrapy-redis分布式爬虫+Docker快速部署
0 0
Scrapy-redis分布式爬虫+Docker快速部署
打算爬一个网站的数据,量比较大, url 链接从0开始达到2亿,刚开始用 request 递归写了个爬虫,发现速度低的可怜,不算任何的错误,也只能达到.5秒一个请求,这速度实在不能忍,所以想着用分布式爬虫,所以才有了这篇文章
开发环境+框架、库
开发环境:
macOS High Sierra 10.13
Python3.5
开发工具:
PyCharm
Python库: pymysql 、 scrapy 、 scrapy-redis 、 requests 、 BeautifulSoup4 、 redis-py
运行环境: Centos7.4 Centos6.9 Docker
开始搭建环境
安装 Python3 Windows请自行查找教程安装、Mac用户系统自带了 Py2.6 ,我建议升级到 Python3 ,用 HomeBrew 安装即可
Homebrew安装命令
/usr/bin/ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"
然后使用 brew install python 安装 Python3
安装成功后再终端输入 python3 查看是否安装成功,如果输入 python 默认使用本机的 py2 ,当然也可以去配置文件设置个 alias 将 python 设置成启动 py3
image
如图安装成功
然后用
easy_install pip 安装
Python 的包管理工具
pip
注意:有的人用的是 Anaconda 作为 py 环境,我刚开始也是用的 Anaconda ,但是在 install scrapy-redis 的时候发现无法导入,默认源都没有这个库,