scrapyd是部署scrapy爬虫的服务器
1、部署需要的安装包
pip install scrapyd 这个是服务器
pip install scrapyd-client 这个是部署客户端
2、在windowns下部署
scrapyd安装好后在服务器端测试
C:\Users\hi>scrapyd 正常运行就说明安装成功了。可以浏览器访问:http://127.0.0.1:6800/
会在目录下生成两个文件:dbs和eggs3、上面的服务器不能关闭,重启一个cmd
在scrapy项目目录下,有一个scrapy.cfg的配置文件:
[settings]
default = Scra_Picture.settings
[deploy:demo]
url = http://localhost:6800/
project = Scra_Picture
demo:部署的名称
project:项目名称 输入scrapyd-deploy 没有响应:需要在安装python的scripts目录下有个scrapyd-deploy没有后缀名,在目录下新建相同文件后缀为.bat并打开配置内容:
@echo off
"C:\Python36\python.exe" "C:\Python36\Scripts\scrapyd-deploy" %* (路径每个人不同)
现在就可以上传爬虫文件了,这里需要cd到项目的根目录(也就是有scrapy.cfg的目录)输入scrapyd-deploy 部署名 -p项目名 scrapyd-deploy demo -p Scra_Picture
出现下面就打包成功了:
Packing version 1576161900
Deploying to project "Scra_Picture" in http://localhost:6800/addversion.json
Server response (200):
{"node_name": "DESKTOP-76U6UJS", "status": "ok", "project": "Scra_Picture", "version": "1576161900", "spiders": 1}
4、开始运行:curl http://localhost:6800/schedule.json -d project=Scra_Picture -d spider=PIC
project=Scra_Picture 项目名
spider=PIC spider文件下的爬虫名
成功就出现下面的:
{"node_name": "DESKTOP-76U6UJS", "status": "ok", "jobid": "c18c08741cee11ea9be4e094676e786d"}
5.取消爬虫:curl http://localhost:6800/cancel.json -d project=Scra_Picture -d job=c18c08741cee11ea9be4e094676e786d
project=Scra_Picture 项目名
job=c18c08741cee11ea9be4e094676e786d 部署运行时会生成一个jobid
每次运行爬虫都会生成一个jobid
取消后可以再次调用第四步的命令将再次运行