说明:本教程使用的是基于Python3
图片采集爬虫,自动采集1024img并发布到WordPress博客展示,需要配合Chevereto
图床一起使用,这里说下搭建教程,且只适用于国外的服务器。
使用教程
1、安装Python 3.6
#检查系统是否有Python3
python3 -V
#安装Python3
#CentOS系统
wget https://www.moewah.com/source/CentOS_Python3.6.sh && sh CentOS_Python3.6.sh
#Debian系统
wget https://www.moewah.com/source/Debian_Python3.6.sh && sh Debian_Python3.6.sh
2、安装Python所需库
pip3 install requests
pip3 install pymysql
3、下载并编辑爬虫
wget https://www.moewah.com/source/Python3/1024-spider.py
nano 1024-spider.py
修改如下:
1、设置连接的Mysql数据库信息,在代码第11行。
2、还有要修改第26、28行的图床Key,和图床url,只支持chevereto。
3、第80行文章分类ID(默认未分类)。
4、保留了采集一次后停止60s后再采集,如果不需要,删除第121行即可。
4、运行爬虫
chmod +x 1024-spider.py
python3 1024-spider.py
建议配合screen
一起使用,参考:Screen 命令安装及使用方法 & 让进程在后台稳定运行的几种方法。
爬虫来源:Github地址
相关推荐
- 关于搜索引擎爬虫抓取页面的两大规则(抓取策略图解)
- 如何彻底禁止百度等搜索引擎收录
- 一款基于Python3可批量下载Pixiv原图的爬虫
- Nginx常用屏蔽规则,让网站更安全
- Linux/VPS使用Supervisor管理进程
- GateOne(WebSSH)安装配置教程 for Ubuntu
文章作者:喵斯基部落
原文地址:https://www.moewah.com/archives/2373.html
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。非商业转载及引用请注明出处(作者、原文链接),商业转载请联系作者获得授权。