rHSxmUemPwpEEYRhk2kK.png

说明:本教程使用的是基于Python3图片采集爬虫,自动采集1024img并发布到WordPress博客展示,需要配合Chevereto图床一起使用,这里说下搭建教程,且只适用于国外的服务器。

使用教程

1、安装Python 3.6

#检查系统是否有Python3
python3 -V

#安装Python3
#CentOS系统
wget https://www.moewah.com/source/CentOS_Python3.6.sh && sh CentOS_Python3.6.sh
#Debian系统
wget https://www.moewah.com/source/Debian_Python3.6.sh && sh Debian_Python3.6.sh

2、安装Python所需库

pip3 install requests
pip3 install pymysql

3、下载并编辑爬虫

wget https://www.moewah.com/source/Python3/1024-spider.py
nano 1024-spider.py

修改如下:

1、设置连接的Mysql数据库信息,在代码第11行。
2、还有要修改第26、28行的图床Key,和图床url,只支持chevereto。
3、第80行文章分类ID(默认未分类)。
4、保留了采集一次后停止60s后再采集,如果不需要,删除第121行即可。

4、运行爬虫

chmod +x 1024-spider.py
python3 1024-spider.py

建议配合screen一起使用,参考:Screen 命令安装及使用方法 & 让进程在后台稳定运行的几种方法

爬虫来源:Github地址


相关推荐

  1. 关于搜索引擎爬虫抓取页面的两大规则(抓取策略图解)
  2. 如何彻底禁止百度等搜索引擎收录
  3. 一款基于Python3可批量下载Pixiv原图的爬虫
  4. Nginx常用屏蔽规则,让网站更安全
  5. Linux/VPS使用Supervisor管理进程
  6. GateOne(WebSSH)安装配置教程 for Ubuntu
文章作者:喵斯基部落
原文地址:https://www.moewah.com/archives/2373.html
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。非商业转载及引用请注明出处(作者、原文链接),商业转载请联系作者获得授权。