Python爬虫建立代理池&利用代理池模拟访问CSDN

作品简介

1.使用Python从几个免费代理网站爬取免费代理,构建代理池

2.使用爬取的代理池,代理访问CSDN(仅供学习,勿大量刷访问量...)

3.自动定时任务,每24小时拉取最新的代理与已有代理合并,不断扩充代理池

简介

爬取免费代理网站的代理IP,并验证其有效性,最后将有效的代理IP保存到本地JSON中。自动定时爬取,保证代理IP的有效性。根据需要,可以自行修改代码,将代理IP保存到数据库或redis中。使用这些代理IP,可以用于爬取一些需要代理IP的网站,本项目以模拟访问CSDN增加访问量为例,仅供学习参考,请勿恶意刷访问量。

安装配置

  1. 安装Python3.8及以上版本(3.8以下未测试)
  2. windows下可通过microsoft store安装,或者安装anaconda/miniConda
  3. 安装edge web driver: 使用 WebDriver 自动执行 Microsoft Edge - Microsoft Edge Development | Microsoft Learn
  4. pip install -r requirements.txt安装依赖

使用方法

1. 修改配置文件

修改config.json中的配置:

{
"blog_name": "", # 博客名,若article_urls为空,则自动爬取
"article_urls":[ # 文章链接,如果添加了,就不会自动爬取文章链接
    "https://blog.csdn.net/xxxx/article/details/xxxx",
    "https://blog.csdn.net/xxxx/article/details/xxxx"
],
],
"target_views": 100,# 每天的目标访问量
"filter_threshold": 500 # 自动爬取文章链接时,过滤文章的阅读量
}

2. 运行

python csdn_proxy_viewer.py


创作时间: