1.使用Python从几个免费代理网站爬取免费代理,构建代理池
2.使用爬取的代理池,代理访问CSDN(仅供学习,勿大量刷访问量...)
3.自动定时任务,每24小时拉取最新的代理与已有代理合并,不断扩充代理池
简介
爬取免费代理网站的代理IP,并验证其有效性,最后将有效的代理IP保存到本地JSON中。自动定时爬取,保证代理IP的有效性。根据需要,可以自行修改代码,将代理IP保存到数据库或redis中。使用这些代理IP,可以用于爬取一些需要代理IP的网站,本项目以模拟访问CSDN增加访问量为例,仅供学习参考,请勿恶意刷访问量。
安装配置
- 安装Python3.8及以上版本(3.8以下未测试)
- windows下可通过microsoft store安装,或者安装anaconda/miniConda
- 安装edge web driver: 使用 WebDriver 自动执行 Microsoft Edge - Microsoft Edge Development | Microsoft Learn
- pip install -r requirements.txt安装依赖
使用方法
1. 修改配置文件
修改config.json中的配置:
{
"blog_name": "", # 博客名,若article_urls为空,则自动爬取
"article_urls":[ # 文章链接,如果添加了,就不会自动爬取文章链接
"https://blog.csdn.net/xxxx/article/details/xxxx",
"https://blog.csdn.net/xxxx/article/details/xxxx"
],
],
"target_views": 100,# 每天的目标访问量
"filter_threshold": 500 # 自动爬取文章链接时,过滤文章的阅读量
}
2. 运行
python csdn_proxy_viewer.py