突破反爬蟲的利器——開源動態(tài)ip池

突破反爬蟲的常用方法是使用代理ip。對于初學(xué)者或個人來說,購買一些代理ip的成本略高。因此,最近編寫了一個開源項目IPProxys,為個人提供代理IP。
 
IpProxys原理:通過抓取各大代理網(wǎng)站提供的免費代理ip,進行去重,驗證ip的可用性,將有效IP存儲在sqlite中,為爬蟲獲取IP提供HTTP接口。
 
IPProxys項目已經(jīng)上傳到github,鏈接是https://github.com/qiyeboy/IPProxys.以下是整個項目的描述。
 
Api包:主要實現(xiàn)http服務(wù)器,提供api接口(通過get請求返回json數(shù)據(jù))。
 
數(shù)據(jù)文件夾:主要指數(shù)據(jù)庫文件和qqwry.dat的存儲位置(可以查詢ip的地理位置)。
 
Db包:主要封裝一些數(shù)據(jù)庫操作。
 
蜘蛛包是爬蟲的核心功能,在代理網(wǎng)站上抓取代理ip。
 
測試包:測試一些用例,不參與整個項目的運行。
 
Util包:提供一些工具類。其中ipAddress.py查詢IP的地理位置。
 
驗證包:用于測試ip地址是否可用。
 
Config.py:主要是配置信息(包括配置ip地址的解析方法和數(shù)據(jù)庫的配置)。
 
整個項目代碼量很小,大家可以根據(jù)自己的需要進行修改,也可以提出自己的想法和建議,幫助我完善這個項目。
 
如何使用IPProxys項目?
 
1.將項目目錄克隆到當(dāng)前文件夾。
 
$ git克隆
 
2.切換項目目錄。
 
$ cd IPProxys
 
3.運行腳本。
 
python IPProxys.py
 
窗口運行效果如下圖所示:
 
 
項目依賴關(guān)系:
 
需要安裝Sqlite數(shù)據(jù)庫。
 
安裝請求庫:pip安裝請求。
 
install lxml:apt-get install python-lxml。
 
ipProxys運行時,外部爬蟲如何獲取IP?
 
外部爬蟲只需要向IPProxys所在主機的端口8000發(fā)送GET請求。獲取請求的參數(shù)
 
動態(tài)IP模擬器
 
 
 
 
主站蜘蛛池模板: 久久亚洲精品人成综合网| 亚洲色婷婷一区二区三区| 国产三级a三级三级野外| 在线观看片免费人成视频播放| 中文字幕在线看| 日韩人妻精品一区二区三区视频 | 一个人看的www免费高清中文字幕| 日本天堂免费观看| 亚洲AV无码一区二区一二区| 毛色毛片免费观看| 伊人久久大香线蕉无码| 精品少妇人妻av无码久久| 国产三级自拍视频| 香蕉大视频在线播放持久| 国产日韩综合一区二区性色AV | 精品无人区无码乱码毛片国产| 国产三级电影在线观看| 高清国产美女一级毛片| 国产无遮挡又黄又爽在线观看 | 日本pissjapantv厕所自| 久久精品人人做人人爽电影蜜月| 校草让我脱了内裤给全班看| 亚洲日韩一页精品发布| 污视频在线免费| 亚洲老妈激情一区二区三区| 白嫩光屁股bbbbbbbbb| 免费观看美女用震蛋喷水的视频| 翁虹三级在线伦理电影| 国产一区曰韩二区欧美三区| 野花视频在线官网免费1 | 182在线播放| 国产超碰人人模人人爽人人添| awyy爱我影院午夜| 天天久久综合网站| z0z0z0另类极品| 宝贝过来趴好张开腿让我看看 | 日产乱码一卡二卡三免费| 久久亚洲精品无码| 日本护士xxxx视频| 久久午夜无码鲁丝片午夜精品| 日韩av无码一区二区三区不卡毛片|