Python爬蟲常用的小技巧-設(shè)置動態(tài)ip

Python爬蟲常用的技巧——設(shè)置代理IP?在學(xué)習(xí)Python爬蟲時,經(jīng)常會遇到要爬的網(wǎng)站,采用了反爬技術(shù),導(dǎo)致爬不上去。網(wǎng)頁信息的高強(qiáng)度、高效率抓取往往會給網(wǎng)站服務(wù)器帶來很大壓力,所以同一個IP重復(fù)抓取同一個網(wǎng)頁,很可能會被屏蔽。這里有一個爬蟲技能,設(shè)置代理IP。
 
 
 
 
 
 
下面簡單介紹一下免費獲取代理IP的方法。這種方法的優(yōu)點是免費,缺點是爬出來后不可用的多。
 
 
 
IP地址取自國內(nèi)IP網(wǎng)站和IP模擬器代理。如果我們抓取主頁上的IP地址,或者你可以抓取第一頁和第二頁,一般用途就足夠了。
 
 
 
配置環(huán)境
 
 
 
安裝請求庫
 
 
 
安裝bs4庫
 
 
 
安裝lxml庫
 
 
 
絕對代碼
 
 
 
不多說直接上代碼。
 
 
 
動態(tài)IP模擬器
 
 
 
get_ip_list(url,headers)函數(shù)傳入url和頭,最后返回一個ip列表。該列表的元素類似于122.114.31.177:808格式,該列表包括國內(nèi)互聯(lián)網(wǎng)代理IP網(wǎng)站主頁上的所有IP地址和端口。
 
 
 
get_random_ip(ip_list)函數(shù)傳入由第一個函數(shù)獲得的列表,并返回一個隨機(jī)代理。這個代理可以傳入requests的get方法,這樣你每次運行都可以使用不同的IP訪問抓取的網(wǎng)站,有效避免真實IP被屏蔽的風(fēng)險。
 
 
 
代理的格式是字典:{ ' http ':' http://122 . 114 . 31 . 177:808 ' },下面的執(zhí)行也可以封裝成方法。
 
 
 
為了抓取ip,Rhino代理服務(wù)器做了反抓取。如果頻繁抓取IP,服務(wù)器會主動返回503服務(wù)不可用并提示阻止,所以在請求時可以先請求保存一個文件進(jìn)行讀取,或者抓取一個IP幾分鐘后再抓取,相當(dāng)于增加了一個定時功能。
 
 
 
代理IP的使用
 
 
 
運行上面的代碼會得到一個隨機(jī)的代理,它可以直接傳遞給請求的get方法。
 
 
 
res = requests.get(url,headers=headers,proxies = proxies)
 
 
 
這里要提醒大家的是,免費代理IP的穩(wěn)定性還是需要討論的。不如建議如何抓取大量信息或者買一些代理IP。
 
主站蜘蛛池模板: 国产视频一区在线| 日本在线色视频| 人妻人人澡人人添人人爽人人玩| 色偷偷成人网免费视频男人的天堂| 最近中文字幕精彩视频| 亚洲色欲久久久久综合网| 美女脱得一二净无内裤全身的照片 | 女人与禽牲交少妇| 中文字幕第7页| 日本免费精品一区二区三区| 五月婷婷婷婷婷| 第一福利官方导航大全| 国产一区二区三区小向美奈子| 91久久精品国产免费一区| 好男人资源视频在线播放| 中文字幕免费视频| 日本三级电电影在线看| 久久精品国产亚洲7777| 最近中文字幕mv手机免费高清| 亚洲偷自拍另类图片二区| 欧美最猛黑人xxxx黑人猛交黄| 四虎国产永久在线观看| 调教她的尿孔h导尿| 国产美女91视频| A级国产乱理伦片| 日本人指教视频| 久久精品国产亚洲av日韩| 最近中文字幕在线mv视频7| 日本伊人精品一区二区三区| 亚洲国产aⅴ成人精品无吗| 欧美日韩电影网| 亚洲欧美另类专区| 毛色毛片免费观看| 亚洲色图第四色| 狂野欧美性猛交xxxx| 人妻少妇边接电话边娇喘| 男人扒开女人腿使劲桶动态图| 免费的一级黄色片| 精品国产一二三产品价格| 加勒比一本大道香蕉在线视频 | 中文字幕日韩欧美一区二区三区 |