首页 >> 生活常识 >>

防止爬虫爬取的机制（教你如何防止爬虫爬抓取数据）

生活常识 2023-04-29 21:51生活常识www.baidianfengw.cn

　　事情是这样的

　　亚马逊是全球最大的购物平台

　　很多商品信息、用户评价等等都是最丰富的。

　　今天，手把手带大家，越过亚马逊的反爬虫机制

　　爬取你想要的商品、评论等等有用信息

　　反爬虫机制

　　，我们想用爬虫来爬取相关的数据信息时

　　像亚马逊、TBao、JD这些大型的购物商城

　　他们为了保护自己的数据信息，都是有一套完善的反爬虫机制的

　　先试试亚马逊的反爬机制

　　我们用不同的几个python爬虫模块，来一步步试探

　　最终，成功越过反爬机制。

　　一、urllib模块

　　代码如下

　　返回结果状态码503。

　　分析亚马逊将你的请求，识别为了爬虫，拒绝提供服务。

　　本着科学严谨的态度，我们拿万人上的百度试一下。

　　返回结果状态码 200

　　分析正常访问

　　本着科学严谨的态度，我们拿万人上的百度试一下。

　　返回结果状态码 200

　　分析正常访问

　　代码如下 ↓ ↓ ↓

　　返回结果状态码200

　　分析返回状态码是200了，正常了，有点爬虫那味了。

　　3、检查返回页面

　　我们通过requests+cookie的方法，得到的状态码为200

　　目前至少被亚马逊的服务器正常提供服务了

　　我们将爬取的页面写入文本中，通过浏览器打开。

　　我踏马…返回状态是正常了，但返回的是一个反爬虫的验证码页面。

　　还是被亚马逊给挡住了。

　　三、selenium自动化模块

　　相关selenium模块的安装

　　代码中引入selenium，并设置相关参数

　　测试访问

　　返回结果状态码200

　　分析返回状态码是200了，访问状态正常，我们再看看爬到的网页信息。

　　将网页源码保存到本地

　　打开我们爬取的本地文件，查看，

　　我们已经成功越过了反爬虫机制，进入到了Amazon的首页

　　结局

　　通过selenium模块，我们可以成功的越过

　　亚马逊的反爬虫机制。

　　下一篇我们继续介绍，如何来爬取亚马逊的数十万商品信息及评论。

上一篇：注册杭州公司费用标准（新公司注册需要的时间）下一篇：天才是1%的灵感加99%的汗水后面还有一句，老梁：我看完就笑了

Copyright@2015-2025 白癜风网版板所有