防止爬虫爬取的机制(教你如何防止爬虫爬抓取数据)

生活常识 2023-04-29 21:51生活常识www.baidianfengw.cn

  事情是这样的

  亚马逊是全球最大的购物平台

  很多商品信息、用户评价等等都是最丰富的。

  今天,手把手带大家,越过亚马逊的反爬虫机制

  爬取你想要的商品、评论等等有用信息

  反爬虫机制

  ,我们想用爬虫来爬取相关的数据信息时

  像亚马逊、TBao、JD这些大型的购物商城

  他们为了保护自己的数据信息,都是有一套完善的反爬虫机制的

  先试试亚马逊的反爬机制

  我们用不同的几个python爬虫模块,来一步步试探

  最终,成功越过反爬机制。

  一、urllib模块

  代码如下

  返回结果状态码503。

  分析亚马逊将你的请求,识别为了爬虫,拒绝提供服务。

  本着科学严谨的态度,我们拿万人上的百度试一下。

  返回结果状态码 200

  分析正常访问

  本着科学严谨的态度,我们拿万人上的百度试一下。

  返回结果状态码 200

  分析正常访问

  代码如下 ↓ ↓ ↓

  返回结果状态码200

  分析返回状态码是200了,正常了,有点爬虫那味了。

  3、检查返回页面

  我们通过requests+cookie的方法,得到的状态码为200

  目前至少被亚马逊的服务器正常提供服务了

  我们将爬取的页面写入文本中,通过浏览器打开。

  我踏马…返回状态是正常了,但返回的是一个反爬虫的验证码页面。

  还是 被亚马逊给挡住了。

  三、selenium自动化模块

  相关selenium模块的安装

  代码中引入selenium,并设置相关参数

  测试访问

  返回结果状态码200

  分析返回状态码是200了,访问状态正常,我们再看看爬到的网页信息。

  将网页源码保存到本地

  打开我们爬取的本地文件,查看 ,

  我们已经成功越过了反爬虫机制,进入到了Amazon的首页

  结局

  通过selenium模块,我们可以成功的越过

  亚马逊的反爬虫机制。

  下一篇我们继续介绍,如何来爬取亚马逊的数十万商品信息及评论。

Copyright@2015-2025 白癜风网版板所有