第122天:Python爬虫进阶——Selenium实现接管已启动浏览器应对反爬虫策略实战指南

文章目录

  • 1、问题描述
  • 2、问题推测
  • 3、解决方法
  • 3.1 selenium自动启动浏览器
  • 3.2 selenium接管已启动的浏览器
  • 3.3 区别总结
  • 4、代码实战
  • 4.1 手动方法(手动打开浏览器输入账号密码)
  • 4.2 自动方法(.bat文件启动的浏览器)

  • 1、问题描述

    使用selenium自动化测试爬取pdd的时候,通过携带cookie登录或者控制selenium输入账号密码登录,都出现了:错误代码10001:请求异常请升级客户端后重新尝试


    2、问题推测

    这个错误的产生是由于pdd可以检测selenium自动化测试的脚本,因此可以阻止selenium的继续访问。现在大厂网站基本上都能检测到selenium脚本了。


    3、解决方法

    直接用selenium启动浏览器会被检测到,博主测试用selenium接管已经启动的浏览器就不会(原因:接管已经启动的浏览器所携带的浏览器指纹 ≈ 正常访问的浏览器指纹)


    使用selenium自动启动浏览器和接管已启动的浏览器,在浏览器指纹方面存在一些区别。以下是详细的分析:

    3.1 selenium自动启动浏览器

    1. 默认行为

    2. selenium在自动启动浏览器时,通常会使用默认的配置和设置。
    3. 浏览器会生成一个新的用户数据目录,这意味着它会创建一个全新的浏览器环境&#

    作者:袁袁袁袁满

    物联沃分享整理
    物联沃-IOTWORD物联网 » 第122天:Python爬虫进阶——Selenium实现接管已启动浏览器应对反爬虫策略实战指南

    发表回复