代码收藏家技术教程 2024-10-15

Python爬虫入门01：在Chrome浏览器轻松抓包

文章目录

爬虫基本概念

爬虫定义

爬虫工作原理

爬虫流程

爬虫类型

爬虫面临的挑战

使用Chrome浏览器抓包

查看网页HTML代码

查看HTTP请求

请求头（Request Header）

服务器响应

抓包的意义

爬虫基本概念

爬虫定义

爬虫（Web Crawler 或 Spider）是一种自动浏览互联网的程序，它按照一定的算法顺序访问网页，并从中提取信息。爬虫的基本任务是抓取网页内容，这些内容可以是文本、图片、视频等。爬虫在互联网上的应用非常广泛，包括搜索引擎的数据收集、市场研究、数据挖掘等。

爬虫工作原理

起始URL：爬虫从一组初始URL开始，这些URL可以是手动指定的种子URL，也可以是自动生成的。
下载网页：爬虫访问URL，下载对应的网页内容。
解析内容：爬虫解析下载的网页，提取有用的信息，如文本、链接等。
提取链接：从解析的内容中提取新的URL，这些URL将作为爬虫下一步访问的对象。
重复过程：对提取的链接重复下载和解析的过程，直到满足特定条件（如爬取的页面数量、时间限制等）。

爬虫流程

目标确定：明确爬虫需要抓取的数据类型和范围。
网站分析：分析目标网站的结构，了解网页的布局和数据的组织方式。
请求发起：根据分析结果，构造合适的HTTP请求，包括GET或POST请求，以及必要的请求头信息。
数据获取：服务器响应请求后，爬虫接收数据，这些数据可能是HTML、JSON、XML等格式。
数据解析：使用正则表达式、BeautifulSoup、lxml等工具，从获取的数据中提取有用的信息。
数据存储：将解析出的数据存储到数据库或文件中，以便进一步的分析和使用。
遵守规则：在爬虫的设计和运行过程中，遵守网站的robots.txt协议，尊重版权和隐私政策。

爬虫类型

通用爬虫：广泛用于搜索引擎，如Google、Baidu，它们抓取互联网上大量的网页。

聚焦爬虫：专注于特定主题或领域的内容，只抓取与特定主题相关的网页。

增量式网络爬虫：增量爬虫，主要是指我们在周期性的爬取一些网站的时候，只是仅仅爬取网站变更的内容，而不是把所有网站数据重新爬取一遍。这样，可以有效的降低运维成本。

深层网络爬虫：深层网络爬虫，主要是指我们不能直接爬取的一些网站。比如，这些网站需要用户登陆，或者填写一些特定的表单，才能继续深入爬取信息。

爬虫面临的挑战

动态内容：现代网页大量使用JavaScript动态生成内容，爬虫需要处理这些动态加载的数据。

反爬机制：许多网站有反爬虫策略，如IP封锁、请求频率限制等。

数据质量：从网页上抓取的数据可能包含噪声，需要进一步清洗和验证。

使用Chrome浏览器抓包

推荐使用Chrome浏览器，避免使用可能存在后门的国产浏览器。

打开Chrome，输入网址（如www.baidu.com），按下F12打开开发者工具。也有些电脑单点f12不管用，那就需要用上Fn+F12的操作了，然后可以看到弹出了一个像下面这样子的界面，那就是了。

查看网页HTML代码

在Element标签下查看和修改网页的HTML代码。这个玩意正是我们想要的，可以看到，Element 标签下对应的 HTML 代码，其实就是这个网页的代码，我们可以在这里除了看看它的代码之外，我们还可以修改一些东西，比如我把这个按钮改成世界和平。首先点击左下角的小按钮，然后把我们的鼠标移动到百度一下那里，哎再右键选择编辑属性。ok，我们也算掌握了百度前端的人了（开玩笑）。

查看HTTP请求

点击Network标签，刷新页面查看HTTP请求。这里咱是中文的，就点击长得像wifi那个符号就好了。

常见请求方式：GET, POST, PUT, DELETE, HEAD, OPTIONS, TRACE。

GET请求：参数在URL中，如https://www.baidu.com/s?wd=查询内容。

POST请求：参数在请求体中，常用于信息提交如注册、登录。

HTTP请求是客户端（如浏览器）与服务器之间通信的基础。在进行网页爬取时，了解和分析HTTP请求是至关重要的。以下是对HTTP请求的进一步扩展：

HTTP请求方法：不同的请求方法决定了客户端与服务器交互的方式。

GET：请求指定的资源。参数附加在URL后面，适用于请求数据且不引起服务器状态变化的场景。

POST：向指定资源提交数据进行处理请求（例如提交表单或者上传文件）。参数包含在请求体中，适用于引起服务器状态变化的操作。

PUT：更新服务器上的现有资源或新建资源。

DELETE：删除指定的资源。

HEAD：请求获取与GET请求相同的响应，但没有响应体，用于获取响应头信息。

OPTIONS：请求查询服务器支持的通信协议或请求方法。

TRACE：请求服务器回送收到的请求信息，用于测试或诊断。

查看HTTP请求的步骤：

打开浏览器的开发者工具（通常通过按F12或右键点击页面元素选择“检查”）。
点击“Network”（网络）标签。
刷新页面，观察和分析发出的所有请求。
点击具体的请求，查看详细信息，包括请求头、请求体、响应头和响应体。

GET请求详解：

GET请求的参数通过URL传递，格式通常为key1=value1&key2=value2。

例如，在百度搜索框输入“查询内容”，浏览器会构造如下GET请求：

https://www.baidu.com/s?wd=查询内容&其它参数

GET请求的URL长度有限制，且参数直接暴露在URL中，不适合传输敏感信息。

我们来具体尝试一下，比如输入爬虫，我们能看到很多的请求，我峨嵋你再随便点一个看看，

这里我们会发现这个get的用法其实就相当于我们在 Python 写 GET 请求的时候
直接在 URL 后面加个？然后添加参数值就好了，不信的话可以复制去试一下，弹出来的界面和在输入框输入“爬虫”是一样的。

https://www.baidu.com/s?ie=utf-8&csq=1&pstg=22&mod=2&isbd=1&cqid=8f6a4386003a1144&istc=1238&ver=0Q6tTQUEQuHajerqoqPYyO9Y2bJzZC7NC9m&chk=66a4eac6&isid=470ACB913FC52189&wd=%E7%88%AC%E8%99%AB&rsv_spt=1&rsv_iqid=0xf1e9644100cf032b&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_dl=ib&rsv_sug3=8&rsv_sug1=7&rsv_sug7=100&_ck=64387.0.-1.-1.-1.-1.-1&rsv_isid=60360_60468_60492_60500_60520&isctg=5&rsv_stat=-2&rsv_sug7=100

POST请求详解：

POST请求的数据不在URL中，而是通过HTTP请求体发送。

常用于表单提交，如注册、登录等，可以传输大量数据。

例如，登录表单可能包含用户名和密码，POST请求的示例如下：

POST /login HTTP/1.1
Host: example.com
Content-Type: application/x-www-form-urlencoded


username=xiaoshuaib&password=加密后的密码

当我们点击登录的时候,就开始将我们的账号密码请求给百度服务器,可以看到我们请求了 login 这个接口

请求方法就是 POST

POST请求可以携带复杂的数据格式，如JSON或XML。

请求头（Request Headers）：

包含了HTTP请求的元数据，如Accept（客户端可接受的数据类型）、Content-Type（发送的数据类型）、Cookie（会话信息）等。

响应头（Response Headers）：

包含了服务器返回的元数据，如Content-Type（响应的数据类型）、Set-Cookie（设置客户端的cookie）等。

响应体（Response Body）：

服务器返回的数据本身，可能是HTML页面、JSON对象、图片或视频等。

请求头（Request Header）

HTTP请求时定义的头部信息，如Accept、Host、cookie、User-Agent等。

用于告诉服务器请求的上下文信息。

我们在做 HTTP 请求的时候,除了提交一些参数之外,我们还有定义一些 HTTP 请求的头部信息,比如 Accept、Host、cookie、User-Agent等等,这些参数也是我们在做爬虫要用到,通过这些信息，欺骗服务器，告诉它我们是正规请求,比如,我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话,User-Agent 告诉服务器我们是浏览器请求的