代码收藏家技术教程 4天前

【创新实训系列第04篇】Python数据爬取入门到精通的实践指南

一、数据爬取的基本概念

1.什么是数据爬取

数据爬取（Web Scraping）是一种通过自动化程序从网页提取结构化数据的技术，能把分散的网页数据集中收集，用于数据分析、市场研究等领域。其原理是向目标网页服务器发送 HTTP 请求，获取 HTML 文本后，按规则解析提取所需数据。

2.数据爬取的应用领域

数据分析 ：收集社交媒体用户互动数据等，助力企业分析市场、用户行为，为营销策略提供依据。

市场研究 ：获取竞争对手产品、价格、促销等信息，保持自身市场竞争力。

新闻媒体 ：收集新闻线索、热点话题，及时发布有价值的新闻报道。

3.Python 在数据爬取中的优势

3.1丰富的库支持

Requests 库 ：简单易用，能方便地向目标网页发送 HTTP 请求，获取网页内容。

BeautifulSoup 库 ：用于解析 HTML 和 XML 文档，可从复杂 HTML 结构中灵活提取数据。

Scrapy 框架 ：功能强大，提供爬虫开发整套解决方案，能高效构建大规模爬虫项目。

3.2简洁易读的语法

代码可读性强 ：Python 语法注重简洁性，使数据爬取代码逻辑清晰、变量命名直观，便于开发者编写和维护。

降低开发门槛 ：简洁语法让初学者也能较快上手，自行完成小规模数据收集。

3.3强大的数据处理生态

Pandas 库 ：提供数据结构和处理功能，方便爬取后对数据进行清洗、整理和分析。

NumPy 库 ：提供数学函数库和多维数组对象，在数值计算等环节能高效支持数据处理。

二、环境准备与工具选择

在开始数据爬取项目之前，需要安装一些核心的 Python 库。这些库为爬取和处理数据提供了强大的支持。可以通过以下命令进行安装：

pip install requests beautifulsoup4 pandas

Requests 库用于发送 HTTP 请求，获取网页内容。BeautifulSoup 库用于解析 HTML 和 XML 文档，方便地从网页中提取数据。Pandas 库则用于数据的清洗、整理和分析，帮助将爬取到的数据进行有效的处理。

开发工具推荐

IDE ：PyCharm 和 VSCode 是两款非常流行的集成开发环境。PyCharm 提供了丰富的功能，如代码补全、调试工具、版本控制集成等，适合大型项目开发。VSCode 则以其轻量级和高度可定制性受到开发者的喜爱，通过安装插件可以扩展其功能，满足不同的开发需求。

浏览器开发者工具 ：在数据爬取过程中，分析网页结构是非常重要的一步。浏览器的开发者工具（如 Chrome 的 DevTools）可以帮助开发者查看网页的 HTML 结构、CSS 样式和 JavaScript 代码。通过开发者工具，可以确定要爬取的数据所在的网页元素，以及这些元素的标签、属性等信息，从而为编写爬虫程序提供准确的依据。

Postman ：Postman 是一个强大的 API 测试工具。在数据爬取项目中，如果目标网站提供了 API 接口，可以使用 Postman 来测试这些 API 请求。通过 Postman，可以方便地发送各种类型的 HTTP 请求（如 GET、POST、PUT、DELETE 等），查看返回的响应数据，帮助开发者更好地理解和利用 API，提高爬取效率。

三、基础爬虫实现

1. 发送HTTP请求

import requests

url = "https://example.com"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..."
}

response = requests.get(url, headers=headers)
print(response.status_code)  # 200表示成功
print(response.text[:500])   # 打印前500字符

导入requests库后，设置目标网页的 URL 和包含User-Agent的请求头，用于模拟浏览器访问。通过requests.get()发送 GET 请求获取网页内容，response.status_code获取返回状态码（200 表示成功），response.text获取网页文本内容并打印前 500 个字符。

2. 处理异常

try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()  # 自动抛出HTTP错误
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

使用try...except结构发送 GET 请求，设置timeout参数避免请求长时间无响应。response.raise_for_status()根据 HTTP 状态码自动抛出异常，捕获RequestException异常后打印错误信息，以处理网络问题、超时等异常情况。

四、数据解析与存储

1.使用BeautifulSoup解析HTML

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')

# 示例：提取所有链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

导入BeautifulSoup库后，使用response.text将网页文本传入并指定解析器为html.parser，创建soup对象。通过soup.find_all('a')查找所有<a>标签，遍历这些标签并用link.get('href')提取链接的href属性值，实现对网页链接的提取。

2.数据存储方案

2.1存储到CSV

import pandas as pd

data = {"标题": ["标题1", "标题2"], "评分": [9.0, 8.5]}
df = pd.DataFrame(data)
df.to_csv("data.csv", index=False, encoding='utf-8-sig')

导入pandas库后，定义一个包含标题和评分的字典data。利用pd.DataFrame(data)将字典转换为数据框df。最后，调用df.to_csv("data.csv", index=False, encoding='utf-8-sig')将数据框存储为CSV文件，index=False表示不保存索引，encoding='utf-8-sig'确保文件编码格式正确显示中文。

2.2存储到数据库（SQLite示例）

import sqlite3

conn = sqlite3.connect('movies.db')
cursor = conn.cursor()
cursor.execute('''CREATE TABLE IF NOT EXISTS movies
                (title TEXT, rating REAL)''')
cursor.execute("INSERT INTO movies VALUES ('肖申克的救赎', 9.7)")
conn.commit()

导入sqlite3库后，使用sqlite3.connect('movies.db')连接到SQLite数据库（若数据库不存在则创建）。通过conn.cursor()获取游标对象cursor，执行CREATE TABLE语句创建movies表（若表不存在），包含title（文本类型）和rating（实数类型）字段。接着，用INSERT INTO语句向表中插入数据，最后调用conn.commit()提交事务，确保数据写入数据库。