代码收藏家技术教程 2025-02-17

两个实用且热门的 Python 爬虫案例，结合动态/静态网页抓取和反爬策略，附带详细代码和实现说明

在这个瞬息万变的世界里，保持一颗探索的心，永远怀揣梦想前行。即使有时会迷失方向，也不要忘记内心深处那盏指引你前进的明灯。它代表着你的希望、你的信念以及对未来的无限憧憬。每一个不曾起舞的日子，都是对生命的辜负；每一段努力拼搏的时光，都在为你的辉煌未来添砖加瓦。

相信自己拥有改变世界的力量。无论是通过小小的善举还是伟大的发明创造，你都有能力为这个世界带来积极的变化。你的存在本身就是一种奇迹，而你所追求的梦想则是让这个奇迹绽放光芒的源泉。即使前路漫漫，即使困难重重，也要坚信自己的潜力是无穷无尽的。

因此，请继续勇敢地追逐你的星辰大海，不畏艰难险阻，不怕孤独寂寞。因为在你心中燃烧的火焰，足以照亮整个宇宙。让每一天都成为展现自我价值的机会，用你的热情和努力去书写属于自己的传奇。因为你不仅是在为自己而活，更是在用自己的方式激励着周围的人。未来正等待着你去开创，而你是那个能够让它变得无比精彩的唯一人选。

讲解这些内容之前，先给大家上波小福利

你们最近有没有使用deep seek，是不是多问几次就服务器繁忙，我来告诉你如何解决，按步骤来

1、浏览器搜索硅基流动，点登录（我登录过，所以界面不一样，没关系哈）然后找到API密钥，自己生成一个密钥，复制一下刚刚生成的密钥

2、再然后浏览器搜索chatbox，安卓点APK下载，下载好之后开始配置，按步骤，API密钥介绍刚刚让你复制的那个

Python爬虫是一种自动化程序，用于从互联网上抓取和提取数据

一、Python爬虫的核心作用

二、典型应用场景

三、技术实现流程

四、进阶技术栈

五、系统学习路径

六、推荐学习资源

七、注意事项

案例 1：静态网页爬虫 – 豆瓣电影 Top250

爬取目标

代码实现

数据存储示例（表格）

案例 2：动态网页爬虫 – 京东商品搜索（Selenium 模拟浏览器）

爬取目标

代码实现

反爬策略说明

关键注意事项

Python爬虫是一种自动化程序，用于从互联网上抓取和提取数据

一、Python爬虫的核心作用

数据采集：批量获取商品价格、新闻资讯、社交媒体内容等
数据分析：为机器学习/市场研究提供数据源
自动化测试：模拟用户操作进行网站监测
SEO优化：分析搜索引擎收录和排名
学术研究：收集论文数据或实验样本

二、典型应用场景

电商比价监控（如跟踪某价格波动）

舆情分析（抓取微博热点话题）

招聘信息聚合（整合各平台职位数据）

学术文献收集（批量下载论文摘要）

图像/视频资源归档

……

三、技术实现流程

目标分析（使用Chrome开发者工具审查网页结构）
请求模拟

python

import requests
response = requests.get(url, headers=模拟浏览器头)

内容解析

python

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'lxml')
title = soup.select('div.content > h1::text')

数据存储

python

import pandas as pd
pd.DataFrame(data).to_csv('result.csv')

反爬应对（处理验证码、IP轮换、请求限速）

四、进阶技术栈

动态页面处理：Selenium/Puppeteer

分布式爬虫：Scrapy-Redis框架

验证码破解：Tesseract OCR/深度学习模型

数据清洗：Pandas/Numpy

代理管理：IP池维护策略

五、系统学习路径，建议哈

基础阶段（2-4周）：
Python语法核心（文件操作、异常处理）
HTML/CSS选择器与XPath表达式
HTTP协议与REST API原理
中级阶段（3-5周）：
Scrapy框架项目实战
数据库存储（MySQL/MongoDB）
异步请求处理（aiohttp）
高级阶段（持续提升）：
逆向工程（JS加密破解）
移动端数据抓取（App爬虫）
云部署与定时任务（Docker/Kubernetes）

六、推荐学习资源

交互式平台：

Scrapy官方文档（含多语言版本）
Requests高级用法指南
菜鸟教程-网络爬虫专题

视频课程：

慕课网《Python爬虫工程师系列》看过，我认为非常不错

Coursera《Web Scraping and APIs》

实战项目：

豆瓣电影TOP250数据采集
链家房产信息监控系统
微博热点实时追踪
跨境电商价格聚合平台

工具集合：

代理服务：快代理/ProxyMesh

验证码平台：联众打码

指纹管理：指纹浏览器

七、注意事项

合规性：
严格遵守robots.txt协议
控制请求频率（建议≥3秒/次）
避免抓取个人隐私数据
道德准则：
注明数据来源
不进行商业性数据转售
尊重网站服务条款

建议从简单的静态页面抓取开始，逐步过渡到动态网页和反爬策略应对。可通过GitHub参与开源爬虫项目（如scrapy-demos）获取实战经验。掌握Charles/Fiddler等抓包工具的使用将显著提升调试效率。

案例 1：静态网页爬虫 – 豆瓣电影 Top250

技术栈：requests + BeautifulSoup + pandas

爬取目标

电影名称、评分、导演、年份、简介、排名

代码实现

python

import requests
from bs4 import BeautifulSoup
import pandas as pd

def get_douban_top250():
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }
    base_url = "https://movie.douban.com/top250"
    data = []

    for page in range(0, 250, 25):  # 分页逻辑（共10页）
        url = f"{base_url}?start={page}"
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, "html.parser")

        for item in soup.find_all("div", class_="item"):
            title = item.find("span", class_="title").text
            rating = item.find("span", class_="rating_num").text
            info = item.find("div", class_="bd").p.get_text(strip=True).split("\n")[0]
            year = info.split("/")[0].strip()[-4:]  # 提取年份
            director = info.split("/")[1].strip()
            data.append({
                "排名": item.find("em").text,
                "标题": title,
                "评分": rating,
                "导演": director,
                "年份": year
            })

    df = pd.DataFrame(data)
    df.to_csv("douban_top250.csv", index=False, encoding="utf-8-sig")

if __name__ == "__main__":
    get_douban_top250()

数据存储示例（表格）

排名	标题	评分	导演	年份
1	肖申克的救赎	9.7	弗兰克·德拉邦特	1994
2	霸王别姬	9.6	陈凯歌	1993

案例 2：动态网页爬虫 – 京东商品搜索（Selenium 模拟浏览器）

技术栈：Selenium + ChromeDriver + lxml

爬取目标

商品名称、价格、店铺、评论数

代码实现

python

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
import pandas as pd
import time

def get_jd_products(keyword="手机"):
    service = Service(executable_path="chromedriver.exe")  # 需下载对应版本驱动
    driver = webdriver.Chrome(service=service)
    driver.get(f"https://search.jd.com/Search?keyword={keyword}")

    # 滚动页面加载动态内容
    for _ in range(3):
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(2)

    products = []
    items = driver.find_elements(By.CSS_SELECTOR, ".gl-item")

    for item in items:
        try:
            title = item.find_element(By.CSS_SELECTOR, ".p-name em").text
            price = item.find_element(By.CSS_SELECTOR, ".p-price i").text
            shop = item.find_element(By.CSS_SELECTOR, ".p-shop a").text
            comment = item.find_element(By.CSS_SELECTOR, ".p-commit a").text
            products.append({
                "标题": title,
                "价格": price,
                "店铺": shop,
                "评论数": comment
            })
        except Exception as e:
            print(f"解析失败: {e}")

    driver.quit()
    df = pd.DataFrame(products)
    df.to_excel("jd_products.xlsx", index=False)

if __name__ == "__main__":
    get_jd_products()

反爬策略说明

策略	实现方法
请求头伪装	设置 `User-Agent` 模拟浏览器访问
IP 代理轮换	使用付费代理服务（如快代理）
动态加载处理	Selenium 模拟滚动和点击
请求频率控制	`time.sleep(random.uniform(1,3))`