Python使用Selenium实现淘宝评论爬取教程

文章目录

  • 前言
  • 1. 环境准备
  • 安装 Python:
  • 安装 Selenium:
  • 下载浏览器驱动:
  • 2. 实现思路
  • 3. 代码实现
  • 4. 代码解释
  • 5. 注意事项

  • 前言

    以下是一个基于 Selenium 的 Python 淘宝评论爬取教程,需要注意的是,爬取网站数据应当遵守网站的robots.txt规则和相关法律法规,淘宝有反爬机制,此教程仅用于学习交流。


    1. 环境准备

    安装 Python:

  • 确保你的系统已经安装了 Python 3.x 版本。
  • Python 3.12 下载地址:https://pan.quark.cn/s/c88059d33465

    最新版本Python3.12安装教程:https://blog.csdn.net/xxjc2025/article/details/145763807

    安装 Selenium:

  • 在命令行中使用以下命令安装 Selenium 库。
  • pip install selenium

    下载浏览器驱动:

    Selenium 需要对应的浏览器驱动来控制浏览器,这里以 Chrome 浏览器为例,你需要下载 ChromeDriver,下载后将其所在路径添加到系统环境变量中。

    2. 实现思路

  • 登录淘宝账号。
  • 搜索商品并进入商品详情页。
  • 切换到商品评论页面。
  • 循环爬取评论信息。
  • 3. 代码实现

    from selenium import webdriver
    from selenium.webdriver.common.by import By
    from selenium.webdriver.common.keys import Keys
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    import time
    
    # 配置 Chrome 浏览器选项
    options = webdriver.ChromeOptions()
    # 可以根据需要设置无头模式等
    # options.add_argument('--headless')
    
    # 创建 Chrome 浏览器实例
    driver = webdriver.Chrome(options=options)
    
    # 打开淘宝登录页面
    driver.get('https://login.taobao.com/member/login.jhtml')
    
    # 等待用户手动登录
    input("请手动完成登录,登录完成后按回车键继续...")
    
    # 搜索商品
    search_keyword = "手机"
    search_box = driver.find_element(By.ID, 'q')
    search_box.send_keys(search_keyword)
    search_box.send_keys(Keys.RETURN)
    
    # 等待搜索结果页面加载
    time.sleep(3)
    
    # 选择第一个商品并进入详情页
    first_product = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, '.J_ItemPicA'))
    )
    first_product.click()
    
    # 切换到新打开的窗口
    driver.switch_to.window(driver.window_handles[-1])
    
    # 等待商品详情页加载
    time.sleep(3)
    
    # 切换到评论页面
    try:
        comment_tab = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.LINK_TEXT, '评论'))
        )
        comment_tab.click()
    except Exception as e:
        print(f"切换到评论页面失败: {e}")
    
    # 循环爬取评论信息
    page_num = 1
    while True:
        try:
            # 等待评论加载
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, '.rate-grid .tm-rate-content'))
            )
    
            # 获取当前页面的评论
            comments = driver.find_elements(By.CSS_SELECTOR, '.rate-grid .tm-rate-content')
            for comment in comments:
                print(comment.text)
    
            # 尝试点击下一页按钮
            next_page_button = WebDriverWait(driver, 10).until(
                EC.element_to_be_clickable((By.CSS_SELECTOR, '.pg-next'))
            )
            if 'pg-disabled' in next_page_button.get_attribute('class'):
                print("已经是最后一页,爬取结束")
                break
            next_page_button.click()
            page_num += 1
            time.sleep(3)
        except Exception as e:
            print(f"爬取第 {page_num} 页评论时出错: {e}")
            break
    
    # 关闭浏览器
    driver.quit()
    
    

    4. 代码解释

  • 登录部分:打开淘宝登录页面后,由于淘宝有较为严格的登录验证机制,这里采用手动登录的方式,等待用户完成登录操作后按回车键继续。
  • 搜索商品:通过定位搜索框,输入关键词并回车进行搜索。
  • 进入商品详情页:选择搜索结果中的第一个商品并点击进入详情页。
  • 切换到评论页面:在商品详情页中找到 “评论” 标签并点击切换到评论页面。
  • 爬取评论:循环获取当前页面的评论信息,并尝试点击下一页按钮,直到没有下一页为止。
  • 5. 注意事项

  • 反爬机制:淘宝有反爬机制,频繁的请求可能会导致 IP 被封禁。可以设置合理的请求间隔时间,或者使用代理 IP 来避免被封禁。
  • 页面元素定位:淘宝页面结构可能会发生变化,需要根据实际情况调整元素定位方式。
  • 数据存储:可以将爬取到的评论信息存储到文件或数据库中,方便后续分析和使用。
  • 作者:ππ记录

    物联沃分享整理
    物联沃-IOTWORD物联网 » Python使用Selenium实现淘宝评论爬取教程

    发表回复