代码收藏家技术教程 2025-04-03

Python实战教程：从零起步，掌握京东商品评论的爬虫技巧

随着电子商务的蓬勃发展，商品评论已成为消费者购买决策的重要依据。京东作为国内领先的电商平台，其商品评论数据蕴含着丰富的用户反馈和市场洞察。本文将详细介绍如何利用Python爬取京东商品评论，帮助读者从零基础掌握这一技能。在正式学习之前，请务必遵守相关法律法规和网站规定，合法合规地进行数据爬取。

一、准备工作
1.1 工具与库的安装
Python环境：确保已安装Python 3.x版本，建议安装最新稳定版。
开发工具：推荐使用PyCharm、VSCode等集成开发环境（IDE），也可使用Jupyter Notebook进行交互式编程。
第三方库：
requests：用于发送HTTP请求。
BeautifulSoup：用于解析HTML内容。
pandas：用于数据存储和处理。
time、random：用于控制请求间隔，模拟人类行为。
json：用于处理JSON格式数据。
安装命令如下：

bash
pip install requests beautifulsoup4 pandas
1.2 浏览器开发者工具
Chrome浏览器：按F12打开开发者工具，通过Network选项卡分析网页请求。
Firefox浏览器：安装Firebug插件，进行类似操作。
二、京东商品评论页面结构分析
2.1 页面逻辑与元素
京东商品详细页的设计围绕商品本身展开，主要包括以下元素：

好评率：直观展示商品口碑。
评论层次：通常分为全部评价、好评、中评、差评等。
用户元素：包括用户等级、昵称、地区等。
互动元素：如“有用”、“无用”按钮，增强用户参与感。
2.2 动态加载机制
京东商品评论采用AJAX动态加载技术，评论数据并非直接嵌入HTML页面，而是通过JavaScript异步请求获取。因此，直接爬取页面HTML无法获取评论数据，需分析网络请求找出实际API接口。

三、反爬机制与应对策略
3.1 京东反爬机制
为保护数据安全，京东采取了多种反爬措施：

IP封禁：对频繁请求的IP进行限制或封禁。
验证码：对可疑请求弹出验证码进行人工验证。
动态页面生成：通过JavaScript动态生成页面内容，增加爬虫解析难度。
请求频率限制：限制单个IP在一定时间内的请求次数。
User-Agent识别：识别非浏览器请求的User-Agent，进行拦截。
3.2 应对策略
设置请求头：模拟浏览器User-Agent，添加Referer等必要信息。
使用代理IP：通过代理IP池轮换IP，避免单一IP被封禁。
控制请求频率：设置随机请求间隔，模拟人类浏览行为。
处理验证码：对于简单验证码，可使用OCR技术识别；复杂验证码需人工干预。
遵守Robots.txt：遵循网站爬虫规则，不爬取禁止访问的页面。
四、爬取京东商品评论的实现步骤
4.1 获取商品ID与评论链接
打开京东商品页：在浏览器中输入商品URL，例如：https://item.jd.com/100004404944.html。
分析网络请求：按F12打开开发者工具，进入Network选项卡，刷新页面。
查找评论接口：在搜索栏输入productPageComments，找到评论数据接口，例如：
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100004404944&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1
提取关键参数：
productId：商品ID，与商品页URL中的ID一致。
page：页码，从0开始递增。
pageSize：每页评论数，通常为10。
4.2 发送HTTP请求获取评论数据
使用requests库发送GET请求，获取评论数据：

python
import requests
import json
import time
import random

def get_comments(product_id, page=0):
url = 'https://club.jd.com/comment/productPageComments.action'
params = {
'callback': 'fetchJSON_comment98',
'productId': product_id,
'score': 0,
'sortType': 5,
'page': page,
'pageSize': 10,
'isShadowSku': 0,
'fold': 1
}
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'Referer': f'https://item.jd.com/{product_id}.html'
}

try:
response = requests.get(url, params=params, headers=headers)
response.raise_for_status() # 检查请求是否成功
json_str = response.text[15:-2] # 去除JSONP包装
json_data = json.loads(json_str)
return json_data.get('comments', [])
except Exception as e:
print(f'请求失败: {e}')
return []

# 示例：爬取商品ID为100004404944的第0页评论
comments = get_comments('100004404944', 0)
for comment in comments:
print(f'用户: {comment["nickname"]}, 评论内容: {comment["content"]}')
4.3 分页爬取所有评论
通过循环递增页码，爬取所有评论数据：

python
def crawl_all_comments(product_id, max_page=50):
all_comments = []
for page in range(max_page):
print(f'正在爬取第{page}页评论…')
comments = get_comments(product_id, page)
all_comments.extend(comments)
time.sleep(random.uniform(1, 3)) # 随机休眠1-3秒
return all_comments

# 示例：爬取前50页评论
all_comments = crawl_all_comments('100004404944', 50)
print(f'共爬取到{len(all_comments)}条评论')
4.4 数据存储
将爬取的评论数据保存为CSV或Excel文件，方便后续分析：

python
import pandas as pd

def save_to_csv(comments, filename='comments.csv'):
df = pd.DataFrame(comments)
df.to_csv(filename, index=False, encoding='utf-8-sig')
print(f'评论数据已保存至{filename}')

# 示例：保存评论数据
save_to_csv(all_comments)

作者：lovelin+vI7809804594

物联沃分享整理
物联沃-IOTWORD物联网 » Python实战教程：从零起步，掌握京东商品评论的爬虫技巧