Python数据分析报告:探索成都二手房价趋势

成都二手房价数据分析

摘要:

住房是民生之本,房价成了生活中大家所关注的问题,不少购房者将视线转移到二手的普通住房,但更多的人更多的缺少信息筛选的方法。本文研究通过机器学习工具Python。采用scratch爬虫对链家网的成都市各区二手房源数据进行获取,收集范围包括小区名称、类型、地址、售价等相关信息。经过数据清洗,使用 随机森林、决策树、K-Means算法,对所获取的2万余条数据(链家网成都各区前100页) 进行预测分析,将其属性相似度较高进行划分。

关键词:爬虫、机器学习、可视化分析、二手房价预测

一、数据分析目标与任务

1.背景介绍

随着国家对新建商品房市场调控力度的加大和存量房市场的逐步扩大,二手房市场将逐步发育成熟,成为与一手房市场相竞争和共存的市场形态。在二手房交易市场在不断发展的进程中,始终存在着房地产经纪机构规模小、经营行为不规范、人员素质偏低、行业诚信经营状况令人堪忧。然而,二手房交易市场是伴随着我国住房制度改革诞生的新兴市场,存在问题是不可避免的,但我国二手房交易市场的发展前景十分广阔,目前政府相关部门正在采取各项措施,培育和完善二手房交易市场。

2.研究方法与技术路线

通过爬虫收集成都主城区范围内二手房数据信息,数据可视化探索影响房价的重要因素,对数据建模,通过购房需求,预测房价。

二、数据预处理

3.数据说明

本次爬取到的成都二手房数据共三万余条,获取的信息包括:总价格,每平方单价,小区名,小区位置,房屋地址,房屋户型,所在楼层,建筑面积,户型结构,套内面积,建筑类型,房屋朝向,建筑结构,装修情况,梯户比例,是否配备电梯,挂牌时间,交易权属,上次交易,房屋用途,房屋年限,产权所属,抵押信息。其中房价的单位为万,面积单位为平方米。

4.数据清洗

由于原始数据中含有特殊符号或者数字后跟有单位,在清洗时我们需要去除其属性中的特殊符号,以及将部分空值和明显有误差值剔除,获取到干净的数据,从而形成CSV文件。

5.数据处理

在对二手房进行分析的过程中还需要对所爬取的数据进行进一步的预处理。部分代码如下图:

三、数据探索分析

1.结合可视化呈现,对数据进行探索性分析

(1) 绘制柱状图,对成都市各个区域内的二手房的分布情况做了分析,分析各主城区内各小区(街道)中二手房的单价信息。


(2) 绘制饼状图,对成都市各个城区内的各个小区(街道)的二手房数量占比进行统计,分析同一城区中二手房数量最多的小区(街道)。



(3) 绘制箱线图,用于对比各城区二手房房价价格高低,同时能根据箱线图,看出例如平均房价,房价方差,以及各个区域房价的离散程度。

(4) 绘制散点图,对比分析二手房价与建筑面积的关系,即房价区间内的二手房面积大小,展示哪个城区相同价格区间能买到的面积最大和在某个城区购买特定面积的房屋大致需要多少预算。

(5) 绘制直方图,得到六城区房屋单价的众数和单价的大致分布,在购买前可参考。

(6) 绘制热力图,我们可以很明显的发现塔楼和板塔结合的建筑类型的价格相较平房和板楼都要高,同时平房的价格最低。同时我们会发现,房屋朝向对于房价的影响似乎并不显著。。

2.可视化呈现结果

绘制柱状图,分析了成都市各个区的不同地段的二手房的单价和整体房价分布

绘制饼状图,对成都市各个城区内的各个小区(街道)的二手房数量占比进行统计

绘制箱线图,拆分各城区中二手房的单价信息,用于对比各城区二手房房价价格高低

绘制散点图,对比分析二手房价与建筑面积的关系,根据指定区和指定面积大小,得到大致预算。

绘制直方图,我们可以得到,六城区房屋单价的众数和分布情况,在购房前可供参考。
绘制热力图,我们可以很明显的发现塔楼和板塔结合的建筑类型的价格相较平房和板楼都要高,同时平房的价格最低。同时我们会发现,房屋朝向对于房价的影响似乎并不显著。

3.结论

(1)锦江区平均单价最高的是东光小区,金牛区平均单价最高的是驷马桥街道,青羊区平均单价最高的是浣花溪,成华区平均单价最高的是SM广场,高新区平均单价最高的是金融城,武侯区平均单价最高的是龙湾。
(2)锦江区二手房最多的是合江亭,金牛区二手房最多的是金牛万达,青羊区二手房最多的是外光华,成华区二手房最多的是驷马桥,高新区二手房最多的是中和,武侯区平二手房最多的是双楠。
(3)在成都六城区中,武侯,成华和金牛区的房价是比较低的,高新区的房价最高。六城区整体房价在1.3w-2.2w左右。
(4)同样想要在买一套100-200m^2的二手房,在高新区大概需要250-500w的预算,而成华区只需要100-300w左右(最密集的地方)。
(5)从图中我们可以很明显的发现塔楼和板塔结合的建筑类型的价格相较平房和板楼都要高,同时平房的价格最低。同时我们会发现,房屋朝向对于房价的影响似乎并不显著。

四、数据分析模型

1.结合分析的目标,拟采用哪一种模型(如聚类、分类、回归)开展分析
采用的模型:多元线性回归,采用r方评估和箱线图对比评估
多元线性回归:通常用来研究一个应变量依赖多个自变量的变化关系,如果二者的以来关系可以用线性形式来刻画,则可以建立多元线性模型来进行分析。
这里多因素对房价的影响,考虑到房价作为预测输出是连续的,故选用多元线性回归模型。

  1. 合并数据集,特征筛选


  1. 矩阵数值化



  1. 数据集划分,模型训练,模型评估

箱线图可视化对比评估

实际预测情况:

输入审核

五、方案评估
本次课程设计是否达到预期目标:是
完成了所有设计任务:是
课程设计难度如何:中等
还有哪些尚待解决之处:无

物联沃分享整理
物联沃-IOTWORD物联网 » Python数据分析报告:探索成都二手房价趋势

发表评论