回归分析(stata实例详细解答过程)
现有某电商平台846条关于婴幼儿奶粉的销售信息,每条信息由11个指 标组成。其中,评价量可以从一个侧面反映顾客对产品的关注度。 请对所给数据进行以下方面的分析,要求最终的分析将不仅仅有益于 商家,更有益于宝妈们为宝贝选择适合自己的奶粉。
(1) 以评价量为因变量,分析其它变量和评价量之间的关系。
(2) 以评价量为因变量,研究影响评价量的重要因素。
我们运用stata软件解决此问题。
第一问
在第一问中要求我们,以评价量为因变量,分析其它变量和评价量之间的关系。
我们在这里用回归分析,分析此数据,完成第一题。
1.导入excel表格的数据
方法一:单击stata的左上角的“文件”,选择“导入”,再选择“excel电子表格”
在浏览选择文件位置,然后勾选“将第一行作为变量名”,最后单击“确定”。
方法二:代码导入
import excel "D:\数学建模\清风数学建模\视频对应课件\正课\7 多元回归分析\第7讲.多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow
2.打开代码编辑器
3.数据的描述性统计
(1)定量变量
Obs:观测值、样本
Mean:平均数
Std.Dev.:标准差
Min:最小值
Max:最大值
(2)定性变量
4.回归分析(stata)
GLS为广义最小二乘,在OLS的基础上进行了一定的调整,为了克服扰动项u,当一些条件不符合时,我们可以使用GLS进行估计。
Model:SSR
Residual:SSE
Total:SST
R2 = 1 -(SSE / SST)
regress 评价量 团购价元 商品毛重kg
// 下面的语句可帮助我们把回归结果保存在Word文档中
// 在使用之前需要运行下面这个代码来安装下这个功能包(运行一次之后就可以注释掉了)
// ssc install reg2docx, all replace
// 如果安装出现connection timed out的错误,可以尝试换成手机热点联网,如果手机热点也不能下载,就不用这个命令吧,可以自己做一个回归结果表,如果觉得麻烦就直接把回归结果截图。
est store m1
reg2docx m1 using m1.docx, replace
// *** p<0.01 ** p<0.05 * p<0.1
F(2,843) 和 Prob > F 为联合显著性检验
F(2,843):为F统计量,
Prob > F:为P值,必须要小于0.05,要不然没有实际意义。
df:自由度
R – squared:R2
Adj R – squared:调整后R2(论文中一般用这个)
:为常数项也就是.
t:t检验统计量=Coef. / Std. Err.
P > | t |:各因素所对应的P值。例如:商品毛重kg对应的P值为0.457>0.05,所以商品毛重kg对应的回归系数2410.303没有什么意义,与0没有显著差异。
[95% Conf. Interval]:
Coef.:分析出来的回归系数
Std. Err.:分析出来回归系数的标准误差
5.加入虚拟变量回归
Stata会自动检测数据的完全多重共线性问题。
下面的图片结果放在附录中就行了。
// Stata会自动剔除多重共线性的变量
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
est store m2
reg2docx m2 using m2.docx, replace
因为我们计算出来的P值小于0.05,所以通过了联合显著性检验。再寻找有哪些因素的P值小于0.05或者小于0.1,然后说它对应的回归系数是显著的。(只分析显著的)
在论文中放下面的处理好的表格
6.拟合优度 R2较低怎么办
(1)回归分为解释型回归和预测型回归。 预测型回归一般才会更看重𝑅2。 解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著 性即可。
(2)可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
(3)数据中可能有存在异常值或者数据的分布极度不均匀。(本例就是这种情况)
第二问
在第二问中要求我们,以评价量为因变量,研究影响评价量的重要因素。
我们将引入标准回归,来解决第二题。
1.Stata标准化回归命令
就仅仅是在回归分析的后面加了“,beta”。
Beta:为标准化后的回归系数。
第二题计算结果分析:
P值小于0.05,所以以下分析结果可用。
结果只有团购价格和F1的P值是小于0.1,所以标准化回归系数显著,是影响评价量的重要因素。而团购价格的标准化回归系数比F1的标准化回归系数大,所以团购价格才是影响评价量的最重要的因素。
来源:每天被自己菜醒(´;︵;`)