2022年西北工业大学“工大出版社杯”校赛参赛经历
2022年5月18日,2022年西北工业大学“工大出版社杯”校赛结果出炉,我们队伍取得三等奖。说实话,内心已经是基本毫无波澜。期间有一些小小的个人经验教训总结如下,后续还会写一些对优秀论文学习的心得博客。
我们靠什么吃饭呢?就是靠总结经验吃饭的。在每个战役后,总来一次总结经验,发扬优点,克服缺点,然后轻装上阵,乘胜前进,从胜利走向胜利。实践永无止境,认识也永无止境,我们只有做到经常总结、善于总结,让认识在实践中不断提高,才能推动自我建设发展达到新高度。
首先把我们校赛最终选择的B题在这里复制粘贴一下:
葡萄酒质量评价
在葡萄酒行业,质量评价和认证是关键的问题。目前,葡萄酒的评价一般采用理化指标或者专家人工品尝的方法。然而,随着大数据方法的发展,利用数据挖掘技术对葡萄酒进行评价逐渐成为新的尝试。附件给出了葡萄酒的样本数据,具体属性说明见文件“名称.txt”。
请尝试建立数学模型讨论下列问题:
1. 根据附件1给出不同质量下理化指标的数字特征,描述理化指标与质量之间的相关性,探讨理化指标对葡萄酒质量的影响。
2. 根据附件1利用数据挖掘的方法论证能否用理化指标来评价葡萄酒的质量?并给出所用方法优劣性的衡量标准。
3. 附件2有20组葡萄酒的理化指标,根据你的方法预测他们的质量,并在论文中给出你的预测结果。
4. 基于上述的分析与结果,写出不超过一页的报告,说明在葡萄酒质量评价中应该注意的问题和建议。
我们存在的问题和收获的经验如下:
1 犯了低级错误:自己的目录页码编排的都不对。这些都是很浅显的问题,稍微一想就会发现不对。
2 留着几种套路的论文模板(word)是很有用的,可以减少“白手起家”的时间。
3 Excel不见得不香。而我们其实不是真的了解Excel的功能,Excel中有数据透视表功能,Excel还存在一些插件,Excel是一种可编程的软件,Excel也是可以爬虫的等等等。不要吃惊,Excel就是那么强大。第一问灰色预测就是可以通过excel实现(虽然貌似不佳)。
4 SPSSPRO这些软件边学边用,也很好用。
5一定要有线下交流!一定!要不然可能会出现吐槽“感觉我们说的好像不是一个东西”
6还有一点很痛心,我们一开始选的是A题,搞了两天卡死了。没办法狠心转行。
这是一些当时的聊天截屏等
我们的附录里面是一些较为简单的程序代码,读者有兴趣可以看一下。
附录一:
第一问采用SPSS处理程序 相关系数:皮尔逊(N)、显著性检验:双尾(T)
PRESERVE.
SET DECIMAL DOT.
GET DATA /TYPE=TXT
/FILE="C:\Users\52349\Desktop\附件1葡萄酒数据.csv"
/DELCASE=LINE
/DELIMITERS=","
/ARRANGEMENT=DELIMITED
/FIRSTCASE=2
/DATATYPEMIN PERCENTAGE=95.0
/VARIABLES=
非挥发性酸含量 AUTO
挥发性酸含量 AUTO
柠檬酸含量 AUTO
残余糖分含量 AUTO
氯化钠含量 AUTO
游离二氧化硫含量 AUTO
总二氧化硫含量 AUTO
密度 AUTO
酸碱度 AUTO
硫酸钾含量 AUTO
酒精浓度 AUTO
质量 AUTO
/MAP.
RESTORE.
CACHE.
EXECUTE.
Data written to the working file.
12 variables and 4878 cases written.
Variable: 非挥发性酸含量 Type: Number Format : F5.2
Variable: 挥发性酸含量 Type: Number Format : F5.3
Variable: 柠檬酸含量 Type: Number Format : F4.2
Variable: 残余糖分含量 Type: Number Format : F5.2
Variable: 氯化钠含量 Type: Number Format : F5.3
Variable: 游离二氧化硫含量 Type: Number Format : F5.1
Variable: 总二氧化硫含量 Type: Number Format : F5.1
Variable: 密度 Type: Number Format : F8.6
Variable: 酸碱度 Type: Number Format : F4.2
Variable: 硫酸钾含量 Type: Number Format : F4.2
Variable: 酒精浓度 Type: Number Format : F12.9
Variable: 质量 Type: Number Format : F1
Substitute the following to build syntax for these data.
/VARIABLES=
非挥发性酸含量 F5.2
挥发性酸含量 F5.3
柠檬酸含量 F4.2
残余糖分含量 F5.2
氯化钠含量 F5.3
游离二氧化硫含量 F5.1
总二氧化硫含量 F5.1
密度 F8.6
酸碱度 F4.2
硫酸钾含量 F4.2
酒精浓度 F12.9
质量 F1
DATASET NAME 数据集1 WINDOW=FRONT.
附录二:
第一问matlab处理结果:
clc;
clear;
load('dataset.mat');
y=dataset(:,12);
x=dataset(:,1:11);
x1=dataset(:,1);
x2=dataset(:,2);
x3=dataset(:,3);
x4=dataset(:,4);
x5=dataset(:,5);
x6=dataset(:,6);
x7=dataset(:,7);
x8=dataset(:,8);
x9=dataset(:,9);
x10=dataset(:,10);
x11=dataset(:,11);
X=[ones(size(y)),x];
figure(1);
plot(x1,y,'r*');
figure(2);
plot(x2,y,'r*');
figure(3);
plot(x3,y,'r*');
figure(4);
plot(x4,y,'r*');
figure(5);
plot(x5,y,'r*');
figure(6);
plot(x6,y,'r*');
figure(7);
plot(x7,y,'r*');
figure(8);
plot(x8,y,'r*');
figure(9);
plot(x9,y,'r*');
figure(10);
plot(x10,y,'r*');
figure(11);
plot(x11,y,'r*');
A=corr(x,y,'type','Pearson');
disp('多个特征和y的相关系数:');disp(A);
[b,bint,r,rint,stats]=regress(y,X);
disp(['R=',num2str(stats(1,1))]);
disp(['F=',num2str(stats(1,2))]);
disp(['P=',num2str(stats(1,3),'%f')]);
figure(13);
rcoplot(r,rint);
多个特征和y的相关系数:
-0.1130
-0.1975
-0.0078
-0.0954
-0.2084
0.0075
-0.1732
-0.3050
0.0995
0.0543
0.4352
R=0.28406
F=175.5146
P=0.000000
附录3:
第二问求解误差系数(MATLAB实现)
load('dataset.mat');
x = dataset(:,1);
y = dataset(:,2);
num = length(x);
y_max = max(y) ;
p = polyfit(x,y,1) %拟合系数
y1 = polyval(p , x);
for i = 1: 1: num
re(i) = abs( y(i) – y1(i) ) / y_max;
end
nonlinearity_error = max(re)
%———————–
figure(11)
plot(x,y,'r^')
hold on
plot(x,y1,'b')
xlabel('X')
ylabel('Y')
set(gca,'FontName','Times New Roman','FontSize',14)
set(get(gca,'XLabel'),'FontSize',14);
set(get(gca,'XLabel'),'FontName','Times New Roman');
set(get(gca,'YLabel'),'FontSize',14);
set(get(gca,'YLabel'),'FontName','Times New Roman');
set(get(gca,'title'),'FontSize',14);
set(get(gca,'title'),'FontName','Times New Roman');
grid on
来源:西工大里的河南烩面