2022年西北工业大学“工大出版社杯”校赛参赛经历

2022年5月18日,2022年西北工业大学“工大出版社杯”校赛结果出炉,我们队伍取得三等奖。说实话,内心已经是基本毫无波澜。期间有一些小小的个人经验教训总结如下,后续还会写一些对优秀论文学习的心得博客。

我们靠什么吃饭呢?就是靠总结经验吃饭的。在每个战役后,总来一次总结经验,发扬优点,克服缺点,然后轻装上阵,乘胜前进,从胜利走向胜利。实践永无止境,认识也永无止境,我们只有做到经常总结、善于总结,让认识在实践中不断提高,才能推动自我建设发展达到新高度。

首先把我们校赛最终选择的B题在这里复制粘贴一下:

葡萄酒质量评价

在葡萄酒行业,质量评价和认证是关键的问题。目前,葡萄酒的评价一般采用理化指标或者专家人工品尝的方法。然而,随着大数据方法的发展,利用数据挖掘技术对葡萄酒进行评价逐渐成为新的尝试。附件给出了葡萄酒的样本数据,具体属性说明见文件“名称.txt”。

请尝试建立数学模型讨论下列问题:

1. 根据附件1给出不同质量下理化指标的数字特征,描述理化指标与质量之间的相关性,探讨理化指标对葡萄酒质量的影响。

2. 根据附件1利用数据挖掘的方法论证能否用理化指标来评价葡萄酒的质量?并给出所用方法优劣性的衡量标准。

3. 附件2有20组葡萄酒的理化指标,根据你的方法预测他们的质量,并在论文中给出你的预测结果。

4. 基于上述的分析与结果,写出不超过一页的报告,说明在葡萄酒质量评价中应该注意的问题和建议。

 我们存在的问题和收获的经验如下:

1 犯了低级错误:自己的目录页码编排的都不对。这些都是很浅显的问题,稍微一想就会发现不对。

2 留着几种套路的论文模板(word)是很有用的,可以减少“白手起家”的时间。

3 Excel不见得不香。而我们其实不是真的了解Excel的功能,Excel中有数据透视表功能,Excel还存在一些插件,Excel是一种可编程的软件,Excel也是可以爬虫的等等等。不要吃惊,Excel就是那么强大。第一问灰色预测就是可以通过excel实现(虽然貌似不佳)。

4 SPSSPRO这些软件边学边用,也很好用。

5一定要有线下交流!一定!要不然可能会出现吐槽“感觉我们说的好像不是一个东西”

6还有一点很痛心,我们一开始选的是A题,搞了两天卡死了。没办法狠心转行。

这是一些当时的聊天截屏等

 

 

 

 

我们的附录里面是一些较为简单的程序代码,读者有兴趣可以看一下。

附录一:

第一问采用SPSS处理程序   相关系数:皮尔逊(N)、显著性检验:双尾(T)

PRESERVE.

SET DECIMAL DOT.

GET DATA  /TYPE=TXT

  /FILE="C:\Users\52349\Desktop\附件1葡萄酒数据.csv"

  /DELCASE=LINE

  /DELIMITERS=","

  /ARRANGEMENT=DELIMITED

  /FIRSTCASE=2

  /DATATYPEMIN PERCENTAGE=95.0

  /VARIABLES=

  非挥发性酸含量 AUTO

  挥发性酸含量 AUTO

  柠檬酸含量 AUTO

  残余糖分含量 AUTO

  氯化钠含量 AUTO

  游离二氧化硫含量 AUTO

  总二氧化硫含量 AUTO

  密度 AUTO

  酸碱度 AUTO

  硫酸钾含量 AUTO

  酒精浓度 AUTO

  质量  AUTO

  /MAP.

RESTORE.

CACHE.

EXECUTE.

Data written to the working file.

12 variables and 4878 cases written.

Variable: 非挥发性酸含量   Type: Number  Format : F5.2

Variable: 挥发性酸含量   Type: Number  Format : F5.3

Variable: 柠檬酸含量    Type: Number  Format : F4.2

Variable: 残余糖分含量   Type: Number  Format : F5.2

Variable: 氯化钠含量    Type: Number  Format : F5.3

Variable: 游离二氧化硫含量   Type: Number  Format : F5.1

Variable: 总二氧化硫含量   Type: Number  Format : F5.1

Variable: 密度             Type: Number  Format : F8.6

Variable: 酸碱度          Type: Number  Format : F4.2

Variable: 硫酸钾含量    Type: Number  Format : F4.2

Variable: 酒精浓度       Type: Number  Format : F12.9

Variable: 质量             Type: Number  Format : F1

Substitute the following to build syntax for these data.

  /VARIABLES=

   非挥发性酸含量 F5.2

   挥发性酸含量 F5.3

   柠檬酸含量 F4.2

   残余糖分含量 F5.2

   氯化钠含量 F5.3

   游离二氧化硫含量 F5.1

   总二氧化硫含量 F5.1

   密度 F8.6

   酸碱度 F4.2

   硫酸钾含量 F4.2

   酒精浓度 F12.9

   质量 F1

DATASET NAME 数据集1 WINDOW=FRONT.

附录二:

第一问matlab处理结果:

clc;

clear;

load('dataset.mat');

y=dataset(:,12);

x=dataset(:,1:11);

x1=dataset(:,1);

x2=dataset(:,2);

x3=dataset(:,3);

x4=dataset(:,4);

x5=dataset(:,5);

x6=dataset(:,6);

x7=dataset(:,7);

x8=dataset(:,8);

x9=dataset(:,9);

x10=dataset(:,10);

x11=dataset(:,11);

X=[ones(size(y)),x];

figure(1);

plot(x1,y,'r*');

figure(2);

plot(x2,y,'r*');

figure(3);

plot(x3,y,'r*');

figure(4);

plot(x4,y,'r*');

figure(5);

plot(x5,y,'r*');

figure(6);

plot(x6,y,'r*');

figure(7);

plot(x7,y,'r*');

figure(8);

plot(x8,y,'r*');

figure(9);

plot(x9,y,'r*');

figure(10);

plot(x10,y,'r*');

figure(11);

plot(x11,y,'r*');

A=corr(x,y,'type','Pearson');

disp('多个特征和y的相关系数:');disp(A);

[b,bint,r,rint,stats]=regress(y,X);

disp(['R=',num2str(stats(1,1))]);

disp(['F=',num2str(stats(1,2))]);

disp(['P=',num2str(stats(1,3),'%f')]);

figure(13);

rcoplot(r,rint);

多个特征和y的相关系数:

   -0.1130

   -0.1975

   -0.0078

   -0.0954

   -0.2084

    0.0075

   -0.1732

   -0.3050

    0.0995

    0.0543

    0.4352

R=0.28406

F=175.5146

P=0.000000

附录3:

第二问求解误差系数(MATLAB实现)

load('dataset.mat');

x = dataset(:,1);

y = dataset(:,2);

num = length(x);

y_max = max(y) ;

p = polyfit(x,y,1) %拟合系数

y1 = polyval(p , x);

for i = 1: 1: num

re(i) = abs( y(i) – y1(i) ) / y_max;

end

nonlinearity_error = max(re)

%———————–

figure(11)

plot(x,y,'r^')

hold on

plot(x,y1,'b')

xlabel('X')

ylabel('Y')

set(gca,'FontName','Times New Roman','FontSize',14)

set(get(gca,'XLabel'),'FontSize',14);

set(get(gca,'XLabel'),'FontName','Times New Roman');

set(get(gca,'YLabel'),'FontSize',14);

set(get(gca,'YLabel'),'FontName','Times New Roman');

set(get(gca,'title'),'FontSize',14);

set(get(gca,'title'),'FontName','Times New Roman');

grid on

来源:西工大里的河南烩面

物联沃分享整理
物联沃-IOTWORD物联网 » 2022年西北工业大学“工大出版社杯”校赛参赛经历

发表评论