2023美赛春季赛Y题保姆级思路及代码 了解二手帆船

2023_MCM_Problem_Y  Understanding Used Sailboat Prices

背景:

和许多奢侈品一样,帆船的价值会随着老化和市场条件的变化而变化。附件中所附的 “2023_MCM_Problem_Y_Boats.xlsx”文件包括了2020年12月在欧洲、加勒比海和美国登 广告出售的大约3500艘36至56英尺长的帆船的数据。一位划船爱好者向COMAP提供了这些 数据。像大多数真实世界的数据集一样,它可能有缺失的数据或其他需要在分析之前进 行一些数据清理的问题

Excel文件包括两个标签,一个为单体帆船和一个为双体帆船。在每个标签、列分别标记为“制造”、“变量”、长度(英尺)、地理区域、国家 /地区/州、挂牌价格(美元)和年份(制造)。 对于给定的制造、变体和年份,除了提供的Excel文件之外,还有许多其他来源可以提供 对特定帆船特性的详细描述。您可以用您所选择的任何附加数据来补充所提供的数据集 ;但是,您必须在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的数据。请确保完全识别和记录所使用的任何补充数据的来源。 帆船经常通过经纪人出售。为了更好地了解帆船市场,香港(特区)的一位帆船经纪公 司委托你的团队准备一份关于二手帆船定价的报告。经纪人希望您能够:

思路:

问题1:建立一个数学模型,解释所提供的电子表格中每艘帆船的上市价格。包括任何你认为有用的预测因素。你可以利用其他资料来了解特定帆船的其他特征(如船宽、吃水、排水量、索具、帆面积、船体材料、发动机小时数、睡眠容量、净空、电子设备等),以及各年和各地区的经济数据。识别和描述所有使用的数据来源。包括讨论你对每个帆船品种价格的估计的精确性。

这道题目标是对每艘帆船的上市价格进行预测,可以以帆船价格作为Y,其他变量作为X,具体解题方法如下:

step1:尽可能构造或者收集得到更多相关数据,这个是得分的关键,也是这道题的最难点。我们需要尽可能多地找到相关数据进行补全,

例如帆船数据:

例如各地区的经济数据:

经济与吞吐量数据均为2019年数据,数据来源:世界银行、国际货运与贸易协会、世界经济论坛。

step2:用图表描述以上这些数据

step3:以帆船价格作为Y,任何可能影响到预测价格的变量作为X,构建回归预测模型,可以采用线性回归、Xgboost、LGBM、随机森林、神经网络、决策树等等,这里推荐用机器学习。

step4:对模型进行评价与模型调优,模型调优可以结合想PSO、遗传算法等等启发式算法,提升文章逼格。

问题2:用你的模型来解释区域对上市价格的影响(如果有的话)。讨论一下任何地区性的影响是否在所有帆船的变体中都是一致的。讨论任何区域效应的实际和统计学上的意义。

一方面我们可以输出模型的指标重要性,查看地区指标带来的影响程度,另一方面,可以采用shap模型,对影响的正负向整体情况进行深入分析。

而要讨论任何地区的影响是否在所有帆船的变体中都是一致的,这个我们可以通过双因素方差分析,以地区为分组项1,以帆船为分组项2,价格作为分析项,分析不同地区不同帆船是否存在价格差异,直接查看其显著性P值是否呈现统计学差异即可。

问题3:讨论如何利用所给出的地理区域模型在香港特别行政区市场上有用。从提供的电子表格中选择一组信息量大的单体帆船和双体帆船子集,并找到这个子集在香港特别行政区市场上的对比售价数据。模拟香港特别行政区对于每种船只价格的地区效应,如果有的话,这种效应对于单体帆船和双体帆船是否相同。

由于原始数据中没有提供香港的帆船价格数据,同时想要在网上找到某款帆船在香港的价格,基本难如登天,但是我们可以从经济和货运水平相关指标来建立一个区域仿真模型,具体做法是在问题1中加入交通相关指标,训练并拟合好一个模型后,将其他地区的经济指标和交通水平指标调整为香港的值,然后预测出香港特别行政区对于每种船只价格,在与原来的价格进行对比计算后,就可以得到与各地区的效应对比情况,接着用配对样本T检验等差异性分析算法对单体帆船和双体帆船的效应进行分析即可。

问题4,5: 识别并讨论你的团队从数据中得出的任何其他有趣的、有信息量的推论或结论。为香港(特区)的帆船经纪人准备一份一到两页的报告。包括一些精心挑选的图形,以帮助经纪人理解你的结论。

这个可以结合问题1~3中的数据描述,去自由做更进一步分析,自由发挥。

思路详细讲解可看B站视频

2023美赛春季赛Y题保姆级思路及完整解题代码 了解二手帆船的价格_哔哩哔哩_bilibili

物联沃分享整理
物联沃-IOTWORD物联网 » 2023美赛春季赛Y题保姆级思路及代码 了解二手帆船

发表评论