代码收藏家技术教程 2022-07-22

机器学习笔记：训练集、验证集与测试集

在学习《深度学习原理与pythorch实战》这本书的4.3.4划分数据集这一小节（即76页划分数据集）的过程中，提到了训练集、测试集与验证集这几个概念，以及为何相对于通用的训练集、测试集，多了一个验证集的概念。不过这本书讲解还是没有那么透彻清晰，基于此查了很多资料，又加深巩固理解了训练集、测试集和验证集的概念。

一、定义

Ripley, B.D在《Pattern Recognition and Neural Networks》（1996）中给出了这三个词的定义。

Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.

Validation set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network.

Test set: A set of examples used only to assess the performance [generalization] of a fully specified classifier.

翻译为中文大白话就是

训练集（train set） —— 用于训练模型（拟合参数）：即模型拟合的数据样本集合，如通过训练拟合一些参数来建立一个分类器。

验证集（validation set）—— 用于确定网络结构或者控制模型复杂程度的超参数（拟合超参数）：是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。通常用来在模型迭代训练时，用以验证当前模型泛化能力（准确率，召回率等），防止过你话的现象出现，以决定如何调整超参数。具体原理参照本文的二（三）。

测试集（test set） —— 用来评估模最终模型的性能如何（评价模型好坏）：测试集没有参于训练，主要是测试训练好的模型的准确能力等，但不能作为调参、选择特征等算法相关的选择的依据。说白了就只用于评价模型好坏的一个数据集。

二、图解训练集、测试集和验证集

（一）是否参与训练

基于数据集是否参与了训练过程，可通过下图来理解，即测试集完全没参与训练，它只是用于测试，评估模型到底性能如何

（二）训练集与测试集

这种最常见的方法就是将数据分为训练集和测试集两个部分，先用训练集训练算法模型，再用测试集测试准确率，示意图如下。

（三）训练集、测试集与验证集

在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

但是我们思考一下，如果数据集仅仅分为训练集和测试集，那么我们通过修改一些超参数（不能通过学习来自动调整的参数）来降低误差，但是这种方法在实际中的应用效果却并没有想象的那么好。这是因为超参数都是基于测试集来调整的，就相当于把测试集当成了训练超参数的数据。这样对于新的数据效果不一定会更好。

于是就想出一种解决办法，即保留一个数据集作为验证集，在这些步骤做完之后再进行最终的验证。

而训练集、验证集和测试集的工作流程如下图所示，可以很明显看到训练集用于训练模型，验证集用于调节超参数，而测试集就只是用于评估模型好坏的

（四）交叉验证

下图示意3折交叉验证法，如下所示

三、数据集划分原则

数据划分的方法并没有明确的规定，不过可以参考3个原则：

1.对于小规模样本集（几万量级），常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。
2.对于大规模样本集（百万级以上），只要验证集和测试集的数量足够即可，例如有 100w 条数据，那么留 1w 验证集，1w 测试集即可。1000w 的数据，同样留 1w 验证集和 1w 测试集。
3.超参数越少，或者超参数很容易调整，那么可以减少验证集的比例，更多的分配给训练集。

来源：mooyuan