整个统计机器学习模型选择的逻辑,在我看来,其实是:
- 模型测试:通过某种方法(留出法、交叉验证法……),使模型输出一系列数据,这个数据是其性能的表现;
- 性能度量:根据模型展示出的一系列数据,运用数学方法对数据进行处理,使得处理后的数据能够直观地代表模型的性能;(就是问题一讨论的内容)
- 模型评估:对由第二步处理后的数据进行比较,每个模型都有自己的性能度量数据,我们将每个模型的性能度量数据进行比较,这个比较不是单纯的比大小,需要运用数学方法对每个模型的性能度量数据进行处理,在处理完后得到的数据,才能进行比较;
- 模型选择:根据比较的结果,选择最好的模型。
每个步骤的名称是我自己定的,肯定和经典书籍中的描述有所出入,整个流程的逻辑应该是清楚的。
本文简述了模型评估与选择的第1步和第2步,具体地说,本文解决了两个问题:
- 怎样进行模型测试;
- 如何得到一个模型的性能度量。
