统计学习

统计学习的特点

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
统计学习也称为统计机器学习。
= =。看了上面的定义,是不是觉得一团浆糊呢。但其实说的已经很清楚了,在这里我用自己的话总结一下。
统计学习就是用数据建模型,再用建出来的模型对数据进行分析和预测的一个看起来高大上实则学起来也就那么回事的一门学科。

统计学习有诸多特点,在这里作简单概括:

  • 统计学习以计算机和网络为平台,是建立在计算机和网络上的
  • 统计学习以数据为研究对象,是数据驱动的学科
  • 统计学习的目的是对数据进行预测与分析
  • 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析
  • 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。并且在发展中逐步形成独自的理论体系与方法论。

统计学习的对象

统计学习的研究对象是数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
统计学习关于数据的基本假设是同类数据具有一定的统计规律,这是统计学习的前提

统计学习的目的

统计学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。对数据的预测与分析是通过构建概率统计模型实现的。

统计学习的方法

统计学习的方法可以概括如下:

  • 从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的
  • 并且假设要学习的模型属于某个函数的集合,称为假设空间({f1,f2,f3,…,fn})
  • 应用某个评价准则,从假设空间选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测
  • 最优模型由算法实现

如此可知,统计学习方法包括模型的假设空间、模型选择的准则、模型学习的算法,简称为‘模型’,‘策略’,‘算法’。

实现统计学习方法的步骤如下:

  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的算法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对新数据进行预测和分析

= =。就先写到这里,这算对统计学习做了一个简单的概述,大致看一下即可。