机器学习入门笔记(一)

发布于 2021-10-21  1,617 次阅读


第一章 绪论

一. 要点

  • 一些基本术语的理解,不要在之后的阅读错误理解这些术语

二. 笔记

1. 基本术语

如果你是初学者,只看下面的术语解释肯定是看不懂的,建议先去看西瓜书上第一章的内容
  1. 数据集(data set):所有示例的集合
  2. 示例&样本&特征向量(instance/sample/feature vector):关于每一个事件或者对象的描述
  3. 属性&特征(attribute/feature):反映事件或者对象在某方面的表现或者性质的事项
  4. 属性值(attribute value):属性的取值
  5. 属性空间&样本空间&输入空间(attrubute space/sample space):属性张成的空间
  6. 维数(dimensionality):对于示例所构成的数据集来说,每个示例所包含的属性的个数
  7. 学习&训练(learning/training):从数据中学得模型的过程
  8. 训练数据(trainig data):训练过程中使用的数据
  9. 训练样本(training sample):训练过程中的每个样本
  10. 训练集(training set):对一个学习模型进行训练时所用训练数据的集合
  11. 假设(hypothesis):训练得出的对应了某种潜在规律的模型
  12. 真相&真实(ground-truth):这种潜在规律本身
  13. 学习器(learner):模型,可以看作学习算法在给定数据和参数空间上的实例化
  14. 标记(label):关于示例结果的信息
  15. 样例(example):拥有了标记信息的示例
  16. 标记空间&输出空间(label space):所有标记的集合
  17. 分类(classification):预测离散值的学习任务
  18. 回归(regresion):预测连续值的学习任务
  19. 二分类(binary classification):只涉及两个类别的学习任务,通常称其中一个类为正类(positive class),另一个类为反类(negative class)
  20. 多分类(multi-class classification):涉及多个类别的学习任务
  21. 测试(testing):学得模型后,使用其进行预测的过程
  22. 测试样本(testing sample):被预测的样本
  23. 聚类(clustering):将训练集中的示例分成若干组,其中的每组称为一个簇(cluster)
  24. 监督学习&有导师学习(supervised learning):训练数据拥有标记信息的学习任务
  25. 无监督学习&无导师学习(unsupervised learning):训练数据不拥有标记信息的学习任务
  26. 泛化(generalization)能力:学得模型适用于新样本的能力
  27. 独立同分布(independent and identically distributed/i.i.d.):从不会改变的分布中获取的数据,且获取的每个值不依赖于之前获取的值(个人理解:每个样本都是独立从分布中采样获得的)

    ps: i.i.d.是机器学习的理想情况——一种有用但在现实世界中几乎找不到的数学构建

  28. 归纳(induction):从特殊到一般的泛化过程,即从具体的事实归结出一般性规律
  29. 演绎(deduction):从基础原理推演出具体状况
  30. [广义]归纳学习(inductive learning):从样例中学习
  31. 概念学习/[狭义]归纳学习(concept learning):从训练数据中学得概念(concept)
  32. 版本空间(version space):一个与训练集一致的假设集合
  33. 归纳偏好&偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好
  34. "奥卡姆剃刀"原则(Occam's razor):若有多个假设与观察一致,则选最简单的那个
  35. "没有免费的午餐"原理(No Free Lunch Theorem/NFL定理):对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效. 即任何学习算法的期望性能相同

隔在一层层纱后的你,在我心中。