# Notes on machine learning
###### tags: `blog`
## Concepts
- data set
数据集。
- instantc/sample
示例/样本
- feature/attribute
特征/属性,用于描述一个样本。例如,一个NBA球员的特征有(身高、体重、臂展)等。
- feature/attribute/sample space
特征空间/属性空间/样本空间。比如上述一个NBA球员,样本空间可以理解为一个3维(dimensionality,维数)的坐标空间。
- label
标签。把某个样本划为某个类别,例如某球员(身高=198cm,体重=100kg,臂展=210cm)是个明星球员,我们把它标记为“明星球员”,这个“明星球员”就是标签。训练预测得分的模型时,该球员场均得分19分,“19分”这也是一个标签。
- model/hypothesis
模型/假设,即经过样本数据训练得出的规则。
- classification
分类。概念上是指预测的是离散的值,例如根据球员特征预测球员即将成为明星球员或角色球员。如果只有两个类别,可叫做"binary classifcation"。分出来的两类一类是positive class,一类是negative class。
- regression
回归。概念上是指预测的是连续值,例如根据球员特征预测球员的赛季平均得分。
- clustering
聚类。样本不打标签,由训练器自主地把样本划分出若干个类别,每个类别称为一个cluster(簇)。
- supervised learning
有监督学习。即样本有标签的学习,如分类和回归。
- unsupervised learning
无监督学习。即样本无标签的学习,如聚类。
- generalization
泛化。把训练出的模型应用于不在样本集内的一般情况。
- induction/deduction
归纳/演绎。前者是特殊到一般的泛化(generalizaion),如从样本得到一个能用于一般情况的模型;后者是一般到特殊的specification,如利用一般性模型得预测某个具体实例。
- version space
版本空间。一个训练样本集可能会对应到多个模型,即多个模型都可能符合同一个样本集。
- inductive bias
归纳偏好。机器学习过程中对某种类型的假设的偏好。如一个(身高=198cm,体重=100kg)的样本是好球员,一个(身高=180cm,体重=90kg)的样本差球员,那一个(身高=198cm,体重=90kg)该如何预测?此时如果偏好身高,则预测为好球员,如果偏好体重,则为坏球员。要注意的是,学习算法必须有所偏好,否则(如随机判断好差)该学习算法毫无意义。
- Occam's razor
奥卡姆剃刀原则。如果多个假设与观察一致,则选择最简单的那个假设。在机器学习里,可对应为多个模型与训练集一致,选择最简单的那个模型。但具体选择什么模型,一般需要结合具体实际。
- decision tree
决策树
- Support Vector Machine(SVM)
支持向量机
- overfitting/underfitting
过拟合/欠拟合
- precise
查准率
- recall
查全率
- P-R 图
查准率和查全率的关系曲线图