831 views
# Notes on machine learning ###### tags: `blog` ## Concepts - data set 数据集。 - instantc/sample 示例/样本 - feature/attribute 特征/属性,用于描述一个样本。例如,一个NBA球员的特征有(身高、体重、臂展)等。 - feature/attribute/sample space 特征空间/属性空间/样本空间。比如上述一个NBA球员,样本空间可以理解为一个3维(dimensionality,维数)的坐标空间。 - label 标签。把某个样本划为某个类别,例如某球员(身高=198cm,体重=100kg,臂展=210cm)是个明星球员,我们把它标记为“明星球员”,这个“明星球员”就是标签。训练预测得分的模型时,该球员场均得分19分,“19分”这也是一个标签。 - model/hypothesis 模型/假设,即经过样本数据训练得出的规则。 - classification 分类。概念上是指预测的是离散的值,例如根据球员特征预测球员即将成为明星球员或角色球员。如果只有两个类别,可叫做"binary classifcation"。分出来的两类一类是positive class,一类是negative class。 - regression 回归。概念上是指预测的是连续值,例如根据球员特征预测球员的赛季平均得分。 - clustering 聚类。样本不打标签,由训练器自主地把样本划分出若干个类别,每个类别称为一个cluster(簇)。 - supervised learning 有监督学习。即样本有标签的学习,如分类和回归。 - unsupervised learning 无监督学习。即样本无标签的学习,如聚类。 - generalization 泛化。把训练出的模型应用于不在样本集内的一般情况。 - induction/deduction 归纳/演绎。前者是特殊到一般的泛化(generalizaion),如从样本得到一个能用于一般情况的模型;后者是一般到特殊的specification,如利用一般性模型得预测某个具体实例。 - version space 版本空间。一个训练样本集可能会对应到多个模型,即多个模型都可能符合同一个样本集。 - inductive bias 归纳偏好。机器学习过程中对某种类型的假设的偏好。如一个(身高=198cm,体重=100kg)的样本是好球员,一个(身高=180cm,体重=90kg)的样本差球员,那一个(身高=198cm,体重=90kg)该如何预测?此时如果偏好身高,则预测为好球员,如果偏好体重,则为坏球员。要注意的是,学习算法必须有所偏好,否则(如随机判断好差)该学习算法毫无意义。 - Occam's razor 奥卡姆剃刀原则。如果多个假设与观察一致,则选择最简单的那个假设。在机器学习里,可对应为多个模型与训练集一致,选择最简单的那个模型。但具体选择什么模型,一般需要结合具体实际。 - decision tree 决策树 - Support Vector Machine(SVM) 支持向量机 - overfitting/underfitting 过拟合/欠拟合 - precise 查准率 - recall 查全率 - P-R 图 查准率和查全率的关系曲线图