hua818 发表于 6 天前

机器学习:核心概念、相关术语、典型任务及假设选择原则全解析

文章目录

1。什么是机器学习

2。机器学习的相关术语

3。机器学习的典型任务

iv。假设和假设空间

五。假设选择原则

6。机器学习的三个要素

1。什么是机器学习

人工智能标准化白皮书(2018版)

机器学习()是一门跨学科的学科,涉及许多领域,例如统计,系统识别,近似理论,神经网络,优化理论,计算机科学和脑科学。它研究计算机如何模拟或实施人类学习行为以获取新知识或技能,并重组现有的知识结构以不断提高自己的表现。它是人工智能技术的核心。

基于数据的机器学习是现代智能技术的重要方法之一。研究发现基于观察到的数据(样本)的模式,并使用这些模式来预测未来的数据或不可观察的数据。

ng(andah ng)

(微软公司)

是数据从数据中学习的一个,和。

机器学习是一种数据科学技术,可帮助计算机从现有数据中学习,以预测未来的行为,结果和趋势。

2。机器学习的相关术语

示例(),示例():

功能(),属性():

属性值(值):

功能空间:

示例集(集合),数据集:

测试样本”():

标签:

分类():

返回()

聚类”()

根据培训数据是否标记了信息,可以将学习任务大致分为两类:“监督学习”()和“无监督的学习”()。分类和回归是前者的代表,而聚类是后者的代表。

3。机器学习的典型任务

典型的学习任务包括:

3.1类别()

由已知类别标签的样本组成的培训集,学习预测模型。最终预测模型预测了新观察样本的相应输出。预测结果是事先指定的两个或多个类别之一,或者预测结果来自有限数量的离散值之一。

两个类别相对于多个类别

类别编号C = 2,两个类别分类()

类别C> 2,多类别分类()

3.2返回()

回归分析基于由已知答案的样本组成的训练集,估算自变量和因变量之间关系的统计过程,然后预测基于这种关系的新观察产生的输出,预测输出是连续的实际值。

3.3群集()

将给定的数据集划分给几个“群集”;使“群集”中的样品比“群集”样品中的样本更相似。通过聚类获得的簇可能对应于某些潜在的概念结构。聚类是将标签自动分配给给定样本的过程。

聚类示例

3.4功能尺寸降低

初始数据高维表示被转换为有关样品的低维表示,并通过从高维输入空间映射到低维空间来简化输入。

- 特征提取,例如PCA

- 高维数据的低维可视化

iv。假设和假设空间

假设(),假设空间:

版本空间(空间)

五。假设选择原则

主要准则:

“ Occam的剃须刀”指南

其他原则

“对原则的更多解释”:

6。机器学习的三个要素

机器学习方法由模型,策略和算法组成,可以简单地表示为:方法=模型 +策略 +算法

B.预期风险(风险)

该模型的输入X和输出Y构成了输入空间X和输出空间Y的关节随机变量(X,Y),遵循关节分布P(x,y)

机器学习的目的是选择具有最低期望的模型

C经历风险或经历损失

当容量倾向于无限时,经验风险r倾向于期望风险r

在实际问题中,训练样本的数量非常有限,需要纠正经验风险。

D.最小化经验风险(风险,ERM)

在假设空间,损失函数形式和训练样本设定确定的前提下,经验风险最小化策略认为,在假设空间F中,最小化经验风险R的模型是最佳模型

当n足够大时,可以通过采用“最小化风险最小化”策略来实现更好的学习结果;

n很小,这种策略的学习效果可能不好,并且很容易生产“过度fit()”

E.最小化结构风险(风险,SRM)

为了防止模型过度适应,提出了一种最小化结构风险的策略

“结构风险最小化”策略认为,在假设空间F中,最小化结构风险R(SRM)的模型是最佳模型

机器方法的步骤的完整示例:
页: [1]
查看完整版本: 机器学习:核心概念、相关术语、典型任务及假设选择原则全解析