机器学习:核心概念、相关术语、典型任务及假设选择原则全解析
文章目录1。什么是机器学习
2。机器学习的相关术语
3。机器学习的典型任务
iv。假设和假设空间
五。假设选择原则
6。机器学习的三个要素
1。什么是机器学习
人工智能标准化白皮书(2018版)
机器学习()是一门跨学科的学科,涉及许多领域,例如统计,系统识别,近似理论,神经网络,优化理论,计算机科学和脑科学。它研究计算机如何模拟或实施人类学习行为以获取新知识或技能,并重组现有的知识结构以不断提高自己的表现。它是人工智能技术的核心。
基于数据的机器学习是现代智能技术的重要方法之一。研究发现基于观察到的数据(样本)的模式,并使用这些模式来预测未来的数据或不可观察的数据。
ng(andah ng)
(微软公司)
是数据从数据中学习的一个,和。
机器学习是一种数据科学技术,可帮助计算机从现有数据中学习,以预测未来的行为,结果和趋势。
2。机器学习的相关术语
示例(),示例():
功能(),属性():
属性值(值):
功能空间:
示例集(集合),数据集:
测试样本”():
标签:
分类():
返回()
聚类”()
根据培训数据是否标记了信息,可以将学习任务大致分为两类:“监督学习”()和“无监督的学习”()。分类和回归是前者的代表,而聚类是后者的代表。
3。机器学习的典型任务
典型的学习任务包括:
3.1类别()
由已知类别标签的样本组成的培训集,学习预测模型。最终预测模型预测了新观察样本的相应输出。预测结果是事先指定的两个或多个类别之一,或者预测结果来自有限数量的离散值之一。
两个类别相对于多个类别
类别编号C = 2,两个类别分类()
类别C> 2,多类别分类()
3.2返回()
回归分析基于由已知答案的样本组成的训练集,估算自变量和因变量之间关系的统计过程,然后预测基于这种关系的新观察产生的输出,预测输出是连续的实际值。
3.3群集()
将给定的数据集划分给几个“群集”;使“群集”中的样品比“群集”样品中的样本更相似。通过聚类获得的簇可能对应于某些潜在的概念结构。聚类是将标签自动分配给给定样本的过程。
聚类示例
3.4功能尺寸降低
初始数据高维表示被转换为有关样品的低维表示,并通过从高维输入空间映射到低维空间来简化输入。
- 特征提取,例如PCA
- 高维数据的低维可视化
iv。假设和假设空间
假设(),假设空间:
版本空间(空间)
五。假设选择原则
主要准则:
“ Occam的剃须刀”指南
其他原则
“对原则的更多解释”:
6。机器学习的三个要素
机器学习方法由模型,策略和算法组成,可以简单地表示为:方法=模型 +策略 +算法
B.预期风险(风险)
该模型的输入X和输出Y构成了输入空间X和输出空间Y的关节随机变量(X,Y),遵循关节分布P(x,y)
机器学习的目的是选择具有最低期望的模型
C经历风险或经历损失
当容量倾向于无限时,经验风险r倾向于期望风险r
在实际问题中,训练样本的数量非常有限,需要纠正经验风险。
D.最小化经验风险(风险,ERM)
在假设空间,损失函数形式和训练样本设定确定的前提下,经验风险最小化策略认为,在假设空间F中,最小化经验风险R的模型是最佳模型
当n足够大时,可以通过采用“最小化风险最小化”策略来实现更好的学习结果;
n很小,这种策略的学习效果可能不好,并且很容易生产“过度fit()”
E.最小化结构风险(风险,SRM)
为了防止模型过度适应,提出了一种最小化结构风险的策略
“结构风险最小化”策略认为,在假设空间F中,最小化结构风险R(SRM)的模型是最佳模型
机器方法的步骤的完整示例:
页:
[1]