机器学习：核心概念、相关术语、典型任务及假设选择原则全解析

hua818 发表于 6 天前

文章目录

1。什么是机器学习

2。机器学习的相关术语

3。机器学习的典型任务

iv。假设和假设空间

五。假设选择原则

6。机器学习的三个要素

1。什么是机器学习

人工智能标准化白皮书（2018版）

机器学习（）是一门跨学科的学科，涉及许多领域，例如统计，系统识别，近似理论，神经网络，优化理论，计算机科学和脑科学。它研究计算机如何模拟或实施人类学习行为以获取新知识或技能，并重组现有的知识结构以不断提高自己的表现。它是人工智能技术的核心。

基于数据的机器学习是现代智能技术的重要方法之一。研究发现基于观察到的数据（样本）的模式，并使用这些模式来预测未来的数据或不可观察的数据。

ng（andah ng）

（微软公司）

是数据从数据中学习的一个，和。

机器学习是一种数据科学技术，可帮助计算机从现有数据中学习，以预测未来的行为，结果和趋势。

2。机器学习的相关术语

示例（），示例（）：

功能（），属性（）：

属性值（值）：

功能空间：

示例集（集合），数据集：

测试样本”（）：

标签：

分类（）：

返回（）

聚类”（）

根据培训数据是否标记了信息，可以将学习任务大致分为两类：“监督学习”（）和“无监督的学习”（）。分类和回归是前者的代表，而聚类是后者的代表。

3。机器学习的典型任务

典型的学习任务包括：

3.1类别（）

由已知类别标签的样本组成的培训集，学习预测模型。最终预测模型预测了新观察样本的相应输出。预测结果是事先指定的两个或多个类别之一，或者预测结果来自有限数量的离散值之一。

两个类别相对于多个类别

类别编号C = 2，两个类别分类（）

类别C> 2，多类别分类（）

3.2返回（）

回归分析基于由已知答案的样本组成的训练集，估算自变量和因变量之间关系的统计过程，然后预测基于这种关系的新观察产生的输出，预测输出是连续的实际值。

3.3群集（）

将给定的数据集划分给几个“群集”；使“群集”中的样品比“群集”样品中的样本更相似。通过聚类获得的簇可能对应于某些潜在的概念结构。聚类是将标签自动分配给给定样本的过程。

聚类示例

3.4功能尺寸降低

初始数据高维表示被转换为有关样品的低维表示，并通过从高维输入空间映射到低维空间来简化输入。

- 特征提取，例如PCA

- 高维数据的低维可视化

iv。假设和假设空间

假设（），假设空间：

版本空间（空间）

五。假设选择原则

主要准则：

“ Occam的剃须刀”指南

其他原则

“对原则的更多解释”：

6。机器学习的三个要素

机器学习方法由模型，策略和算法组成，可以简单地表示为：方法=模型 +策略 +算法

B.预期风险（风险）

该模型的输入X和输出Y构成了输入空间X和输出空间Y的关节随机变量（X，Y），遵循关节分布P（x，y）

机器学习的目的是选择具有最低期望的模型

C经历风险或经历损失

当容量倾向于无限时，经验风险r倾向于期望风险r

在实际问题中，训练样本的数量非常有限，需要纠正经验风险。

D.最小化经验风险（风险，ERM）

在假设空间，损失函数形式和训练样本设定确定的前提下，经验风险最小化策略认为，在假设空间F中，最小化经验风险R的模型是最佳模型

当n足够大时，可以通过采用“最小化风险最小化”策略来实现更好的学习结果；

n很小，这种策略的学习效果可能不好，并且很容易生产“过度fit（）”

E.最小化结构风险（风险，SRM）

为了防止模型过度适应，提出了一种最小化结构风险的策略

“结构风险最小化”策略认为，在假设空间F中，最小化结构风险R（SRM）的模型是最佳模型

机器方法的步骤的完整示例：

页: [1]

【科创星域】's Archiver

机器学习：核心概念、相关术语、典型任务及假设选择原则全解析