找回密码
 立即注册
搜索
查看: 13|回复: 0

深入解析监督学习:在老师指导下利用带标签数据训练算法

[复制链接]

9420

主题

0

回帖

2万

积分

管理员

积分
28470
发表于 6 天前 | 显示全部楼层 |阅读模式
1。监督学习:在老师的指导下学习的学习是什么是监督学习?

监督学习是机器学习的主要分支,它使用标记的数据集来训练算法,从而可以预测结果并识别模式。简而言之,在监督学习中,我们提供给算法的数据不仅包含输入(通常称为功能),还包含与每个输入相对应的正确输出(称为标签或目标变量)。带有正确答案的数据就像是一位老师,它显示了算法对于给定输入的正确输出应该是什么。

为了更好地理解这一概念,我们可以将其与学生在教师的指导下学习。老师(即带有标签的数据)为学生(即,算法)提供了各种示例,每个示例包含问题(输入)和答案(输出)。通过学习这些示例,学生逐渐了解问题与答案之间的关系。当学生遇到一个以前从未见过的新问题时,他们可以利用从老师那里学到的知识来给出正确的答案。

例如,教一个3岁的孩子认识苹果和香蕉。你会怎么做?

经过许多练习,孩子们可以准确区分新图片 - 这是监督学习的核心过程!

1.2监督学习的工作原则

监督的学习过程通常包括以下步骤:

首先,该算法用标签分析了大量培训数据。它的目标是在输入特征和输出标签之间找到潜在的数学关系或功能。例如,如果我们想训练一个模型以识别图片中的树种,我们将提供大量树图像(输入特征)的算法,并用正确的树种名称(输出标签)标记每个图像。该算法将尝试找出每棵树的特征(例如叶子的形状,树皮的质地等)和相应标签之间的关系。

一旦在培训数据上学习了模型,我们就可以使用它来预测新的,看不见的数据。当我们向模型显示新的树图片时,它使用以前学到的知识来预测此图片中哪种类型的树。

当然,模型的预测可能并不总是正确的。为了提高模型的准确性,我们需要根据评估结果对其进行评估并对​​其进行调整和改进。这个过程通常是迭代的,包括对模型参数的培训,评估和调整,直到模型达到我们期望的性能水平。

总而言之,有四个核心步骤:

培训模型:让计算机找到规则以预测新的数据错误校正优化

在监督的学习中,有几个核心概念需要理解。

数据是模型学习的基础。它由样品组成,每个样品都包含特征和标签。该模型是算法通过训练数据到输出标签所学到的输入特征之间的数学关系。培训是模型通过使用标签分析数据来学习这种关系的过程。评估是对模型在以前从未见过的数据上执行的衡量标准。最后,推论是指使用训练有素的模型来预测新数据。

1.3监督学习的示例

监督学习在现实世界中具有广泛的应用。以下是一些常见的例子:

1.4监督学习类型:分类和回归

在监督学习中,可以根据我们要预测的输出类型进一步将其分为两个主要任务:分类和回归。

分类是指预测离散类别标签或类别。例如,在垃圾邮件过滤中,我们想预测电子邮件是“垃圾邮件”还是“非垃圾邮件”,这是二进制分类问题。如果我们想确定图像中的动物是猫,狗还是鸟类,那么这是一个多类问题。

回归是指预测连续值或数字。例如,在房屋价格预测中,我们想预测房屋的特定价格,这是回归问题。如果我们想预测明天的温度,这也是一个回归问题。



对于分类任务,常用算法包括逻辑回归,决策树,支持向量机,K最近的邻居和天真的贝叶斯。对于回归任务,常用算法包括线性回归,多项式回归,支持向量回归,决策树和随机森林。

2。无监督的学习:仅发现模式2.1什么是无监督的学习?

无监督的学习是机器学习的另一个主要分支。与受监督的学习不同,它使用没有标签的数据进行学习,算法会自动发现数据中的模式和结构,而无需明确的指导。这意味着我们向算法提供的数据仅具有输入功能,并且没有相应的正确输出标签。该算法的任务是自行探索这些数据,并找到隐藏在其中的法律,结构和关系。

要了解无监督的学习,我们可以想象您会得到一堆未标记的书,而您的任务是将它们分为不同的群体。

您可以根据主题,作者,大小或颜色等相似性将书籍分为不同的类别。在此过程中,没有人告诉您如何对其进行分类,您完全基于自己的观察和判断。

这与无监督的学习非常相似,在该学习中,算法对数据进行自主分析并根据数据点之间的相似性和差异进行组织。

另一个例子是一个孩子,他首先看到了各种不同的动物,尽管没有人告诉他这些动物的名字,但他仍然可以根据其特征(例如,耳朵,腿,尾巴,头发)对它们进行分类。

2.2无监督学习的工作原则

在无监督的学习中,该算法的主要目标是在原始的,未标记的数据中找到隐藏的模式,结构或关系。无监督的学习算法使用自学习方法,这些方法不需要任何预培训或显式指令来处理数据。取而代之的是,该算法侵入其自身的规则,并根据数据点之间的相似性,差异和模式构建数据的结构。

无监督学习的技术有三种主要类型:聚类,关联规则学习和降低维度。

聚类将相似的数据点分组在一起。

将数据点分为不同的组或群集,以使同一群集中的数据点彼此相似,而不同群集之间的数据点彼此不同。常见的聚类算法包括K-均值聚类,分层聚类等。

关联规则学习是发现数据中不同变量之间的关系。例如,在商店购物时,购买薯片的人经常拿起可乐 - 这是与学习相关规则的典型应用。关系规则学习是从大量无标签数据中自动发现项目之间的高频组合规则。

降低尺寸是为了保留重要信息,同时减少数据功能的数量。那就是失去冗余并保留核心,使复杂的问题变得简单!例如,在面部识别中,将数十张百万像素的照片压缩到50个核心功能仍然可以识别您是谁。

无监督的学习特别适合探索性数据分析,这可以帮助我们发现以前未被发现的模式和见解。

2.3无监督学习的示例

无监督的学习在许多领域都使用。以下是一些常见的例子:

3.分类:将事物分为类别3.1什么是分类?

分类是一项有监督的学习任务,其目标是学习一个模型,该模型正确地将新的,看不见的数据点分配给了预定义的类别或标签。简而言之,分类是训练计算机以识别不同的类别,然后将新的数据项放入最合适的类别。

想象一下,您正在整理一个装满各种水果的篮子,您的任务是将它们放入不同的碗中,每个碗都对应于一种水果(例如,苹果碗,香蕉碗,橙碗)。您已经学会了如何区分每种水果,因此您可以轻松地将每个水果放入正确的碗中。这就像一个分类问题,您的大脑是分类模型,水果是数据点,而碗是类别。另一个示例是用于电子邮件的垃圾邮件过滤器,它通过学习垃圾邮件和非垃圾邮件的特征来自动将新消息归类为“垃圾邮件”或“非垃圾邮件”。



分类模型的目的是学习能够根据输入功能将数据点分配给离散输出类别的映射功能。

3.2分类类型

根据类别的数量,可以将分类问题分为以下类型:

4。回归:预测连续值4.1什么是回归?

回归是一项监督的学习任务,其目标是学习一个模型,该模型可以根据输入功能预测连续的数值输出。与预测离散类别的类别不同,回归预测范围内的数值。

我们可以使用预测植物的生长高度来回归类比。假设我们记录了不同受精量的植物的生长高度,我们可以使用这些数据来训练回归模型。鉴于施用了新数量的肥料,该模型可以预测植物可能达到的生长高度。

另一个例子是预测二手车的价格。我们可以使用车辆的里程,年龄和状况来训练回归模型,以预测车辆的合理价格。回归模型的目的是找到最能代表输入变量与输出变量之间关系的拟合线或曲线。

4.2回归类型

回归分析有许多类型,其中一些常见包括:

5。功能工程5.1什么是功能工程?

功能工程是选择,操纵和将原始数据转换为可以在机器学习模型中使用的功能的过程。简而言之,功能工程旨在将原始的,未经处理的数据转换为机器学习模型可以理解和学习的有用输入。 “功能”可以是任何可测量的输入,例如对象的颜色或声音。功能工程的目的是创建更有信息和相关的功能,以提高模型性能。

我们可以将功能工程比作厨师在烹饪之前仔细选择和准备成分的厨师。正如厨师需要选择新鲜食材并清洁,切割和调味以确保最终菜肴的美味和质量一样,机器学习模型也需要高质量的功能来产生准确的预测。

另一个类比是,当侦探解决案件时,他们需要仔细选择和分析从原始证据中提取的线索。这些线索(功能)有助于侦探理解案件的真相(模型预测)。功能是模型使用的可测量输入变量。

5.2为什么特征工程很重要

功能的质量直接影响机器学习模型的性能。精心设计的功能可以显着提高模型的准确性,减少过度拟合并加快训练的速度。通过功能工程,我们可以帮助模型确定数据中重要的模式和关系,从而做出更准确的预测。特征工程通常被认为是机器学习过程中最关键的步骤之一,有时比选择特定的机器学习算法更重要。

5.3功能工程的过程

功能工程通常包括以下关键步骤:

总结

了解监督学习,无监督学习,分类,回归和特征工程之间的关系对于掌握机器学习至关重要。典型的机器学习工作流程看起来像这样:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【科创星域】 ( 京ICP备20013102号-15 )

GMT+8, 2025-5-5 04:07 , Processed in 0.244959 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表