通俗易懂讲解机器学习原理及诞生记与基本过程举例

hua818 · 发表于 6 天前

了解世界是从已知到未知的功能。机器学习是为了预测此功能，并使预测结果尽可能准确。

本文专注于机器学习，并通过简单的示例轻松解释机器学习的原理。

机器学习的诞生

机器学习（）本质上是关于让计算机本身学习规则，并根据获得的规则来预测未来数据。

机器学习的基本过程

我们为什么要学习机器？让我们以一个例子来说明。

比利想买一辆汽车，他想弄清楚他每个月要节省多少钱才能负担得起。首先，他了解到一辆新车的价格约为20,000美元，使用了一年的二手车的价格为19,000美元，依此类推。

比利发现了一条规则：汽车的价格取决于汽车的年龄，每年的价格下跌了1,000美元，但不会少于10,000美元。

用机器学习术语，比利发明了“回归”（） - 根据已知历史数据预测数值（价格）。

现在的问题是，除了车辆的年龄，它们还具有不同的生产日期，数十个配件，技术状况，季节性需求波动和其他影响因素。

比利在计算价格时无法考虑所有这些数据。目前，我们需要机器人来帮助我们进行数学。因此，在这里我们采用计算机方法 - 为机器提供一些数据，以找出与价格相关的所有基本规则。

最令人兴奋的事情是，机器要比真正分析他们脑海中所有依赖项的真实人员要好得多。

这样，机器学习就诞生了。

机器学习的三个要素

机器学习的唯一目标是根据输入数据预测结果，所有机器学习任务都可以通过这种方式表示。

样品越多样化，找到相关模式并预测结果就越容易。因此，我们需要3个部分来训练机器：

1。数据

想检测垃圾邮件吗？获取垃圾邮件样本。想预测股票吗？查找历史价格信息。想找出用户首选项吗？数据越多样化，结果越好。

获取数据的主要方法有两种 - 手册或自动。手动收集的数据的混合错误较少，但通常需要更多的时间 - 通常更多。自动化方法相对便宜，您可以收集所有可以找到的东西。

2。功能

它也可以称为“参数”或“变量”，例如旅行的汽车，用户性别，股票价格，文档中的单词频率等的公里数。换句话说，这些是机器需要考虑的因素。如果数据以表格的形式存储，则特征对应于列名，该列名相对简单。

但是，如果它是猫的100GB图片怎么办？我们不能将每个像素视为功能。这就是为什么选择合适的功能通常比机器学习的其他步骤更长的时间，而功能选择也是主要的错误来源。人性中的主观倾向将使人们选择自己喜欢或感到“更重要”的特征 - 这需要避免。

3。算法

最明显的部分，任何问题都可以通过不同的方式解决。您选择的方法将影响最终模型的准确性，性能和大小。要注意的一件事：如果数据质量很差，即使是最好的算法也无济于事。这称为“垃圾，垃圾”（in -of，gigo）。因此，在花费大量思考准确率之前，应获得更多数据。

机器学习的方向

在机器学习的世界中，解决问题的方法从来都不是唯一的问题。因为您总是会发现可以使用多种算法来解决某个问题，所以您需要选择最适合的问题。当然，所有问题都可以通过“神经网络”来处理，但是谁会承担其背后计算能力的硬件成本？

目前，机器学习的四个主要方向。让我们从一些基本概述开始。

经典的机器学习算法源自1950年代的纯统计数据。统计学家解决了正式的数学问题，例如查找数字模式，估计数据点之间的距离以及计算向量方向。

1。有监督的学习

经典的机器学习通常分为两类：监督学习（）和无监督的学习（）。

在“有监督的学习”中，有一个“主管”或“老师”，他为机器提供了所有答案以帮助学习，例如它是图片中的猫还是狗。 “老师”已经完成了数据集的部门 - 标记“猫”或“狗”，机器使用这些样本数据来学习和学会区分猫或狗。

无监督的学习意味着机器完成了仅在一堆动物图片中区分谁是谁的任务。数据未提前标记，也不是“老师”。该机器必须单独找出所有可能的模式。

显然，当存在“老师”时，机器学习速度更快，因此监督学习在现实生活中更常用。

监督学习分为两类：

分类（）预测对象所属的类别；

回归（），预测数字轴上的特定点；

分类（）

“根据事先已知的属性对对象进行分类，例如根据颜色对袜子进行分类，基于语言对文档进行分类，并根据样式对音乐进行分类。”

分类算法通常用于：

常用算法：

机器学习主要解决“分类”问题。在分类任务中，您需要一个“老师”。数据需要提前标记，以便机器可以根据这些标签学习分类。

让我们举一个分类算法的示例：

如果您现在需要借一些钱，银行如何知道将来是否会偿还？不能确定。但是银行有很多历史借款人档案，他们的数据诸如“年龄”，“教育水平”，“职业”，“薪金”和 - 最重要的是 - “是否还清钱。”

使用这些数据，我们可以训练机器找到模式并提出答案。找出答案不是问题，问题是银行不能盲目相信机器给出的答案。如果一个有系统故障，被黑客入侵或刚刚给系统的紧急补丁的毕业生，该怎么办？

为了解决这个问题，我们需要使用决策树，所有数据都会自动分为“是/否”问题 - 例如“借款人的收入超过$ 128.12？” - 听起来有点反人类。但是，机器生成的问题是在每个步骤中优化数据。

这就是生产“树”的方式。分支越高（靠近根节点），问题的范围越宽。决策树被广泛用于高责任感的情况：诊断，医学和金融。两种最著名的决策树算法是购物车和C4.5。

如今，很少使用纯决策树算法。但是，它们是大型系统的基石，决策树的整合后的效果甚至比神经网络更好。

当您搜索它时，它是一堆笨拙的“树”，可以帮助您找到答案。像这些算法一样搜索引擎，因为它们运行得足够快。

分类算法存在非常有用的方案 - 异常检测（）。如果不能将功能分配给所有类别，我们将标记它。现在，该方法已在医疗领域 - MRI（磁共振成像）中使用，该计算机将在检测范围内标记所有可疑区域或偏差。股票市场使用它来检测交易者的异常行为来查找内部人士。当训练计算机以区分正确的内容时，我们还会自动教他们确定错误的情况。

经验法则表明，数据越复杂，算法越复杂。对于诸如文本，数字和表格之类的数据，通常使用经典方法来操作。这些模型更小，更快，工作流程更清晰。研究神经网络用于图片，视频和其他复杂的大数据。

返回（）

回归算法目前用于：

常见回归算法是：

“回归”算法本质上是一种“分类”算法，但它预测该类别是否是数值值。例如，根据里程预测汽车的价格，估算一天中不同时间的交通量，并随着公司发展而预测供应的变化。在处理与时间相关的任务时，回归算法是唯一的选择。

财务或分析行业的从业人员对回归算法受到高度青睐。它甚至成为Excel的内置功能，整个过程非常平稳 - 机器只是试图绘制代表平均相关性的线路。但是，与拿着笔和白板的人不同，机器通过计算每个点和线之间平均间隔的数学精度来做到这一点。

如果绘制了线，则是“线性回归”，如果线弯曲，则是“多项式回归”。它们是回归的两种主要类型。其他类型相对罕见。

但是，是否混淆“回归”和“分类”都没关系。一些分类器调整参数并成为回归。除了定义对象的类别外，还请记住对象与该类别的距离有多近，这导致了回归问题。

2。无监督的学习

无监督的学习比监督学习晚了一点 - 在1990年代，这些算法被使用相对较少，有时才发现它们是因为没有被选中而被发现。

标记数据非常豪华。假设我想创建一个 - 例如，“公交分类器”，那么我应该去街上拍摄数百万张公交照片，然后一个一个一个一个一个一个呢？这些可能需要一生。

在这种情况下我该怎么办？除了利用社交众包机制外，还可以获得数百万个廉价的劳动力和服务。

我们可以尝试使用无监督的学习。无监督的学习通常用于探索性数据分析（数据），而不是主要算法。

簇（）

“机器将根据一些未知特征选择最佳方法来区分事物。”

当前使用聚类算法：

算法

聚类是分类类别，而无需预先标记类别。就像当您不记得袜子的所有颜色时，您仍然可以对它们进行分类。聚类算法试图找到类似的东西（基于某些功能），然后将它们聚集到簇中。那些具有许多相似特征的对象聚集在一起并分为同一类别。某些算法甚至支持设置每个集群中的数据点的确切数量。

这是演示聚类 - 在线地图上标记的一个很好的例子。当您寻找周围的素食餐厅时，聚集发动机将它们分组，并用数字显示气泡。如果您不这样做，浏览器将被卡住 - 因为它试图在这个时尚的城市绘制所有300家素食餐厅。

另一个常见的应用程序场景是图像压缩。当图片以PNG格式保存时，可以将颜色设置为32种颜色。这意味着聚类算法需要找到所有“红色”像素，然后计算“平均红色”，然后将此平均值分配给所有红色像素点。更少的颜色和较小的文件！

但是，当您遇到蓝色和绿色之类的颜色时，这很麻烦。是绿色还是蓝色？目前，K-均值算法需要出现。

首先，从颜色中随机选择32个色点作为“群集中心”，其余点根据最近的群集中心标记。通过这种方式，我们得到了32个颜色点的“群集”。然后，我们将群集中心移至“群集”的中心，然后重复上述步骤，直到群集中心不再移动。它只是聚集成32个稳定的簇。

找到集群中心非常方便，但实际上并不总是圆形的。如果您是地质学家，则需要在地图上找到一些类似的矿石。在这种情况下，集群的形状将很奇怪，甚至嵌套。您甚至都不知道会有多少个集群。

K-均值算法在这里没有用，但是可以使用该算法。我们将数据指向广场上的人，并找到彼此亲近的任何3个人，并要求他们牵手。接下来，告诉他们抓住可以到达的邻居的手（该人无法在整个过程中移动到站立位置），然后重复此步骤，直到新邻居加入。这样，我们获得了第一个集群，重复上述过程，直到每个人都分配给群集并完成。

就像分类算法一样，聚类可以用于检测异常。登录后用户是否有异常操作？让机器暂时禁用其帐户，然后为技术支持人员创建一张票以检查情况。也许另一方是一个“机器人”。我们甚至不必知道“正常行为”的外观，我们只需要将用户的行为数据传递给模型，然后让机器决定对方是否是“典型”用户。尽管此方法不如分类算法有效，但仍然值得一试。

尺寸还原（）

“将特定功能组装成更高级的功能”

当前使用“降低降低”算法：

通常使用的“降低维度降低”算法：

在早期，“铁杆”数据科学家将使用这些方法，并决心在数字中找到“有趣的事物”。 Excel图表迫使机器执行图案查找工作时不起作用。因此，他们发明了减少维度或特征学习的方法。

项目2D数据到直线（PCA）

对于人们来说，抽象概念比许多零散的特征更方便。例如，我们将“牧羊犬”的抽象概念与带有三角形耳朵，长鼻子和大尾巴的狗结合在一起。我们确实丢失了一些信息，而不是特定的牧羊犬，但是新的抽象概念对于需要命名和解释的场景更有用。作为奖励，这种“抽象”模型学习速度更快，在训练过程中使用更少的功能，并减少过度拟合。

这些算法可以在“主题建模”任务中显示他们的技能。我们可以从特定短语中抽象它们的含义。潜在的语义分析（LSA）是关于此的，它基于您在某个主题上可以看到的特定单词的频率。例如，必须有更多与技术文章中的技术有关的词汇，或者政治家的名字主要出现在与政治有关的新闻中，等等。

我们可以直接从所有文章中的所有单词中创建簇，但是这样做会失去所有重要的联系（例如，在不同文章中相同的含义是相同的）。 LSA可以很好地处理此问题，因此称为“潜在语义”（）。

因此，有必要将单词和文档连接组合到一个功能中，以维持其中的潜在连接 - 人们发现奇异价值分解（SVD）可以解决此问题的问题。这些有用的主题群可以从聚在一起的短语中可以看到。

推荐系统和协作过滤是使用高频降低算法的另一个领域。如果您使用它来从用户评分中提取信息，则将获得一个很好的系统来推荐电影，音乐，游戏或任何您想要的东西。

相关规则学习（规则）

“以顺序找到图案”

当前使用“隶属规则”：

常用算法：

用于分析购物车，自动营销策略和其他与事件相关的任务的算法都在这里。

例如，客户带着六瓶啤酒去了收银员。我们应该在结帐的路上放花生吗？人们多久同时购买啤酒和花生？协会规则可能适用于啤酒和花生，但是我们还可以使用哪些其他序列来预测？产品布局的微小变化会导致利润大幅增加吗？

这个想法也适用于电子商务，该任务更有趣 - 客户下次会购买什么？

在机器学习的范围中，似乎很少提到规则学习。经典方法是根据对所有购买的物品进行积极检查，应用树或收集方法。该算法只能搜索模式，但不能在新示例上概括或重现这些模式。

在现实世界中，每个大型零售商都会构建自己的独家解决方案，本文中提到的最高技术是推荐系统。

机器学习可以使我们的生活更加方便。人们一直在不断提出使用机器学习的各种方法，而工业革命正在安静地发生。

		自动登录	找回密码
密码			立即注册