找回密码
 立即注册
搜索
查看: 367|回复: 0

慕枫分享互联网大厂经验,ChatGPT 成人工智能超级网红

[复制链接]

9420

主题

0

回帖

2万

积分

管理员

积分
28470
发表于 2024-11-20 09:12:05 | 显示全部楼层 |阅读模式
大家好,我是穆枫

前阿里巴巴高级工程师、InfoQ签约作者、阿里云专家博主,一直致力于用白话文讲解技术知识

在这里我想和大家分享一下我在一线互联网公司的面试经历,技术人员的成长之路,以及我在Java技术、分发、高并发、架构设计方面的经验总结。

谢谢你遇见我,希望我们都能成为更好的自己

人工智能研究实验室于2022年11月30日发布了自然语言生成模型,上线两个月内用户数已突破1亿,成为人工智能行业当之无愧的超级网红。凭借强大的拟人化、及时的反应能力,迅速突破圈子,引起各界热议。简单来说,它是一个人工智能聊天机器人,可以根据用户文本输入自动生成答案。那么肯定有人会说,这就是Siri。虽然都是互动机器人,但两者的区别却是巨大的。那么为什么它在人机交互方面表现得这么好呢?它会取代搜索引擎吗? 90%的人真的会因为疫情的出现而面临失业的危险吗?带着这些问题,我们来看看它到底有何过人之处,以及未来会给行业带来哪些变化。

这件事是谁发生的?

Sam的创始人是一位8岁就能编程的天才,2015年他联手特斯拉老板马斯克、天使投资人Peter Thiel等硅谷大亨建立了这个人工智能研究实验室。主要由盈利组织LP和母公司非营利组织Inc组成。目的是促进和发展友好的人工智能,防止人工智能脱离人类的控制。专注于人工智能前沿技术的研发,包括机器学习算法、强化学习、自然语言处理等。于2022年11月30日发布,正式提供实时在线问答对话服务。

什么是

《知识的边界》一书中有这样一段话:

当知识网络化时,房间里最聪明的人不再是站在房间前面教我们的人,也不再是房间里每个人的集体智慧。房间里最聪明的人就是房间本身:包含房间内所有人员和想法并将他们与外部世界连接起来的网络。

我对这句话的理解是,互联网拥有人类所有的知识和经验,为人工智能提供海量的学习数据。当这些知识和经验被有序地组织起来时,也为“知识王”提供了培养。 “人工智能应用提供了丰富的数据土壤,经过互联网上海量文本数据和语言数据库数据的喂养和训练后,它可以根据你输入的文本内容生成相应的答案,就像两个人互相聊天一样除了能够毫无障碍地与你交流之外,它甚至可以让你感觉你不是在和一个聊天机器人说话,而是一个知识渊博、有点搞笑的真人,而且回答的语气还带有一定的人性化。这在以前的聊天机器人中是不可想象的。

这里简单解释一下字面意思。它是一种通用的自然语言生成模型。 Chat的意思是对话,所谓GPT就是Pre-,意思是生成式预训练转换模型。是不是听起来有点不清楚? 。

另外,你还可以请他帮你完成一些实际工作,比如写文案、写脚本,甚至直接帮你写代码。他还可以帮助您查找代码中的错误。这就是程序员想把工作交给你的时候。砸砸的节奏在文字和代码层面可以说是无所不能。这种输入问题并立即给出答案的交互方式远胜于使用传统搜索引擎在海量数据中查找所需内容的体验。因此,可以预见,它将在不久的将来颠覆传统搜索引擎,彻底改变信息检索的使用方式。方式。

另外,可以结合上下文回答问题,主动承认自己的不足,挑战问题的合理性。以下是对我提出的问题的否定。

PS:我问大家如何成为世界首富。秘密如下。

正是因为其强大的理解、学习和创造能力,成为AI人工智能诞生以来C端用户增长最快的智能应用产品。过去,人工智能C端产品总是被认为不够智能,甚至被嘲笑为“人工智障”。即使在B端,也只是在某些场景下使用。普通人根本无法感受到AI的力量,但它的出现或许预示着人工智能未来将融入普通人的生活。

PS:我真的很害怕他会回答“是”。

为什么这么强?虽然它一夜之间流行起来,但其背后的技术发展却并非一朝一夕的事。因此,我们想要了解它为何如此强大,就必须了解其背后的技术原理。语言模型迭代

我们都知道自然语言是人类交流最重要的工具。因此,如何让机器通过自然语言与人无障碍交流,一直是人工智能领域孜孜不倦追求的目标。 NLP(自然语言处理)是计算机科学和人工智能领域的一个重要研究方向,专门研究让机器理解自然语言并在此基础上做出反应。如果想让计算机识别自然语言,就需要相应的语言模型来分析和处理文本。语言模型的总体原理是对语言文本进行概率建模,并利用模型来预测接下来输出内容的概率。大致流程如下。语言模型用于输出段落后出现概率最高的句子。

语言模型可以分为统计语言模型和神经网络语言模型。至于神经网络语言模型,经过多个版本的迭代优化,取得了今天令所有人震惊的出色表现。我们可以简单回顾一下LM(Model,语言模型)的发展历史,看看语言模型是如何一步步演化的。这对于我们理解其背后的技术原理非常有帮助。

循环神经网络

RNN(循环神经网络)在不良贷款领域得到了广泛的应用。我们上面提到的NLP旨在解决让机器理解自然语言的问题。因此,如果让机器理解一个句子的含义,它不仅要理解句子中每个单词的含义,还应该对这个句子进行处理。连接的序列表达的含义是什么,RNN解决的是对样本数据的序列进行建模的问题。

然而,RNN 存在效率问题。在处理语言序列时,是以串行化的方式进行的。也就是说,下一个字的处理需要等待上一个字的状态输出。此外,还存在梯度爆炸和遗忘等问题。因此,人工智能专家在此基础上不断优化模型。

Brain在2017年的论文《Is All You Need》中提出了一个模型,这是一个基于自注意力机制的深度学习模型,主要针对RNN问题进行优化。尤其是文本序列的序列化问题。该模型可以同时处理文本序列中的所有单词。同时,序列中任意单词的距离为1,避免了RNN模型中因序列过长而导致的距离过长的问题。 。该模型的提出可以说是NLP领域跨越式发展的重要标志,因为后来著名的BERT模型和GPT模型都是基于该模型的进化而来。下图展示了模型结构。

GPT、GPT-2

最初的GPT模型和最新的模型实际上都是以模型为核心结构的语言模型。 GPT使用模型的组件,在上述基础上更适合回答以下场景。

为了提高训练的准确性,很多机器学习训练任务都是通过标注来完成的,但实际上标注数据工作量很大,消耗大量的人力和时间。因此,随着计算能力的不断增强,我们实际上需要对更多尚未手动标记的数据进行训练。因此,GPT提出了一种新的自然语言训练范式,利用海量文本数据进行无监督学习来实现模型训练。这就是GPT采用Pre-+Fine-训练模式的原因。 GPT的模型结构如下,其训练目标是基于上述预测以下内容。

GPT-2实际上在模型结构上没有大的改变,只是简单的调整。主要原因是GPT-2使用了更多的模型参数和更多的训练数据。其目标是训练泛化能力更强的语言模型。所谓泛化能力,就是处理以前没有遇到过的问题的能力。

GPT-3

2020年,论文《are Few-Shot》提出了GPT-3模型。这两个模型参数以及它使用的训练数据量都非常大。主要提出了LLM的情境学习能力。

GPT-3探讨了模型在三种不同输入形式下的效果:零样本(Zero-shot)、单样本(One-shot)和少样本(Few-shot)。主要考虑如何通过已有的问题来预测可能的答案。这里简单解释一下零样本、单样本和少样本。 Zero-shot 意味着只给出提示,One-shot 会给出一个例子,Few-shot 意味着给出多个例子。但它并没有考虑答案的内容是否符合人类的预期,这也是后期最重要的优化方向。

从下表可以看出,GPT训练的参数量和数据量呈爆发式增长。当模型迭代到GPT-3时,参数数量超过1000亿,预训练数据量达到45TB。可以说是货真价实。超级LLM模式。庞大的模型参数和预训练数据也带来了训练成本的不断上升。 GPT-3的培训费用高达1200美元。

关键能力

对应的论文尚未公开,但实际上其核心思想与 2022 年发表的论文《to with human》基本一致。最重要的优化是引入了 RLHF(from Human,基于人类反馈)强化学习)技术。对原始模型进行微调,让模型学习人类对话的过程,并让人类对模型答案的结果进行注释、评估和排序,使收敛后的模型在回答问题时能够更加符合人类的意图。

另外,本文提出的训练方法实际上与两个模型基本相同,只是获取数据的方式略有不同。因此,可以说这两款车型是一对兄弟车型。让我们仔细看看它是如何训练的,以及如何解决让模型回答的答案更符合人类意图或偏好的问题。

上面的训练过程可能看起来有点复杂。简化后如下图所示。这应该使学生更容易理解模型是如何训练的。根据官网给出的步骤,其核心训练思想是收集反馈数据——《训练奖励模型——》PPO强化学习。

训练过程主要分为三个阶段:

第一阶段:通过监督学习微调 GPT-3.5 初始模型

其实对于LLM(Large Model,大型语言模型)来说,并不是说训练的样本数据越多越好。为什么这么说呢?因为像这样的大语言预训练模型是用极大的参数和海量的数据来训练的,这些海量的样本数据实际上对人工智能专家来说是透明的,不可控的。因此,如果样本数据中包含一些诸如种族歧视、暴力等不良数据,那么预训练的模型就可能具有这些不良内容属性。但对于人工智能专家来说,需要保证人工智能是客观公正、没有任何偏见的,而训练也正是在这方面进行的。

因此,模型训练是通过监督学习来进行的。所谓监督学习,就是在“答案”上学习。为此,雇用了 40 名承包商来执行数据标记工作。首先,这些贴标机被要求模拟人机交互以进行多轮语言交互。在此过程中,生成了相应的手动精准标注数据。这些精确的标记数据用于对GPT-3.5模型进行Fine-tune,以获得SFT(Fine-)模型。

第 2 阶段:构建模型

随机抽取一批数据后,使用第一阶段微调的模型自动回复不同的问题,然后让贴标机将答案从最好到最差进行排序。排序后的结果数据用于训练模型。在此过程中,继续将排序结果成对组合,形成排序后的训练数据对。该模型接受数据对输入以给出答案质量分数。该模型本质上是人类真实意图的抽象。因为有了这个关键的步骤,模型才能不断引导模型朝着符合人类意图的方向产生相应的答案结果。

第三阶段:PPO(近端策略优化)强化学习微调模型

PPO 是一种信赖域优化算法,它使用梯度约束来确保更新步骤不会破坏学习过程的稳定性。在本阶段继续提取一批数据后,使用第2阶段构建的模型对微调训练模型的响应进行评分,以更新预训练参数。模型奖励高分答案,由此产生的策略梯度可以更新PPO模型参数。不断迭代,直到模型最终收敛。

可以看出,实际的训练过程实际上是一个监督学习与RLHF技术相结合的应用过程。事实上,它依靠 RLHF 技术来生成更符合人类期望的答案。

通过上述模型训练过程,我们得出的结论是,强大的上下文理解能力主要得益于三个关键能力,即强大的基础模型、高质量的样本数据和基于人类反馈的强化学习。

核心是RLHF技术,通过训练找到最能解释人类判断的函数,然后不断训练来强化认知。

会带来哪些变化?

更换搜索引擎

目前的搜索引擎只能根据我们搜索的关键词在搜索引擎数据库中匹配并索引相应的网页来提供结果反馈。像百度这样的搜索引擎也可以向您投放一些广告。用户仍然需要在返回的信息中找到自己最想要的信息。但情况不同。答案就是问题,这样可以节省用户大量过滤无效搜索结果的时间和精力。它可以非常准确地把握用户实际意图的理解。然而,传统的搜索引擎仍然采用关键词匹配的搜索方式。他们实际上并不理解用户输入的搜索语句的真实含义,但他们可以理解用户输入的真实意图。此外,他还会创造性地回答,帮助用户摆脱复杂的工作。

PS:微软的Bing搜索引擎已经开始接入。

替代人工客服

所谓的智能客服现在只是预设了一些常见问题自动解答。远称不上智能,但可以在一定程度上降低公司在客服人员方面的投入成本。但如果可用的话,因为它能够理解用户的真实意图,而不是机械地回答预设的问题,所以可以帮助用户解决实际的客服问题,最大程度地减少客服人力成本。

取代内容创作

它不仅可以回答问题,还可以创造内容,比如写一首歌、一首诗、一个活动计划等。因此,很多从事文本内容创作的学生感受到了深深的危机。他们曾经认为机器人首先应该取代体力劳动者,但谁能想到机器人的出现直接消灭了很多脑力劳动者的工作岗位。

局限性

训练数据偏差

训练数据基于互联网世界的海量文本数据。如果文本数据本身不准确或者存在某种偏见,目前是无法区分的,所以在回答问题的时候,这种不准确和偏见就会被传递出去。

适用场景有限

目前主要可以处理自然语言的问答和任务。在其他领域比如图像识别、语音识别等方面,不一定有相应的处理能力,但我相信,在不久的将来,可能会有,大家拭目以待。

培训成本高

是NPL领域一个非常大的深度学习模型。它的训练参数和训练数据都非常大。因此,如果想要训练,就需要使用大型数据中心和云计算资源,以及大量的计算能力和存储空间来处理海量的训练。简而言之,数据的训练和使用仍然非常昂贵。

总结

AI人工智能已经被谈论很多年了,已经处于发展阶段,并在一些特定领域取得了应用成果。但对于C端用户来说,基本上没有真正可以使用的人工智能应用产品。但这次发布是一个里程碑式的事件,因为对于普通人来说,AI人工智能不再是一个遥远的技术术语,而是一个触手可及的真正的智能应用工具,可以让普通人真正感受到AI人工智能的力量。另外,我想说的是,这可能只是一个开始。目前它只是根据人类指令完成相应的任务。但未来,随着人工智能自学习的不断迭代,它可能会变得有意识,可能会自主做事。那时,还不清楚人类面对的是一个无所不能的帮手,还是一条无法控制的邪龙。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【科创星域】 ( 京ICP备20013102号-15 )

GMT+8, 2025-5-6 18:30 , Processed in 0.066338 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表