找回密码
 立即注册
搜索
查看: 513|回复: 0

大语言模型评测的重要性、范式及未来方向探讨

[复制链接]

9420

主题

0

回帖

2万

积分

管理员

积分
28470
发表于 2024-11-20 06:54:48 | 显示全部楼层 |阅读模式
大语言模型评估对于应用和后续发展至关重要,其评估范式包括经典范式和新范式。经典的评估范式涵盖自然语言理解和生成任务。本文介绍了流行的经典评估基准以及新评估范式下的代表性基准和实例,并总结了现有评估的不足。随后,文章提出了综合大语言模型评估思路、相关指标和方法,并讨论了新的研究问题、挑战和未来方向。

1 自然语言处理的评估范式

自然语言处理的进步得益于有效的评估方法,这些方法通常依赖于一系列基准数据集。模型在这些数据集上运行,评估系统通过其输出结果对模型的能力进行评分。初始评估基准通常只涉及单个任务和单个数据集,这是自然语言处理的基本评估模式。然而,为了全面评估大型语言模型,我们可能需要整合和重组多个数据集,以形成更通用的评估基准。本文将这些评估模型分为经典评估范式和新评估范式。表1列出了一些典型的评估基准。接下来,我们详细描述这两种评估范式,并指出当前评估方法的缺点。

表1 一些典型的评价基准

1.1 经典自然语言处理评估

自然语言处理涵盖两个核心领域:自然语言理解(NLU)和自然语言生成(NLG)。在传统的评估框架中,主要关注的是模型输出和参考答案之间的一致性。该经典评估模型的结构如图1所示。

图1 经典评估结构

1.1.1 自然语言理解能力评估

自然语言理解能力评估用于评估模型理解自然语言的能力。常见任务包括情感分析、文本匹配、文本分类和阅读理解。已经有 GLUE 和 CLUE 等评估基准。 GLUE包含9个任务,涉及40种语言,9个任务。 CLUE是大型中文理解评估基准。

1.1.2 自然语言生成能力评估

自然语言生成能力评估的目标是模型生成自然语言的能力。常见任务包括机器翻译、生成文本摘要、自动对话等。评估指标包括BLEU、ROUGE等。BLEU通过测量模型生成的翻译与参考翻译之间的N-gram匹配来计算分数。

1.1.3 兼顾理解与生成的能力评估

随着大型语言模型的发展,单一的评估基准已经不能满足需求。 CUGE等新评估基准涵盖7种语言功能和18项主流NLP任务,全面评估中文理解和生产能力。

1.2 多种能力的新评价范式

新的评估范式不仅关注大语言模型的理解和生成能力,还关注模型本身所展现出的更重要的属性,例如模型生成的内容是否符合社会伦理。这种评估范式有助于从更多维度、更深层次理解和评估自然语言处理模型的性能,推动自然语言处理技术的进一步发展和完善。同时,也强调了模型的社会道德责任,要求模型生成的内容符合社会道德原则,避免潜在的负面影响。

1.2.1 多属性能力评估

为了评估大型语言模型的性能,研究人员提出了知识应用、数学推理、幻觉检测等能力评估。比如知识应用的考核、GSM 8k数学推理的考核、幻觉检测的考核。这些基准综合评估模型性能。

1.2.2 GPT-4模型评估

通过模拟考试(例如 SAT 数学)和自然语言处理任务(MMLU、DROP)评估 GPT-4。结果表明,GPT-4 在大多数专业和学术考试中与人类相当,并在多个 NLP 基准上取得了先进的成绩。微软提出的以人为本的评估基准包括GRE、SAT等客观题。 GPT-4在LSAT、SAT数学等方面超越人类平均成绩,SAT数学准确率达95%。然而,在复杂推理或特定领域的知识任务上表现不佳。 GPT-4的零样本学习能力接近小样本学习。

1.3 现有评价的不足

1.3.1 新任务缺乏评估基准

通用大语言模型的发展需要更多的应用场景和任务来评估其效果,但一些新兴任务缺乏评估基准,限制了该领域的发展。基准对于模型性能和不同模型之间的比较至关重要。它的缺乏使得研究人员难以准确评估模型性能并有效评估和比较新生算法和模型。因此,建立评估基准对于模型在新兴任务上的应用研究至关重要。

1.3.2 评价任务缺乏差异化

大型语言模型的能力已经非常强大,使得许多评估任务失去了挑战和区别。这反映出大型语言模型的发展超出了原始评估任务的范围。因此,需要注意评估任务的区别和难度,确保评估结果具有实际参考意义。

1.3.3 评价方法不公正

评价方法的不公平主要体现在评价指标和数据集选择的不公平,以及可能导致评价结果不公平的人为因素。同一任务下的不同评估数据集可能会产生矛盾的结果,人为因素也可能导致评估结果出现偏差。

1.3.4 评估不完整

目前对模型个体能力的评估往往只关注单个数据集、单个任务上的单个指标,无法全面反映模型的能力。对于自然语言生成能力的评估,需要考虑多个方面、不同的评估指标。同时,模型综合能力的评估也需要更系统的交互,综合评价模型的综合能力和多重属性。

1.3.5 评价基准污染问题

评价基准的污染问题是指评价数据出现在模型训练数据中,影响评价的公平性和可信度。为了保证公平性和可信性,评估基准的测试数据不应包含在大型语言模型训练数据中。基准的构建者和使用者需要仔细考虑,以确保独立性和代表性。

1.3.6 评估结果缺乏可解释性

现有的评估方法缺乏对大型语言模型评估中评估结果的解释和分析,导致评估结果缺乏可解释性。这主要体现在通过数字评估方法难以理解模型在不同任务和数据集上的性能差异,以及在确定模型在特定任务上的优劣时缺乏可解释性。提高评估结果的可解释性对于提高模型性能和优化至关重要。

2 综合大语言模型评估

大语言模型评估方法HELM是Liang等人提出的。旨在评估大语言模型在多场景、多任务、多评价指标下的能力。 HELM首先对自然语言处理涉及的场景和任务进行分类和筛选,并以应用任务作为评估重点。其次,明确了大型语言模型评估需要考虑的7个评估指标,例如准确率,并设计了7个更有针对性的评估维度,例如语言能力、推理能力等。最后,HELM对2019年的30个大型语言模型进行了评估。 42个场景及上述评价指标,并公开评价结果。 HELM还指出了其评估中的遗漏和不足,比如一些场景和任务的缺失、一些评估方法的不足、一些模型和适配策略的遗漏等。由于很多大型模型已经不再开源,对大型模型进行综合评估是很困难的。 HELM在评估时将大型语言模型视为黑箱,这也是上面提到的遗漏和缺点之一。 HELM使用的评估属性包括准确性、校准性、泛化能力、适应能力、鲁棒性、效率、偏见和刻板印象、公平性和有害性。

2.1 准确度

准确性是衡量大型语言模型性能的重要指标。它反映了模型预测或生成结果的正确比例。准确性对于大型语言模型在自然语言处理任务中的应用至关重要。评估准确性的方法因场景和任务而异。常见的评估指标包括判别性问题的评估指标(如F1值和value)、生成问题的评估指标(如BLEU和ROUGE)、精确匹配(EM)等。 。准确性指标广泛用于自然语言处理评估,但未来将继续与其他指标结合使用。

2.2 校准

准确性衡量模型输出的正确性,而校准衡量模型预测概率的准确程度。校准评估对于大型语言模型至关重要,因为它有助于提高模型可靠性和置信度估计的准确性。高度校准的模型更加可靠,其预测更有可能避免误解和错误决策。此外,校准还可以帮助用户了解模型预测并在必要时进行手动干预。

预期校准误差(ECE)是一种评估模型校准的方法。它将概率区间分成M个小区间,计算每个区间内正确预测的样本数与预测概率的乘积之和,然后除以该区间内所有样本的个数,得到准确率每个区间的。然后计算每个区间的平均置信度,即该区间内所有样本的预测概率的平均值。最后,将所有间隔的校准间隙的期望值相加,以获得期望的校准误差。

2.3 泛化能力

模型泛化能力的评价主要关注模型在域外数据集上的表现,通常是在小样本或零样本设置下。小样本意味着模型在进行预测时仅给出少量示例作为参考,并且参数通常不会更新,例如上下文学习。零样本与小样本类似。不同之处在于没有提供参考样品。模型只提供需要回答的问题和对应文本,模型直接推断答案。由于小样本和零样本通常不会更新模型参数,因此这种评估方法可以更好地体现模型的泛化能力,而泛化能力也在一定程度上预测了模型应用于下游任务时的效果。因此,泛化能力的评估是评估大型语言模型能否广泛应用于众多实际下游应用场景的关键之一,也将成为未来大型模型评估的重要组成部分。

2.4 适应性

大型模型在一般任务和特定任务上的性能存在差异,需要考虑适配问题。适应是将原始模型转换为适合特定下游任务的模型的过程。适应能力是指模型在不同适应策略下的表现。自适应策略有三种:不更新原模型参数的自适应、增加自适应层并调整自适应层参数的自适应、更新原模型所有参数的自适应。最典型的不更新模型参数的适配方法是利用设计提示和上下文示例,使模型在下游任务上取得更好的结果。增加适配层并调整适配层参数的适配是一种高效、低损耗的适配方法。一种极端的适应方法是更新模型的所有参数。具体来说,就是利用下游任务的数据来重新训练模型,从而迭代更新整个模型的参数。模型对不同适应策略的适应程度与模型的结构设计、预训练方法等因素有关。

2.5 鲁棒性

大型语言模型在复杂的现实世界中的性能可能并不突出,因为它们不够鲁棒,也就是说,它们不能抵抗输入数据中的扰动或噪声。评估模型稳健性的一种方法是扰乱文本输入并观察模型输出的变化。扰动大致分为两类:对抗性扰动和非对抗性扰动。对抗性扰动是为了误导模型做出错误的预测而故意修改输入内容,这将对模型的预测结果产生重大影响。非对抗性扰动是对输入内容更加自然和随机的改变,用于模拟现实世界中复杂的输入情况。对抗性扰动可用于评估模型处理恶意输入的能力,而非对抗性扰动可用于衡量模型在面对现实世界中存在自然错误的输入时的性能。在评估大型语言模型时,需要综合考虑两种扰动类型的影响,以更全面地评估模型的鲁棒性。

2.6 效率

大语言模型的效率包括训练效率和推理效率。训练效率是指模型训练的复杂度,而推理效率是指模型在不更新参数时的推理复杂度。评估模型效率的指标包括能耗、二氧化碳排放、参数数量、FLOPS、实际推理时间、执行层数等。这些评估有助于研究人员选择最合适的模型来满足应用需求。

2.7 偏见和成见

大型语言模型在应用于各种下游任务时可能会表现出歧视行为,这限制了它们在某些领域的应用。大语言模型偏差和刻板印象是指对某一人群和某一类型的属性标签过于笼统和不真实的概括。评估模型中的偏差和刻板印象的方法主要分为两类:基于呈现侧的评估方法和基于生成侧的评估方法。基于表示侧的评价方法主要利用语义向量空间中词向量的几何关系来表示词之间的关联程度,反映语言模型中的偏见和刻板印象。基于生成的评估方法侧重于利用模型的生成来衡量其偏差程度。然而,这些评估方法通常依赖于人工选择的词汇集来表示某一待测群体或某一类型的属性标签。这些词汇表本身可能会引入筛选者固有的偏见,词汇表中的词汇构成也会对评估结果产生较大的影响。目前,NLP 界对于偏差的评估仍存在一些问题,如偏差的定义模糊、某些评估方法与下游应用中模型性能之间的相关性不明确、对其他形式的偏差缺乏了解等。除了性别和种族。 (如宗教、国家等)、非英语情境下的偏见评估相关研究不足等。

2.8 公平性

大型语言模型提高了下游任务的准确性,但其公平性问题引起了人们的关注。公平性是指模型在下游任务中不同特征群体上的性能差异,而偏差和刻板印象是模型的内在属性。模型公平性评估包括预测公平性、机会平等性和反事实公平性。在评估时,需要根据群体特征划分数据子集,进行统计和汇总。通过扰动测试示例以生成反事实数据来评估反事实公平性。随着大语言模型的发展,其应用形式可能会扩展到多语言、多模态,现有的公平性评价范式需要迭代,以适应更广泛的人群和复杂的语言背景。

2.9 危害性

大型语言模型的危害性是指它们生成有害语音的能力。大语言模型的危害性评估是一个重要问题,需要开发危害检测系统来检测文本中潜在的有害成分。开发者需要仔细考虑系统设计的合理性、数据集标注的准确性、是否存在偏差等问题。同时,他们需要平衡准确性和公平性,避免对某些群体进行过度惩罚或忽视针对他们的有害言论。提高系统及其数据的公开性和透明度,有助于对系统进行综合评价,提高系统的可信度和有效性。

3 语言模型评估的一些新方向

自提出以来,生成式大语言模型的影响力逐渐增强,但传统的生成式评估方法面临挑战。为此,研究人员开始探索新的评估模型,包括基于模型的评估、幻觉问题评估和元评估等。这些研究弥补了传统评估的不足,为评估模型性能提供了更加准确、稳定、可靠的评估结果。

3.1 基于模型的评估

早期的BLEU、ROUGE等自动化评估方法主要基于“形式匹配”,存在忽视语义、依赖参考文本、难以把握不同任务之间的细微差别以及每个任务的评估需求等局限性。为了克服这些局限性,研究人员开始探索基于模型的评估方法,特别是基于大语言模型的评估方法。这些方法具有强大的表示学习能力和语义理解能力,能够更好地捕捉不同生成任务之间的细微差异,并且与人类评价有更好的相关性。其中, 、 、 Kocmi & 等具有代表性。

它是一种基于BERT的文本相似度评估方法。它通过计算待测试文本与参考文本之间的余弦相似度来评估文本相似度。结构如图2所示。BERT for MTE是一种基于BERT的高级评估方法,通过句对编码巧妙地将待测试文本和参考文本融合在一起。它是一种基于大语言模型的评估方法,根据生成内容的质量来评估生成内容。 Kocmi&是一种基于大语言模型的评估方法,模拟人类评估,使评估结果更加客观准确。它是一种基于比较的评估模型,重点是在指令调整的背景下根据生成的内容选择最佳模型。

图2 计算结构

图3 评估结构图

基于模型评估的未来可能的研究方向包括: 1. 制定更稳健的评估指标,以减少噪声的影响,提高稳定性和可靠性。 2、开发更加可靠的评价方法,增强评价结果的可信度。 3.探索将特定知识注入大型语言模型中,以提高专业领域的性能。 4.注重细粒度评价和增强可解释性。 5、摆脱对参考文本的依赖,利用大语言模型的泛化能力。 6. 尝试将模型评估和人工评估的有效方法结合起来,提高人工评估的可用性和模型评估的准确性。

3.2 幻觉问题的评估

生成式大语言模型在文本质量和流畅性方面取得了显着的提高,但在生成内容时可能会产生“幻觉”,即产生不准确或毫无根据的信息,影响其实用性和可靠性。幻象分为两类:内部幻象和外部幻象。能够通过原文直接证伪的,是内幻,无法通过原文直接验证的,是外幻。评估幻觉现象的方法分为两类:非大语言模型和基于大语言模型的方法。大语言模型通过其理解和生成能力来评估文本的错觉。评价方法有两种:直接评价方法和间接评价方法。直接评估方法使用大型语言模型作为代理,通过模板设计来完成人类评估者的工作。间接评估规则利用模型生成能力,结合其他评估指标和方法,例如使用生成问答和n-gram模型来衡量文本一致性来评估错觉程度。

未来幻觉评估的研究应该探索更复杂的模型和算法来提高幻觉检测的准确性和效率,并研究如何利用未标记或弱标记的数据来提高性能。同时,还需要深入研究幻觉的产生机制,包括语言理解和产生过程,以及训练过程中的因素。此外,设计一种通用的幻觉评估方法也是未来的一个重要研究方向。它需要深入了解幻觉的本质以及不同任务中的共性和特点,设计能够捕捉任务之间细微差异且与人类判断高度相关的评价指标。

3.3 元评价

元评估在大规模语言模型评估中至关重要。旨在评价评价指标的效度和信度,确定评价方法与人的评价之间的相关性。它对于保证评价质量、减少误差、提高结果的可信度发挥着关键作用。 。通过比较不同的评估方法,研究人员发现各自的优势和局限性,选择更适合特定任务和场景的评估方法,准确衡量模型性能。随着大规模语言模型在各个领域的广泛应用,评估方法本身的准确性和可靠性越来越受到关注。元评论中常见的相关性计算方法包括  相关系数、 等级相关系数和  τ 系数,它们衡量生成的内容分数与人类评分之间的相关性。

皮尔逊相关系数是评价两个变量之间线性关系强度的指标。当两个变量之间存在很强的线性相关性时,它表现良好。然而,它对非线性关系不太敏感,并且容易受到异常值和倾斜数据分布的影响。因此,当变量之间存在复杂的非线性关系或数据存在严重异常值或偏度时,皮尔逊相关系数可能不适用。

斯皮尔曼相关系数是衡量两个变量之间单调关系的有力工具。该指标基于数据的排名计算,对异常值和倾斜数据具有显着的鲁棒性,并且可以有效捕获非线性关系。但它只能揭示两个变量之间的单调联系,当变量之间存在复杂的多元依赖关系时,仅靠相关系数可能难以准确区分和识别。

的 τ 系数是基于数据排名的系数,用于衡量两个变量之间的共同趋势。其计算方法是计算一致对的数量和不一致对的数量,然后根据公式进行计算。该系数对于异常值和倾斜数据具有鲁棒性,但在大样本数据中计算效率低下。

**研究方向。 **未来的元评估需要在更细粒度的层面上进行,以评估各个评估指标的评估结果与人类对这些细粒度评估维度的判断之间的相关性,并揭示评估指标捕获的能力不同生成任务的细微差别。 。评价指标公平性评估的元评价需要探究这些因素对评价指标表现的影响,研究评价指标捕捉模型对不同群体或语言的偏见和歧视的能力。评价指标稳健性评估的元评价通过基于扰动的方法研究评价指标的稳健性,可以揭示其面对数据噪声、变化或对抗性样本时的稳定性。

如何学习大模型&AI产品经理

请求大家的喜欢和收藏。我花2万元买的大模型学习资料免费分享给大家。快来看看有什么可用的。

1. 学习路线图

第一阶段:从大模型系统的设计入手,讲解大模型的主要方法;

第二阶段:从大模型提示词项目的角度出发,更好地发挥模型的作用;

第三阶段:大模特平台应用开发利用阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发,以框架为例,构建物流行业咨询智能问答系统;

第五阶段:微调大模型的发展,利用大健康、新零售、新媒体等领域,打造适合当前领域的大模型;

第六阶段:基于SD多模态大模型,搭建文生图小程序案例;

第七阶段:聚焦大模型平台应用开发,通过星火大模型、文心大模型等成熟大模型,打造大模型行业应用。

2.视频教程

虽然网上的学习资源很多,但基本上都是不完整的。这是我自己整理的一个大模型视频教程。上面路线图中的每个知识点我都附有视频讲解。

(全部打包成一片,无法一一展开,总共300多集)

由于篇幅有限,仅展示部分信息。您需要点击下面的图片来获取它。

3. 技术文档和电子书

这里主要收集PDF书籍、行业报告以及大型模型相关的文档。其中有数百个,全部都是业内最新的。

4. LLM面试题及面试资料收集

这里主要整理了行业内最新的大模面试题以及各大厂商的offer面试合集。

学习后收获:

• 基于大模型的全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过本课程可以获得不同的能力;

• 能够利用大型模型解决相关实际项目需求:大数据时代,越来越多的企事业单位需要处理海量数据。利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大型模型应用程序开发技能可以使程序员能够更好地满足实际的项目需求;

•基于大型模型和企业数据AI应用程序开发,实施大型模型理论,GPU计算能力,硬件,开发框架和项目实用技能,并学习大型模型的精细垂直培训(数据准备,数据蒸馏,大型模型部署)一站式的精通;

•能够完成流行的大型模型垂直现场模型培训功能并提高程序员的编码功能:大型型号应用程序开发需要掌握机器学习算法,深度学习框架和其他技术。掌握这些技术可以改善程序员的编码和分析功能,从而使程序员更加精通编写高质量代码。

1。大型模型学习路线图

2。100组大型AI模型的商业实施计划

3.100大型型号视频教程

4.200大型PDF书籍

5。LLM采访问题的收集

6.AI产品经理资源收集

如何获得:

有需要的朋友可以将图片保存到WX和扫描QR码以免费获得[保证100%免费]
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【科创星域】 ( 京ICP备20013102号-15 )

GMT+8, 2025-5-6 17:59 , Processed in 0.073878 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表