早期的BLEU、ROUGE等自动化评估方法主要基于“形式匹配”,存在忽视语义、依赖参考文本、难以把握不同任务之间的细微差别以及每个任务的评估需求等局限性。为了克服这些局限性,研究人员开始探索基于模型的评估方法,特别是基于大语言模型的评估方法。这些方法具有强大的表示学习能力和语义理解能力,能够更好地捕捉不同生成任务之间的细微差异,并且与人类评价有更好的相关性。其中, 、 、 Kocmi & 等具有代表性。
它是一种基于BERT的文本相似度评估方法。它通过计算待测试文本与参考文本之间的余弦相似度来评估文本相似度。结构如图2所示。BERT for MTE是一种基于BERT的高级评估方法,通过句对编码巧妙地将待测试文本和参考文本融合在一起。它是一种基于大语言模型的评估方法,根据生成内容的质量来评估生成内容。 Kocmi&是一种基于大语言模型的评估方法,模拟人类评估,使评估结果更加客观准确。它是一种基于比较的评估模型,重点是在指令调整的背景下根据生成的内容选择最佳模型。