pubanswer

大模型综合能力评测:前沿能力评估与未来展望

NovaSeeker2024-07-30

引言

近年来,大模型以前所未有的速度发展,其强大的能力和无限的潜力正引领着新一轮技术革命。然而,如何科学、客观地评估这些模型的能力成为了一个关键问题。尽管国内外已有多个模型能力评测榜单,但其质量参差不齐,排名差异显著,这主要源于评测数据和测试方法的不成熟和不科学。一个好的评测方法应当具备开放性、动态性、科学性和权威性。

SuperBench:面向大模型的综合能力评测框架

为了提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了 SuperBench 大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。SuperBench 评测体系涵盖语义、代码、对齐、智能体和安全等五个评测大类,共计 28 个子类。

大模型能力评测的迁移:从语义理解到安全评估

自大语言模型诞生之初,评测便成为大模型研究中不可或缺的一部分。随着大模型研究的不断深入,对其性能重点的研究也在不断迁移。根据研究,大模型能力评测大致经历了以下五个阶段:

  1. 2018 年 - 2021 年:语义评测阶段。早期的语言模型主要关注自然语言的理解任务,例如分词、词性标注、句法分析、信息抽取等,相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、GPT、T5 等。

  2. 2021 年 - 2023 年:代码评测阶段。随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX 等。

  3. 2022 年 - 2023 年:对齐评测阶段。随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM 等。

  4. 2023 年 - 2024 年:智能体评测阶段。基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen 等。

  5. 2023 年 - 未来:安全评测阶段。随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI 可持续发展”的关键问题。

SuperBench 评测结果分析

语义评测:ExtremeGLUE

数据集简介:ExtremeGLUE 是一个包含 72 个中英双语传统数据集的高难度集合,旨在为语言模型提供更严格的评测标准。

评测方法:采用零样本 CoT 评测方式,并根据特定要求对模型输出进行评分。

关键发现

  • 在语义理解能力评测中,Claude-3 以 76.7 分位居第一,国内模型 GLM-4 和文心一言 4.0 分别位列第二和第三。
  • 在知识-常识、知识-科学和数学等子类别中,Claude-3 均展现出领先优势。
  • 在阅读理解方面,文心一言 4.0 表现最佳。

代码评测:NaturalCodeBench(NCB)

数据集简介:NCB 侧重考察模型在真实编程应用场景中写出正确可用代码的能力。

评测方法:运行模型生成的函数,将输出结果与准备好的测例结果进行比对进行打分,最终计算生成代码的一次通过率 pass@1。

关键发现

  • 在代码编写能力评测中,GPT-4 系列模型和 Claude-3 模型在代码通过率上明显领先。
  • 国内模型中 GLM-4、文心一言 4.0 与讯飞星火 3.5 表现突出,但与国际一流模型仍有差距。

对齐评测:AlignBench

数据集简介:AlignBench 旨在全面评测大模型在中文领域与人类意图的对齐度。

评测方法:通过强模型(如 GPT-4)打分评测回答质量,衡量模型的指令遵循能力和有用性。

关键发现

  • 在人类对齐能力评测中,GPT-4 网页版占据榜首,文心一言 4.0 和 GPT-4 Turbo 紧随其后。
  • 国内模型中 GLM-4 同样表现优异,超越 Claude-3,位列第四。

智能体评测:AgentBench

数据集简介:AgentBench 评估语言模型在操作系统、游戏和网页等多种实际环境中作为智能体性能。

评测方法:模型和预先设定好的环境进行多轮交互以完成各个特定的任务,并根据确定的规则对模型完成任务的情况进行打分。

关键发现

  • 在作为智能体能力评测中,Claude-3 和 GPT-4 系列模型占据了前三甲。
  • 国内模型整体表现尚待提升,GLM-4 在国内模型中表现最佳。

安全评测:SafetyBench

数据集简介:SafetyBench 是首个全面的通过单选题的方式评估大型语言模型安全性的测试基准。

评测方法:通过模型的选择测试对各个安全维度的理解和掌握能力进行考察。

关键发现

  • 在安全能力评测中,国内模型文心一言 4.0 表现亮眼,力压国际一流模型 GPT-4 系列模型和 Claude-3 拿下最高分。
  • 国内大模型 GLM-4 同样表现优异,与 Claude-3 并列第四。

大模型评测的未来展望

当前大模型评测领域面临诸多挑战,需要更深入、更全面的评测方法。未来,大模型评测的发展方向可以从以下几个方面进行探索:

  1. 风险评测: 需要更深入、更全面的评测方法,以评估大模型在特定场景或特定环境下的风险。
  2. 智能体评测: 可以进一步增加智能体所处环境的多样性,以便更全面地评估其能力和风险,并关注潜在风险的评估。
  3. 动态评测: 持续更新测试样本,引入开放式问题,并探索评测新方法,如使用多个大模型通过辩论的方式进行评测。
  4. 以优化大模型为目标的评测: 不仅给出模型的能力评分,同时也提供对应的能力分析和改进建议。

通过不断完善评测体系、改进评测方法,推动大模型评测研究与大模型技术研究发展相协调,才能让大模型的发展成果惠及全人类。