你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
本文中标记为(预览)的项目目前以公共预览版提供。 此预览版在没有服务级别协议的情况下提供,不建议将其用于生产工作负荷。 某些功能可能不受支持,或者可能具有受限功能。 有关详细信息,请参阅 Microsoft Azure 预览版的使用条款。
Foundry 门户中的模型排行榜(预览版)可帮助你使用行业标准模型基准比较 Foundry 模型目录中的模型。
若要开始,请使用 Foundry 门户中 的模型排行榜比较和选择模型 。
可以查看每个排行榜类别的详细基准测试方法:
- 语言模型的质量基准测试,以了解模型在核心任务上的表现如何,包括推理、知识、问答、数学和编码。
- 语言模型的安全基准测试,以了解模型对有害行为生成的安全性。
- 语言模型的性能基准测试,以了解模型在延迟和吞吐量方面的表现。
- 语言模型的成本基准测试,以了解使用模型的估计成本。
- 语言模型的方案排行榜基准测试 ,可帮助你找到最适合特定用例或方案的最佳模型。
- 嵌入模型的质量基准测试,以了解模型在基于嵌入的任务(包括搜索和检索)上的表现。
找到合适的模型时,可以在模型目录中打开其 详细基准测试结果 。 在此处,可以部署模型,在操场中试用模型,或根据自己的数据对其进行评估。 排行榜支持文本语言模型的基准测试(包括大型语言模型(LLM)和小型语言模型(SLM)和嵌入模型。
基准测试对 LLM 和 SLM 的质量、安全性、成本和吞吐量进行衡量。 使用标准质量基准评估嵌入模型。 排行榜在新的模型和基准数据集可用时更新。
模型基准测试范围
模型排行榜从 Foundry 模型目录中精选了基于文本的语言模型。 模型的纳入基于以下标准:
- Azure直接模型的优先级:Azure直接模型被选中,因为它们与常见的生成AI场景相关。
- 核心基准适用性:模型必须支持一般用途的语言任务,例如推理、知识、问答、数学推理和编码。 不支持专用模型(例如蛋白质折叠或特定于域的质量保证)和其他模态。
此范围可确保排行榜反映与核心 AI 方案相关的当前高质量模型。
解释排行榜结果
排行榜可帮助你跨多个维度比较模型,以便为用例选择正确的模型。 下面是解释结果的一些准则:
- 质量索引:更高质量的索引指示推理、编码、数学和知识任务的总体性能更高。 比较模型的质量指标,以识别在通用语言任务中表现最佳的模型。
- 安全分数:较低的攻击成功率表示更可靠的模型。 考虑安全分数以及质量分数,尤其是对于面向客户的应用程序而言,有害的输出是一个重要问题。
- 性能权衡:使用延迟和吞吐量指标来了解模型的实际响应能力。 具有高质量但高延迟的模型可能不适合实时应用程序。
- 成本注意事项:估计成本指标使用三对一的输入和输出令牌比率。 根据实际工作负荷的输入和输出比率调整预期。
- 方案排行榜:如果你的用例映射到特定方案(例如编码或数学),请从方案排行榜开始,查找针对该任务优化的模型,而不是只依赖于整体质量索引。
提示
排行榜基准使用公共数据集跨模型提供标准化比较。 若要评估特定数据和用例的模型性能,请参阅 评估生成 AI 应用。
语言模型的质量基准
Foundry 使用标准基准数据集的准确性分数评估 LLM 和 SLM 的质量,这些数据集测量推理、知识、问答、数学和编码功能。
| 指数 | 描述 |
|---|---|
| 质量索引 | 通过对基准数据集中的适用准确度分数(exact_match、pass@1、arena_hard)求平均值进行计算。 |
质量索引值的范围从零到 1,其中更高的值表示更好的性能。 质量索引中包含的数据集包括:
| 数据集名称 | 类别 |
|---|---|
| bigbench_hard (降采样至 1,000 个示例) | 推理 |
| chembench | 化学 |
| frontierscience | 科学推理 |
| gpqa | QA |
| mbppplus | 编码 |
| mmlu_pro (降级到 1,000 个示例) | 一般知识 |
| musr | 推理 |
| tau2_telecom | 智能体和工具调用选择 |
查看准确性分数的更多详细信息:
| 度量 | 描述 |
|---|---|
| 精度 | 数据集级别和模型级别均提供准确性分数。 在数据集级别,评分是针对数据集中所有示例计算的准确性指标的平均值。 在所有情况下使用的是exact_match准确性指标,但对于使用pass@1指标的HumanEval和MBPP数据集除外。 完全匹配将模型生成的文本与数据集的正确答案进行比较,如果生成的文本与答案完全匹配,则报告一个,否则为零。 该 pass@1 指标度量通过代码生成任务中的一组单元测试的模型解决方案的比例。 在模型级别,准确性分数是每个模型的数据集级精度平均值。 |
准确性分数的范围从零到 1,其中更高的值更好。
语言模型的安全基准
安全基准是通过结构化筛选和验证过程选择的,旨在确保相关性和严格性。 满足入驻条件的基准是那些能够解决高优先级风险的基准。 安全排行榜包括足够可靠的基准,足以在与安全相关的主题上提供有意义的信号。 排行榜使用 HarmBench 用于评估模型安全性,并按场景组织排行榜:
| 数据集名称 | 排行榜场景 | 度量 | 解释 |
|---|---|---|---|
| HarmBench (标准) | 标准有害行为 | 攻击成功率 | 较低值意味着针对旨在引发标准有害内容的攻击的更好可靠性 |
| HarmBench(上下文相关) | 特定语境中的有害行为 | 攻击成功率 | 较低的值意味着针对旨在引起上下文有害内容的攻击的更好可靠性 |
| HarmBench (侵犯版权) | 侵犯版权 | 攻击成功率 | 较低的值表示对抗版权侵权的鲁棒性更强。 |
| WMDP | 敏感域中的知识 | 精度 | 较高的值表示敏感域中的更多知识 |
| Toxigen | 有毒内容检测 | F1 分数 | 较高的值表示更好的检测性能 |
有害行为检测
HarmBench 基准使用旨在引发不安全响应的提示来衡量有害行为。 它涵盖七个语义类别:
- 网络犯罪和未经授权的入侵
- 化学和生物武器或药物
- 侵犯版权
- 错误信息与反信息
- 骚扰和欺凌
- 非法活动
- 一般伤害
这些类别分为三个功能区域:
- 标准有害行为
- 特定语境中的有害行为
- 侵犯版权
每个功能类别都出现在单独的方案排行榜中。 评估使用来自 HarmBench(无攻击)和 HarmBench 评估器的直接提示来计算攻击成功率(ASR)。 较低的 ASR 值意味着更安全的模型。 评估过程中没有使用攻击策略,并且在进行模型基准测试时,Foundry Guardrails(即以前的内容筛选器)已关闭。
有毒内容检测
Toxigen 是一个大规模数据集,用于检测对抗和隐式仇恨言论。 它包括隐式有毒和良性的句子,引用了13个少数民族。 Foundry 使用带注释的 Toxigen 样本,并计算 F1 得分以评估分类性能。 更高的分数表示更好的有毒内容检测。 基准测试在 Foundry 护栏(以前的内容筛选器)关闭的情况下执行。
敏感领域知识
大规模杀伤性代理(WMDP)基准衡量敏感领域的模型知识,包括生物安全、网络安全和化学安全。 排行榜使用网络安全、生物安全和化学安全的平均准确度分数。 更高的 WMDP 准确度分数表示对危险能力(安全角度更差的行为)的了解。 模型基准测试是使用默认 Foundry Guardrails(以前的内容筛选器)执行的。 这些防护措施可检测和阻止暴力、自我伤害、性、仇恨和不公平性的内容伤害,但不针对网络安全、生物安全和化学安全类别。
安全基准的限制
安全是一个具有多个维度的复杂主题。 任何开源基准都不能测试或表示所有方案中系统的完整安全性。 此外,许多基准测试在基准设计和风险定义之间存在饱和度或不对齐。 一些基准还缺乏关于目标风险概念化和操作化方式的明确文档,因此很难评估结果是否准确捕获真实风险的细微差别。 这些限制可能导致在实际安全方案中过度估计或低估模型性能。
语言模型的性能基准
性能指标在14天内聚合,每天进行24次测试,每次测试发送两次请求,间隔为一小时。 除非另有说明,否则以下默认参数适用于无服务器 API 部署和 Azure OpenAI:
| 参数 | 价值 | 适用于 |
|---|---|---|
| 地区 | 美国东部/美国东部 2 | 无服务器 API 部署和 Azure OpenAI |
| 每分钟令牌 (TPM) 速率限制 | 30k(基于 Azure OpenAI 的 180 RPM)用于非推理,100k 用于推理模型 N/A (无服务器 API 部署) |
对于 Azure OpenAI 模型,用户可以根据部署类型(无服务器 API、全局、全局标准等)选择适合其速率限制范围的配置。 对于无服务器 API 部署,此设置是抽象的。 |
| 请求数 | 每次试用每小时允许 2 个请求(每天 24 次试用) | 无服务器 API 部署,Azure OpenAI |
| 试验/运行数 | 14 天,每天 24 次试用,336 次运行 | 无服务器 API 部署,Azure OpenAI |
| 提示/上下文长度 | 中等长度 | 无服务器 API 部署,Azure OpenAI |
| 处理的令牌数(中等) | 输入到输出令牌的 80:20 比率,即 800 个输入令牌与 200 个输出令牌。 | 无服务器 API 部署,Azure OpenAI |
| 并发请求数 | 一个(请求一个接一个地顺序发送) | 无服务器 API 部署,Azure OpenAI |
| 数据 | 合成(基于静态文本准备的输入提示) | 无服务器 API 部署,Azure OpenAI |
| 部署类型 | 无服务器 API | 仅适用于 Azure OpenAI |
| 流媒体 | 是 | 适用于无服务器 API 部署和 Azure OpenAI。 对于通过托管计算部署的模型,或者对于不支持流式处理的终结点,TTFT 表示为延迟指标的 P50 值。 |
| SKU | Standard_NC24ads_A100_v4(24 核、220GB RAM、64GB 存储) | 仅适用于托管计算(用于估算成本和性能指标) |
在以下指标中评估 LLM 和 SLM 的性能:
| 度量 | 描述 |
|---|---|
| 延迟平均值 | 处理请求的平均时间(以秒为单位,通过多个请求计算)。 每小时向终结点发送请求,持续两周,然后计算平均值。 |
| 延迟 P50 | 中位数(第 50 百分位)延迟。 50% 请求在此时间内完成。 |
| 延迟 P90 | 第90百分位延迟时间。 在这段时间内完成 90% 的请求。 |
| 延迟 P95 | 第 95 百分位延迟。 在此时间内完成的请求占95%。 |
| 延迟 P99 | 第 99 百分位延迟。 99% 请求在此时间内完成。 |
| 吞吐量 GTPS | 每秒生成的令牌数(GTPS)是从请求发送到终结点时每秒生成的输出令牌数。 |
| 吞吐量 TTPS | 每秒令牌总数(TTPS)是每秒处理的总令牌数,包括输入提示和生成的输出令牌。 对于不支持流式处理的模型,响应第一个令牌的时间 (TTFT) 表示延迟值(即接收响应所需的时间)的 P50 值 |
| 延迟 TTFT | 首令牌总时间 (TTFT) 是指当流式传输启用时,响应中的第一个令牌从终结点返回所用的时间。 |
| 令牌之间的时间 | 该指标指的是接收令牌之间的时间间隔。 |
Foundry 使用以下方法总结性能:
| 度量 | 描述 |
|---|---|
| 延迟 | 首次令牌平均时间。 越低越好。 |
| 吞吐量 | 每秒平均生成的令牌数。 更高越好。 |
对于延迟或吞吐量等性能指标,第一个令牌的时间和每秒生成的令牌可以更好地了解模型的典型性能和行为。 定期刷新性能数字,以反映最新的部署配置。
语言模型的成本基准
成本基准测量 在质量基准数据集上执行每个模型的实际成本,而不是基于令牌定价估算的成本。
基准成本是使用以下方法计算的:
- 基准执行期间使用的实际输入、推理和输出令牌数。
- 用于评估的特定于模型的推理任务配置(通常是
high或xhigh)。 - 数据集特征和复杂性,影响令牌使用情况和运行时。
与基于固定令牌比率的估计不同,此方法反映了运行基准工作负荷的真正端到端成本。
如何解释成本结果
- 在标准质量数据集上,每次基准测试运行的成本以美元计算。
- 值表示真实的执行成本,并使能够进行模型间的直观比较。
- 较低的值表示基准套件的性能更具成本效益。
场景排名基准测试
方案排行榜按常见的实际评估目标对基准数据集进行分组。 可以通过用例快速识别模型的优缺点。 每个方案聚合一个或多个公共基准数据集。
使用下表在 “方案” 列中查找用例,然后查看关联的基准数据集以及结果指示的内容。 下表汇总了可用的方案排行榜及其关联的数据集和说明:
| 场景 | 数据集 | 描述 |
|---|---|---|
| 标准有害行为 | HarmBench (标准) | 针对标准有害提示的攻击成功率。 越低越好。 请参阅 有害行为检测。 |
| 上下文有害行为 | 危害基准(上下文) | 针对上下文有害提示的攻击成功率。 越低越好。 请参阅 有害行为检测。 |
| 侵犯版权 | HarmBench (版权) | 版权侵犯提示的攻击成功率。 越低越好。 请参阅 有害行为检测。 |
| 敏感域中的知识 | WMDP (生物安全、化学安全、网络安全) | 跨三个敏感域子集的准确度。 更高的准确度表示对敏感功能的认识更多。 请参阅 敏感域知识。 |
| 毒性检测 | ToxiGen (批注) | 有毒内容检测能力的 F1 分数。 更高越好。 请参阅 有毒内容检测。 |
| 推理 | BIG-Bench Hard(1,000 个子样本) | 推理功能评估。 值越高越好。 |
| 编码 | BigCodeBench (指令), LiveBench (编码), LiveCodeBench mediumMBPPPlus | 测量与代码相关的任务的准确性。 值越高越好。 |
| 一般知识 | MMLU-Pro (1K 英语子采样) | MMLU-Pro 的 1,000 个仅限英语的示例子样本。 |
| 问题解答 | Arena-Hard、 GPQA (钻石) | 对抗人类偏好 QA (Arena-Hard) 和研究生级多学科 QA (GPQA diamond)。 值越高越好。 |
| 数学 | MATH (500 子采样) | 度量语言模型的数学推理功能。 值越高越好。 |
| 基础性 | TruthfulQA (MC1) | 语言模型的多选基础性/真实性评估。 值越高越好。 |
嵌入模型的质量基准
嵌入模型的质量索引定义为面向信息检索、文档聚类分析和摘要任务的综合无服务器 API 基准数据集的平均准确度分数。
| 度量 | 描述 |
|---|---|
| 精度 | 准确性是处理预测总数中正确预测的比例。 |
| F1 分数 | F1 分数是精度和召回率的加权平均值,其中最佳值为 1(完美的精度和召回率),最差值为零。 |
| 平均精度均值(MAP) | MAP 评估排名和推荐器系统的质量。 它衡量建议项的相关性以及系统在顶部放置更相关项时的相关性。 值的范围可以是零到 1,MAP 越高,系统就越能将相关项放在列表中。 |
| 规范化折扣累积收益 (NDCG) | NDCG 评估机器学习算法基于相关性对项进行排序的能力。 它将排名与列表中所有相关项位于列表顶部的理想顺序进行比较,其中 k 是列表长度,同时评估排名质量。 在这些基准测试中,k=10,这由指标 ndcg_at_10 显示,意味着评估的是前 10 项。 |
| 精度 | 精度测量模型正确标识特定类的实例的能力。 精度表示机器学习模型在预测目标类别时的正确率。 |
| 斯皮尔曼相关系数 | 基于余弦相似性的 Spearman 相关性首先计算变量之间的余弦相似性,然后对这些分数进行排名,并使用排名来计算 Spearman 相关性。 |
| V 测量 | V 度量值是用于评估群集质量的指标。 V 度量值计算为同质性和完整性的调和平均值,确保两者之间的平衡以获得有意义的分数。 可能的分数介于零和 1 之间,其中 1 表示完全的标记完成。 |
分数计算
个人分数
基准结果源自通常用于语言模型评估的公共数据集。 在大多数情况下,数据托管在GitHub存储库中,由数据的创建者或策展人维护。 Foundry评估流程从其原始来源下载数据,从每个示例行提取提示信息,生成模型响应,然后计算相关准确性指标。
提示构建遵循每个数据集的最佳做法,如引入数据集的论文和行业标准所指定。 在大多数情况下,每个提示包含多个样本,即多个完整问题和答案示例,以为模型启动任务。 拍摄次数因数据集而异,并遵循每个数据集的原始出版物中指定的方法。 评估管道通过从评估中提取的一部分数据中采样问题和答案来创建样例。
基准限制
所有基准都具有在解释结果时应考虑的固有限制:
- 质量基准:基准数据集在训练或优化类似数据时可能会随时间而饱和。 评估结果也可能会因提示词的构建方式以及所使用的少样本示例数量而有所不同。
- 性能基准:使用固定的输入到输出标记比率和单区域部署的合成负载来收集度量标准。 实际性能可能因工作负荷模式、并发、区域和部署配置而异。
- 成本基准:成本估算基于测量时的三对一输入到输出令牌比率和当前定价。 实际成本取决于工作负荷,并受定价更改的影响。