🔍 AI大模型评测 · 完整笔记

点击标签切换章节

第一部分 · 什么是模型评测？

官方定义（背下来！）
通过「系统化、客观和全面」的方法，对大语言模型的性能和质量进行量化和质化分析

💬 用大白话说就是：把同一个问题同时丢给不同模型对比，看哪个回答更好——你已经在做最简单的模型评测了！

三个关键词拆解

关键词	在模型评测里是什么	核心意义
系统化	提前设计评测框架，不能随便出题	结果才有代表性
客观	统一评分规则，不因人而异	可比较、可复现
全面	多维度覆盖，不能只测一种能力	不漏测关键短板

性能 vs 质量

⚡ 性能（硬件素质）

回答速度 / 理解能力 / 上下文记忆
基础保障，用户感知不明显

🎯 质量（核心竞争力）

内容准确性 / 逻辑合理性 / 语言流畅度
用户最在乎的！

💡 传统APP：用户体验 = 交互+视觉。生成式AI：用户体验 = 内容生成质量！这是根本区别。

第二部分 · 什么时候做评测？

SFT训练

→

内测评测

→

上线

→

公测评测

→

持续迭代优化

🔬 阶段一：训练时（内测）

每完成一轮训练就要做
目的：趁还没上线，发现问题及时止损

🌐 阶段二：上线后（公测）

持续监控稳定性和内容质量
收集用户反馈的 Badcase

⚠️ 用户反馈的Badcase，有时候是无中生有！一定要自己先复测一遍，确认模型真的有这个问题，再交给算法。

评测类别全览

按模态分类

模态类型	核心评测维度
📝 文本生成	语法自然度 / 逻辑推理 / 事实准确性 / 幻觉率
🖼️ 文生图	生成质量 / 风格符合度 / 指令遵循度
🎬 生成视频	主体一致性 / 画面连贯性 / 运动轨迹合理性
🔊 语音生成	清晰度 / 语调准确 / 音色一致 / 杂音占比

📌 评测维度没有固定标准答案，只要符合业务目标就是对的！面试被问到时这句话很加分。

第三部分 · 标准评测流程

需求承接

→

文档撰写

→

评测集构建

→

执行评测

→

撰写报告

→

交付算法

第一步：需求承接（5W2H框架）

本次评测目标是什么？（What）/ 为什么要做？（Why）/ 评测哪些模型？（Who）
数据类型？（What）/ 数据量？（How many）/ 排期时间？（When）/ 预算？（How much）

🔑 数据量行业标准（面试必答）
一般企业标准：100~300 条
一线互联网（如阿里）：约 150 条
行业通用上限：不超过 400 条

第二步：评测需求文档结构

文档模块	重点说明
评测背景与目标	从需求方沟通中提炼，去掉废话留精华
评测对象说明 ★重要	必须写版本号！同一模型不同版本的结果不通用！
评测方案 ★最核心	评测集+评测方法+标注方式，这是文档的灵魂
规则维度标注要求	每个分值必须有详细说明

第四部分 · 评测集构建

三大核心要求（铁律）

	要求	考试类比/记忆口诀
①	模型没见过（陌生）	考试不出讲过的原题，只出变形题
②	多维度覆盖	语数英史地生都要考，不能只测一种
③	不同难度均匀分配	简单/中等/困难三梯度均匀分布

四大来源

来源	优缺点	适用条件
① 用户Query（打捞）	✅ 最真实 ❌ 需要筛选	公司有产品且有用户量
② 开源评测集	✅ 省时省力 ❌ 需判断适用性	有合适的现成数据
③ Prompt构造	✅ 没有数据时救命 ❌ 需设计规则	无用户数据也无合适开源集
④ 算法直接提供	✅ 最省力 ❌ 很少发生	算法团队主动提供

Prompt构造法步骤

① 明确评测目标

→

② 设计生成规则

→

③ 让LLM生成Excel

→

④ 投喂多个模型对比

⚠️ 重要：评测集一定要定期收集和更换！模型能力每个月都在提升，旧题就像用小学题考高中生——白测！

第五部分 · 三种评测方法

方法选择决策树

评测需求	推荐方法
快速判断哪个模型更好	对比法（GSB/SBS）
精准定位模型哪里有问题	评分法（1-5分）
事实性验证（对/错类型）	二值判断法
重要项目，需给领导汇报	混合策略（GSB + 评分法）

方法① — GSB对比法

标签	含义	计算处理
G - Good	模型A比模型B好	✅ 直接计入胜出
S - Same	两者一样好或一样坏	⚡ S ÷ 2（取平均）
B - Bad	模型A比模型B差	❌ 不计入胜出

📐 GSB 胜率公式：胜率 = ( G + S ÷ 2 ) ÷ 总样本数

方法① — SBS对比法（GSB升级版）

A更好	A好一些	一样好	一样差	B好一些	B更好
+2分	+1分	0分	0分	-1分	-2分

💡 GSB vs SBS核心区别：GSB的S不区分好坏要除以2；SBS已明确区分好坏，结果更精准。SBS比GSB多3个维度。

方法② — 评分法（1-5分制）

核心要求：每个分值后面必须有详细的规则解释！

分	判定标准	是否满意
5	完全正确，满足所有要求，表达完美	✅ 满意
4	基本正确，存在小瑕疵但不影响使用	✅ 满意
3	部分错误（错误<50%），人工稍改可用	⚠️ 勉强
2	存在明显问题，大量内容不符合要求	❌ 不满意
1	完全不满足要求，严重幻觉/事实错误	❌ 不满意

三种结果计算方式（组合使用！）

	计算方式	公式	用途
①	平均分法	所有分数之和 ÷ 总样本数	整体衡量模型质量
②	满意度占比	（4分+5分数量）÷ 总样本数	衡量用户满意比例
③	问题占比法	各类错误数量 ÷ 总样本数	精准定位：幻觉率/遗漏率/事实错误率

💡 评分维度数量控制：3-5个最佳！维度太多（10+条）会大幅提高理解成本。

方法③ — 二值判断法

✅ 优点

极简高效 / 结果明确无歧义 / 数据统计方便 / 适合大批量快速筛查

❌ 缺点

无法精准定位具体问题 / 只能告诉你有没有问题 / 不能指导针对性优化

第六部分 · 提升评测置信度的策略

混合评测策略

组合方式	谁看什么
GSB + 评分法	领导看 → GSB胜率结论（直观）算法看 → 评分法问题分析（精准）
二值判断 + 评分法	先二值快速过滤 → 再对剩余样本精细评分

双盲评测

安排2-3名独立评测人员，分别标注同一条数据，互不影响

结果一致 → 直接采纳
结果不一致 → 组织讨论，规则制定者的结论优先级更高

为什么有效：单人打分主观性强，多人独立评测消除个人偏差，整体置信度更高

评测规则设计

通用规则（所有项目都适用）

意图理解能力 / 可读性 / 事实性 / 全面性 / 逻辑性

专项规则（按项目单独制定）

根据项目背景单独制定，每个分值必须有判定标准

第七部分 · 评测报告撰写

🏥 评测报告 = 给模型做体检报告
告诉模型：哪里做得好 · 哪里有问题 · 下一版本该补什么营养
最终目的：给算法团队下一轮优化指明方向！

报告核心结构

顺序	模块	重要说明
①	评测基础信息	评测目的/日期/数据集/评测人员/评分标准
②	核心结论 ⭐最重要！	模型优点/缺点/与竞品差异/优化建议把数字结果翻译成文字结论
③	具体案例（证据）	Good case + Bad case，让算法认可你的结论

全版 vs 简化版

全面版

正常交付 / 重要项目
完整呈现：基础信息→各维度数据→结论→good/bad case

简化版

紧急交付 / 时间不够
结论前置！只保留核心结论+关键数字+典型case

🔧 实际工作技巧：不需要从零写！直接复用上一次的模板，稍微修改就能用。

第八部分 · 工业界真实案例（阿里通义）

文生图竞品GSB评测

项目要素	具体内容
评测目标	对比通义万相 vs 豆包/即梦/文心一言的文生图能力差距
评测对象	必须写清楚版本号！同一模型不同版本结果不通用！
评测维度	① 画面质量（0/0.5/1分）② 指令遵循（SBS 6级）
真实结论	⚠️ 如实输出！不能因为是自家模型就改排序，数据要真实可信

视频风格化评测集构建规范

构建规范	具体要求
规模	59种风格 × 每种3条 = 共177条
视频来源	B站/抖音/快手/小红书真实视频 ⚠️ 禁止选AI生成的视频！
视频规格	时长10秒以上，注意横竖屏尺寸
难度分层	简单/中等/困难三梯度均匀分配
难度四维度	① 镜头难度 ② 运动复杂度 ③ 光影复杂度 ④ 显著实体数量

🎯 面试速查卡

12大必背考点

Q: 模型评测的定义？

通过系统化、客观和全面的方法，对大语言模型的性能和质量进行量化和质化分析

Q: 什么时候做评测？

① 训练时（每完成SFT/RLHF/RM都要做）② 上线后（持续监控+Badcase处理）

Q: 评测集三大要求？

① 模型没见过 ② 多维度覆盖 ③ 不同难度均匀分配

Q: 评测集四大来源？

用户Query / 开源评测集 / Prompt构造 / 算法提供

Q: 评测数据量标准？

100~300条（通用）/ 约150条（一线互联网）/ 上限400条，不需要上万条

Q: GSB计算公式？

胜率 = (G + S ÷ 2) ÷ 总样本数 ← S除以2因为不知道里面好坏占比

Q: SBS六级分类？

A更好/A好一些/一样好/一样差/B好一些/B更好，可转化为+2/+1/0/0/-1/-2分

Q: 评分法三种计算？

① 平均分法 ② 满意度占比(4+5分) ③ 问题占比(幻觉/遗漏/事实错误)

Q: 评分维度数量？

控制在3-5个！太多会大幅增加理解成本，降低评测效率

Q: 评测报告三大模块？

① 基础信息 ② 核心结论（最重要！）③ 具体案例(good/bad case)

Q: 评测集多久更换？

定期更换！模型能力每月都在提升，用旧题测不出当前真实水平

Q: 标注流程vs评测流程最终交付物？

标注流程 → 交数据 / 评测流程 → 交评测报告

面试金句

「评测报告的本质就是给模型做体检，告诉它哪里好哪里不好，下一步该补什么营养。」

「评测集一定要定期更换，用小学题考高中生，测不出真实水平。」

「评测维度没有固定答案，只要符合项目需求就是对的。」

「实际工作不用从零构建文档，直接套模板改，大部分内容AI辅助写，没必要全手动敲。」

核心词汇速查

术语	解释
Badcase	用户反馈的模型错误案例。不能直接信！先自己复测
SFT	监督微调，模型训练核心阶段，数据量上万条
RLHF	基于人类反馈的强化学习
GSB	Good/Same/Bad 三级对比法。胜率=(G+S/2)/总量
SBS	Side-by-Side 六级精细化对比，比GSB多3个维度
RAG	检索增强生成，知识库功能的核心技术
COT	思维链，测逻辑推理过程是否合理