🔍 AI大模型评测 · 完整笔记
点击标签切换章节
第一部分 · 什么是模型评测?
官方定义(背下来!)
通过「系统化、客观和全面」的方法,对大语言模型的性能和质量进行量化和质化分析
💬 用大白话说就是:把同一个问题同时丢给不同模型对比,看哪个回答更好——你已经在做最简单的模型评测了!
三个关键词拆解
| 关键词 | 在模型评测里是什么 | 核心意义 |
| 系统化 | 提前设计评测框架,不能随便出题 | 结果才有代表性 |
| 客观 | 统一评分规则,不因人而异 | 可比较、可复现 |
| 全面 | 多维度覆盖,不能只测一种能力 | 不漏测关键短板 |
性能 vs 质量
⚡ 性能(硬件素质)
回答速度 / 理解能力 / 上下文记忆
基础保障,用户感知不明显
🎯 质量(核心竞争力)
内容准确性 / 逻辑合理性 / 语言流畅度
用户最在乎的!
💡 传统APP:用户体验 = 交互+视觉。生成式AI:用户体验 = 内容生成质量!这是根本区别。
第二部分 · 什么时候做评测?
SFT训练
→
内测评测
→
上线
→
公测评测
→
持续迭代优化
🔬 阶段一:训练时(内测)
每完成一轮训练就要做
目的:趁还没上线,发现问题及时止损
🌐 阶段二:上线后(公测)
持续监控稳定性和内容质量
收集用户反馈的 Badcase
⚠️ 用户反馈的Badcase,有时候是无中生有!一定要自己先复测一遍,确认模型真的有这个问题,再交给算法。
评测类别全览
按模态分类
| 模态类型 | 核心评测维度 |
| 📝 文本生成 | 语法自然度 / 逻辑推理 / 事实准确性 / 幻觉率 |
| 🖼️ 文生图 | 生成质量 / 风格符合度 / 指令遵循度 |
| 🎬 生成视频 | 主体一致性 / 画面连贯性 / 运动轨迹合理性 |
| 🔊 语音生成 | 清晰度 / 语调准确 / 音色一致 / 杂音占比 |
📌 评测维度没有固定标准答案,只要符合业务目标就是对的!面试被问到时这句话很加分。
第三部分 · 标准评测流程
需求承接
→
文档撰写
→
评测集构建
→
执行评测
→
撰写报告
→
交付算法
第一步:需求承接(5W2H框架)
本次评测目标是什么?(What)/ 为什么要做?(Why)/ 评测哪些模型?(Who)
数据类型?(What)/ 数据量?(How many)/ 排期时间?(When)/ 预算?(How much)
🔑 数据量行业标准(面试必答)
一般企业标准:100~300 条
一线互联网(如阿里):约 150 条
行业通用上限:不超过 400 条
第二步:评测需求文档结构
| 文档模块 | 重点说明 |
| 评测背景与目标 | 从需求方沟通中提炼,去掉废话留精华 |
| 评测对象说明 ★重要 | 必须写版本号!同一模型不同版本的结果不通用! |
| 评测方案 ★最核心 | 评测集+评测方法+标注方式,这是文档的灵魂 |
| 规则维度标注要求 | 每个分值必须有详细说明 |
第四部分 · 评测集构建
三大核心要求(铁律)
| 要求 | 考试类比/记忆口诀 |
| ① | 模型没见过(陌生) | 考试不出讲过的原题,只出变形题 |
| ② | 多维度覆盖 | 语数英史地生都要考,不能只测一种 |
| ③ | 不同难度均匀分配 | 简单/中等/困难三梯度均匀分布 |
四大来源
| 来源 | 优缺点 | 适用条件 |
| ① 用户Query(打捞) | ✅ 最真实 ❌ 需要筛选 | 公司有产品且有用户量 |
| ② 开源评测集 | ✅ 省时省力 ❌ 需判断适用性 | 有合适的现成数据 |
| ③ Prompt构造 | ✅ 没有数据时救命 ❌ 需设计规则 | 无用户数据也无合适开源集 |
| ④ 算法直接提供 | ✅ 最省力 ❌ 很少发生 | 算法团队主动提供 |
Prompt构造法步骤
① 明确评测目标
→
② 设计生成规则
→
③ 让LLM生成Excel
→
④ 投喂多个模型对比
⚠️ 重要:评测集一定要定期收集和更换!模型能力每个月都在提升,旧题就像用小学题考高中生——白测!
第五部分 · 三种评测方法
方法选择决策树
| 评测需求 | 推荐方法 |
| 快速判断哪个模型更好 | 对比法(GSB/SBS) |
| 精准定位模型哪里有问题 | 评分法(1-5分) |
| 事实性验证(对/错类型) | 二值判断法 |
| 重要项目,需给领导汇报 | 混合策略(GSB + 评分法) |
方法① — GSB对比法
| 标签 | 含义 | 计算处理 |
| G - Good | 模型A比模型B好 | ✅ 直接计入胜出 |
| S - Same | 两者一样好或一样坏 | ⚡ S ÷ 2(取平均) |
| B - Bad | 模型A比模型B差 | ❌ 不计入胜出 |
📐 GSB 胜率公式:胜率 = ( G + S ÷ 2 ) ÷ 总样本数
方法① — SBS对比法(GSB升级版)
| A更好 | A好一些 | 一样好 | 一样差 | B好一些 | B更好 |
| +2分 | +1分 | 0分 | 0分 | -1分 | -2分 |
💡 GSB vs SBS核心区别:GSB的S不区分好坏要除以2;SBS已明确区分好坏,结果更精准。SBS比GSB多3个维度。
方法② — 评分法(1-5分制)
核心要求:每个分值后面必须有详细的规则解释!
| 分 | 判定标准 | 是否满意 |
| 5 | 完全正确,满足所有要求,表达完美 | ✅ 满意 |
| 4 | 基本正确,存在小瑕疵但不影响使用 | ✅ 满意 |
| 3 | 部分错误(错误<50%),人工稍改可用 | ⚠️ 勉强 |
| 2 | 存在明显问题,大量内容不符合要求 | ❌ 不满意 |
| 1 | 完全不满足要求,严重幻觉/事实错误 | ❌ 不满意 |
三种结果计算方式(组合使用!)
| 计算方式 | 公式 | 用途 |
| ① | 平均分法 | 所有分数之和 ÷ 总样本数 | 整体衡量模型质量 |
| ② | 满意度占比 | (4分+5分数量)÷ 总样本数 | 衡量用户满意比例 |
| ③ | 问题占比法 | 各类错误数量 ÷ 总样本数 | 精准定位:幻觉率/遗漏率/事实错误率 |
💡 评分维度数量控制:3-5个最佳!维度太多(10+条)会大幅提高理解成本。
方法③ — 二值判断法
✅ 优点
极简高效 / 结果明确无歧义 / 数据统计方便 / 适合大批量快速筛查
❌ 缺点
无法精准定位具体问题 / 只能告诉你有没有问题 / 不能指导针对性优化
第六部分 · 提升评测置信度的策略
混合评测策略
| 组合方式 | 谁看什么 |
| GSB + 评分法 | 领导看 → GSB胜率结论(直观) 算法看 → 评分法问题分析(精准) |
| 二值判断 + 评分法 | 先二值快速过滤 → 再对剩余样本精细评分 |
双盲评测
安排2-3名独立评测人员,分别标注同一条数据,互不影响
结果一致 → 直接采纳
结果不一致 → 组织讨论,规则制定者的结论优先级更高
为什么有效:单人打分主观性强,多人独立评测消除个人偏差,整体置信度更高
评测规则设计
通用规则(所有项目都适用)
意图理解能力 / 可读性 / 事实性 / 全面性 / 逻辑性
专项规则(按项目单独制定)
根据项目背景单独制定,每个分值必须有判定标准
第七部分 · 评测报告撰写
🏥 评测报告 = 给模型做体检报告
告诉模型:哪里做得好 · 哪里有问题 · 下一版本该补什么营养
最终目的:给算法团队下一轮优化指明方向!
报告核心结构
| 顺序 | 模块 | 重要说明 |
| ① | 评测基础信息 | 评测目的/日期/数据集/评测人员/评分标准 |
| ② | 核心结论 ⭐最重要! | 模型优点/缺点/与竞品差异/优化建议 把数字结果翻译成文字结论 |
| ③ | 具体案例(证据) | Good case + Bad case,让算法认可你的结论 |
全版 vs 简化版
全面版
正常交付 / 重要项目
完整呈现:基础信息→各维度数据→结论→good/bad case
简化版
紧急交付 / 时间不够
结论前置!只保留核心结论+关键数字+典型case
🔧 实际工作技巧:不需要从零写!直接复用上一次的模板,稍微修改就能用。
第八部分 · 工业界真实案例(阿里通义)
文生图竞品GSB评测
| 项目要素 | 具体内容 |
| 评测目标 | 对比通义万相 vs 豆包/即梦/文心一言的文生图能力差距 |
| 评测对象 | 必须写清楚版本号!同一模型不同版本结果不通用! |
| 评测维度 | ① 画面质量(0/0.5/1分)② 指令遵循(SBS 6级) |
| 真实结论 | ⚠️ 如实输出!不能因为是自家模型就改排序,数据要真实可信 |
视频风格化评测集构建规范
| 构建规范 | 具体要求 |
| 规模 | 59种风格 × 每种3条 = 共177条 |
| 视频来源 | B站/抖音/快手/小红书真实视频 ⚠️ 禁止选AI生成的视频! |
| 视频规格 | 时长10秒以上,注意横竖屏尺寸 |
| 难度分层 | 简单/中等/困难三梯度均匀分配 |
| 难度四维度 | ① 镜头难度 ② 运动复杂度 ③ 光影复杂度 ④ 显著实体数量 |
🎯 面试速查卡
12大必背考点
Q: 模型评测的定义?
通过系统化、客观和全面的方法,对大语言模型的性能和质量进行量化和质化分析
Q: 什么时候做评测?
① 训练时(每完成SFT/RLHF/RM都要做)② 上线后(持续监控+Badcase处理)
Q: 评测集三大要求?
① 模型没见过 ② 多维度覆盖 ③ 不同难度均匀分配
Q: 评测集四大来源?
用户Query / 开源评测集 / Prompt构造 / 算法提供
Q: 评测数据量标准?
100~300条(通用)/ 约150条(一线互联网)/ 上限400条,不需要上万条
Q: GSB计算公式?
胜率 = (G + S ÷ 2) ÷ 总样本数 ← S除以2因为不知道里面好坏占比
Q: SBS六级分类?
A更好/A好一些/一样好/一样差/B好一些/B更好,可转化为+2/+1/0/0/-1/-2分
Q: 评分法三种计算?
① 平均分法 ② 满意度占比(4+5分) ③ 问题占比(幻觉/遗漏/事实错误)
Q: 评分维度数量?
控制在3-5个!太多会大幅增加理解成本,降低评测效率
Q: 评测报告三大模块?
① 基础信息 ② 核心结论(最重要!)③ 具体案例(good/bad case)
Q: 评测集多久更换?
定期更换!模型能力每月都在提升,用旧题测不出当前真实水平
Q: 标注流程vs评测流程最终交付物?
标注流程 → 交数据 / 评测流程 → 交评测报告
面试金句
「评测报告的本质就是给模型做体检,告诉它哪里好哪里不好,下一步该补什么营养。」
「评测集一定要定期更换,用小学题考高中生,测不出真实水平。」
「评测维度没有固定答案,只要符合项目需求就是对的。」
「实际工作不用从零构建文档,直接套模板改,大部分内容AI辅助写,没必要全手动敲。」
核心词汇速查
| 术语 | 解释 |
| Badcase | 用户反馈的模型错误案例。不能直接信!先自己复测 |
| SFT | 监督微调,模型训练核心阶段,数据量上万条 |
| RLHF | 基于人类反馈的强化学习 |
| GSB | Good/Same/Bad 三级对比法。胜率=(G+S/2)/总量 |
| SBS | Side-by-Side 六级精细化对比,比GSB多3个维度 |
| RAG | 检索增强生成,知识库功能的核心技术 |
| COT | 思维链,测逻辑推理过程是否合理 |