返回笔记列表

🔍 AI大模型评测 · 完整笔记

点击标签切换章节

第一部分 · 什么是模型评测?

官方定义(背下来!)
通过「系统化、客观和全面」的方法,对大语言模型的性能和质量进行量化和质化分析
💬 用大白话说就是:把同一个问题同时丢给不同模型对比,看哪个回答更好——你已经在做最简单的模型评测了!

三个关键词拆解

关键词在模型评测里是什么核心意义
系统化提前设计评测框架,不能随便出题结果才有代表性
客观统一评分规则,不因人而异可比较、可复现
全面多维度覆盖,不能只测一种能力不漏测关键短板

性能 vs 质量

⚡ 性能(硬件素质)
回答速度 / 理解能力 / 上下文记忆
基础保障,用户感知不明显
🎯 质量(核心竞争力)
内容准确性 / 逻辑合理性 / 语言流畅度
用户最在乎的!
💡 传统APP:用户体验 = 交互+视觉。生成式AI:用户体验 = 内容生成质量!这是根本区别。

第二部分 · 什么时候做评测?

SFT训练
内测评测
上线
公测评测
持续迭代优化
🔬 阶段一:训练时(内测)
每完成一轮训练就要做
目的:趁还没上线,发现问题及时止损
🌐 阶段二:上线后(公测)
持续监控稳定性和内容质量
收集用户反馈的 Badcase
⚠️ 用户反馈的Badcase,有时候是无中生有!一定要自己先复测一遍,确认模型真的有这个问题,再交给算法。

评测类别全览

按模态分类

模态类型核心评测维度
📝 文本生成语法自然度 / 逻辑推理 / 事实准确性 / 幻觉率
🖼️ 文生图生成质量 / 风格符合度 / 指令遵循度
🎬 生成视频主体一致性 / 画面连贯性 / 运动轨迹合理性
🔊 语音生成清晰度 / 语调准确 / 音色一致 / 杂音占比
📌 评测维度没有固定标准答案,只要符合业务目标就是对的!面试被问到时这句话很加分。

第三部分 · 标准评测流程

需求承接
文档撰写
评测集构建
执行评测
撰写报告
交付算法

第一步:需求承接(5W2H框架)

本次评测目标是什么?(What)/ 为什么要做?(Why)/ 评测哪些模型?(Who)
数据类型?(What)/ 数据量?(How many)/ 排期时间?(When)/ 预算?(How much)
🔑 数据量行业标准(面试必答)
一般企业标准:100~300 条
一线互联网(如阿里):约 150 条
行业通用上限:不超过 400 条

第二步:评测需求文档结构

文档模块重点说明
评测背景与目标从需求方沟通中提炼,去掉废话留精华
评测对象说明 ★重要必须写版本号!同一模型不同版本的结果不通用!
评测方案 ★最核心评测集+评测方法+标注方式,这是文档的灵魂
规则维度标注要求每个分值必须有详细说明

第四部分 · 评测集构建

三大核心要求(铁律)

要求考试类比/记忆口诀
模型没见过(陌生)考试不出讲过的原题,只出变形题
多维度覆盖语数英史地生都要考,不能只测一种
不同难度均匀分配简单/中等/困难三梯度均匀分布

四大来源

来源优缺点适用条件
① 用户Query(打捞)✅ 最真实 ❌ 需要筛选公司有产品且有用户量
② 开源评测集✅ 省时省力 ❌ 需判断适用性有合适的现成数据
③ Prompt构造✅ 没有数据时救命 ❌ 需设计规则无用户数据也无合适开源集
④ 算法直接提供✅ 最省力 ❌ 很少发生算法团队主动提供

Prompt构造法步骤

① 明确评测目标
② 设计生成规则
③ 让LLM生成Excel
④ 投喂多个模型对比
⚠️ 重要:评测集一定要定期收集和更换!模型能力每个月都在提升,旧题就像用小学题考高中生——白测!

第五部分 · 三种评测方法

方法选择决策树

评测需求推荐方法
快速判断哪个模型更好对比法(GSB/SBS)
精准定位模型哪里有问题评分法(1-5分)
事实性验证(对/错类型)二值判断法
重要项目,需给领导汇报混合策略(GSB + 评分法)

方法① — GSB对比法

标签含义计算处理
G - Good模型A比模型B好✅ 直接计入胜出
S - Same两者一样好或一样坏⚡ S ÷ 2(取平均)
B - Bad模型A比模型B差❌ 不计入胜出
📐 GSB 胜率公式:胜率 = ( G + S ÷ 2 ) ÷ 总样本数

方法① — SBS对比法(GSB升级版)

A更好A好一些一样好一样差B好一些B更好
+2分+1分0分0分-1分-2分
💡 GSB vs SBS核心区别:GSB的S不区分好坏要除以2;SBS已明确区分好坏,结果更精准。SBS比GSB多3个维度。

方法② — 评分法(1-5分制)

核心要求:每个分值后面必须有详细的规则解释!
判定标准是否满意
5完全正确,满足所有要求,表达完美✅ 满意
4基本正确,存在小瑕疵但不影响使用✅ 满意
3部分错误(错误<50%),人工稍改可用⚠️ 勉强
2存在明显问题,大量内容不符合要求❌ 不满意
1完全不满足要求,严重幻觉/事实错误❌ 不满意

三种结果计算方式(组合使用!)

计算方式公式用途
平均分法所有分数之和 ÷ 总样本数整体衡量模型质量
满意度占比(4分+5分数量)÷ 总样本数衡量用户满意比例
问题占比法各类错误数量 ÷ 总样本数精准定位:幻觉率/遗漏率/事实错误率
💡 评分维度数量控制:3-5个最佳!维度太多(10+条)会大幅提高理解成本。

方法③ — 二值判断法

✅ 优点
极简高效 / 结果明确无歧义 / 数据统计方便 / 适合大批量快速筛查
❌ 缺点
无法精准定位具体问题 / 只能告诉你有没有问题 / 不能指导针对性优化

第六部分 · 提升评测置信度的策略

混合评测策略

组合方式谁看什么
GSB + 评分法领导看 → GSB胜率结论(直观)
算法看 → 评分法问题分析(精准)
二值判断 + 评分法先二值快速过滤 → 再对剩余样本精细评分

双盲评测

安排2-3名独立评测人员,分别标注同一条数据,互不影响

结果一致 → 直接采纳
结果不一致 → 组织讨论,规则制定者的结论优先级更高

为什么有效:单人打分主观性强,多人独立评测消除个人偏差,整体置信度更高

评测规则设计

通用规则(所有项目都适用)
意图理解能力 / 可读性 / 事实性 / 全面性 / 逻辑性
专项规则(按项目单独制定)
根据项目背景单独制定,每个分值必须有判定标准

第七部分 · 评测报告撰写

🏥 评测报告 = 给模型做体检报告
告诉模型:哪里做得好 · 哪里有问题 · 下一版本该补什么营养
最终目的:给算法团队下一轮优化指明方向!

报告核心结构

顺序模块重要说明
评测基础信息评测目的/日期/数据集/评测人员/评分标准
核心结论 ⭐最重要!模型优点/缺点/与竞品差异/优化建议
把数字结果翻译成文字结论
具体案例(证据)Good case + Bad case,让算法认可你的结论

全版 vs 简化版

全面版
正常交付 / 重要项目
完整呈现:基础信息→各维度数据→结论→good/bad case
简化版
紧急交付 / 时间不够
结论前置!只保留核心结论+关键数字+典型case
🔧 实际工作技巧:不需要从零写!直接复用上一次的模板,稍微修改就能用。

第八部分 · 工业界真实案例(阿里通义)

文生图竞品GSB评测

项目要素具体内容
评测目标对比通义万相 vs 豆包/即梦/文心一言的文生图能力差距
评测对象必须写清楚版本号!同一模型不同版本结果不通用!
评测维度① 画面质量(0/0.5/1分)② 指令遵循(SBS 6级)
真实结论⚠️ 如实输出!不能因为是自家模型就改排序,数据要真实可信

视频风格化评测集构建规范

构建规范具体要求
规模59种风格 × 每种3条 = 共177条
视频来源B站/抖音/快手/小红书真实视频 ⚠️ 禁止选AI生成的视频!
视频规格时长10秒以上,注意横竖屏尺寸
难度分层简单/中等/困难三梯度均匀分配
难度四维度① 镜头难度 ② 运动复杂度 ③ 光影复杂度 ④ 显著实体数量

🎯 面试速查卡

12大必背考点
Q: 模型评测的定义?
通过系统化、客观和全面的方法,对大语言模型的性能和质量进行量化和质化分析
Q: 什么时候做评测?
① 训练时(每完成SFT/RLHF/RM都要做)② 上线后(持续监控+Badcase处理)
Q: 评测集三大要求?
① 模型没见过 ② 多维度覆盖 ③ 不同难度均匀分配
Q: 评测集四大来源?
用户Query / 开源评测集 / Prompt构造 / 算法提供
Q: 评测数据量标准?
100~300条(通用)/ 约150条(一线互联网)/ 上限400条,不需要上万条
Q: GSB计算公式?
胜率 = (G + S ÷ 2) ÷ 总样本数 ← S除以2因为不知道里面好坏占比
Q: SBS六级分类?
A更好/A好一些/一样好/一样差/B好一些/B更好,可转化为+2/+1/0/0/-1/-2分
Q: 评分法三种计算?
① 平均分法 ② 满意度占比(4+5分) ③ 问题占比(幻觉/遗漏/事实错误)
Q: 评分维度数量?
控制在3-5个!太多会大幅增加理解成本,降低评测效率
Q: 评测报告三大模块?
① 基础信息 ② 核心结论(最重要!)③ 具体案例(good/bad case)
Q: 评测集多久更换?
定期更换!模型能力每月都在提升,用旧题测不出当前真实水平
Q: 标注流程vs评测流程最终交付物?
标注流程 → 交数据 / 评测流程 → 交评测报告
面试金句
「评测报告的本质就是给模型做体检,告诉它哪里好哪里不好,下一步该补什么营养。」
「评测集一定要定期更换,用小学题考高中生,测不出真实水平。」
「评测维度没有固定答案,只要符合项目需求就是对的。」
「实际工作不用从零构建文档,直接套模板改,大部分内容AI辅助写,没必要全手动敲。」
核心词汇速查
术语解释
Badcase用户反馈的模型错误案例。不能直接信!先自己复测
SFT监督微调,模型训练核心阶段,数据量上万条
RLHF基于人类反馈的强化学习
GSBGood/Same/Bad 三级对比法。胜率=(G+S/2)/总量
SBSSide-by-Side 六级精细化对比,比GSB多3个维度
RAG检索增强生成,知识库功能的核心技术
COT思维链,测逻辑推理过程是否合理