🎨 多模态AI数据标注 · 完整笔记
点击标签切换章节
第一章 · 多模态AI基础
官方定义:多模态(Multi-modality)是集成和处理两种或两种以上不同类型信息数据的技术方法。
⚡ 记忆口诀:只要整合「两种及以上」信息形态 = 多模态!OCR 也属于多模态!
多模态 vs 单模态
| 维度 | 🌈 多模态AI | ⚪ 单模态AI |
| 输入 | 同时输入文本+图像+语音等多类型数据 | 仅输入单一模态数据 |
| 输出 | 融合结果(如带有旁白的视频) | 对应单一任务结果 |
| 典型示例 | 输入描述文字,生成对应视频内容 | 文本做翻译、图像目标检测 |
| 核心优势 | 综合多模态信息,实现跨领域复杂任务 | 专注特定领域,单任务效率高 |
多模态五大核心优势
① 更接近人类认知 → ② 更丰富的数据维度 → ③ 更广泛的应用场景 → ④ 提升AI系统整体能力 → ⑤ 通向通用人工智能(AGI)
模态交互类型
| 模态组合 | 代表产品/场景 | 方向 |
| 📝 文本 + 🖼 图片 | DALL·E、Stable Diffusion | → 文生图 |
| 📝 文本 + 🎬 视频 | Sora | → 文生视频 |
| 📝 文本 + 🔊 语音 | TTS系统、音色克隆 | → 文生语音 |
| 🖼 图片 + 🎬 视频 | 图生视频系统 | → 图片生视频 |
VLA架构 — 多模态典型应用
👁 V = Vision 视觉感知
→
🧠 L = LLM 理解决策
→
⚡ A = Action 动作执行
自动驾驶分级必背:L1/L2 需人类参与 → L3 不需操作但需监管 → L4 完全不需要人类干预 ✅
第二章 · AI生图扩散模型技术原理
生成模型三代演进
| 代际 | 模型 | 状态 |
| 第一代 | GAN 生成对抗网络:双模型博弈 | ❌ 已淘汰 |
| 第二代 | 自回归生成模型:图像拆分像素块逐块预测 | ⚠️ 效果有限 |
| 第三代 | 扩散模型 Diffusion Model:从纯噪声逐步去除噪声 | ✅ 当前主流 |
💧 扩散模型名称由来:如同把墨水滴入水中慢慢「扩散」——是这个过程的逆向操作:从混沌(噪声)恢复清晰(图像)。
扩散模型三步核心流程
Step1 CLIP
文本-图像语义对齐
→
Step2 U-Net
扩散降噪生成
→
Step3 VAE
解码放大输出
三种降噪方式
| 降噪方式 | 核心思路 | 说明 |
| ① 预测噪声均值 | 预测需要减去多少噪声的「均值」 | 最早期方法,DDPM采用 |
| ② 直接生成原始图像 | 直接预测最终目标图像 | 训练难度大 |
| ③ 预测噪声差值 | 预测噪声图与目标图像的「差值」 | 现代主流方案,效果最稳定 |
🔄 正向 vs 反向口诀:正向训练 = 往真实图像里「加噪声」→ 反向生成 = 从雪花屏出发一步步「减噪声」
第三章 · 文生图项目实战
项目完整流程
🔍 ① 数据筛选
→
🗂 ② 数据分类
→
✏️ ③ Caption描述
→
🤖 ④ 模型训练
→
📊 ⑤ 数据评测
核心原则:想让模型生成什么内容,就投喂什么内容的训练数据!
图片基础质量筛选规则(7条铁律)
| 序号 | 规则类型 | 判断标准 | 处理 |
| 1 | 🚨 安全性违规 | 含血腥/暴力/涉政/违法内容 | 直接跳过 |
| 2 | 💧 明显水印 | 超过画面5%面积的水印 | 跳过 |
| 3 | 📐 画面异常 | 带黑白边框/明显截图内容 | 直接跳过 |
| 4 | 🔲 多图违规 | 多图拼贴/图中图/手机截屏 | 直接跳过 |
| 5 | 🌫 图片模糊 | 清晰度低,边缘锯齿状 | 直接跳过 |
| 6 | ☀️ 曝光异常 | 过曝(太白)或过暗(太黑) | 直接跳过 |
| 7 | 🎭 无美感/构图 | 随机拍摄,无美感无合理构图 | 直接跳过 |
| ✓ | 🤖 AI生成图片 | 优质图片无论是否AI生成 | ✅ 可以使用 |
Caption数据描述框架
📷 内容层(肉眼可见)
描述画面中所有可见元素:人物主体、背景、细节
🎨 艺术层(艺术特征)
描述色相、饱和度、构图方式等艺术元素
Prompt扩写项目
「生成一只猫」→「一只白色布偶猫,在温馨卧室,整体偏暖色,左侧逆光,高饱和度,宫崎骏动画风格」
判断扩写好坏:用原始Prompt生图 vs 扩写后生图,哪个更好 = 扩写有效!
第四章 · AI图像训练项目标注规则
💼 「标签挂载」= 行业通用专业黑话,面试中使用大幅提升专业感!
① 色调标签
| 标签 | 颜色范围 | 🎯 判定口诀 |
| 🌅 暖色调 | 红、橙、黄及变体 | 偏红/橙/黄 = 暖 |
| 🌊 冷色调 | 蓝、绿、紫及变体 | 偏蓝/绿/紫 = 冷 |
| 🌫 低饱和度 | 色彩柔和、对比度低 | 灰不拉几、不刺眼 = 低饱和 |
| ✨ 高饱和度 | 色彩鲜艳、对比度高 | 看起来刺眼 = 高饱和 |
② 角度标签
| 标签 | 拍摄方式 | 记忆联想 |
| 📷 平拍 | 与主体处于同一平行高度 | =人正常看东西 |
| ⬆ 仰拍 | 从下向上拍摄 | =仰望英雄 |
| ⬇ 俯拍 | 从上向下拍摄 | =上帝视角 |
③ 构图标签(允许多选!)
| 构图类型 | 判定规则 |
| ↔ 对称构图 | 画面整体左右对称 |
| ⟺ 三分线构图 | 海/地平线沿三分线分布 |
| ✦ 三分点构图 | 主体位于三分线交点处 |
| ⊙ 中心构图 | 主体放置在画面正中心 |
| ╲ 对角线构图 | 左上到右下/左下到右上的对角线趋势 |
| — 水平线构图 | 存在海平线、地平线等水平分割线 |
④ 景别标签
| 景别 | 展示范围 | 记忆方法 |
| 🏔 大远景 | 整座山/整片建筑群,人物极小 | 小蚂蚁一样 |
| 🌄 远景 | 人物仅为轮廓,以环境为主 | 能看出是人但很小 |
| 🧍 全景 | 展示人物全身 | 全身照 |
| 👔 中景 | 展示膝盖及以上 | 半身照 |
| 👤 近景 | 展示胸部以上 | 证件照感 |
| 👁 特写 | 仅眼睛/手/嘴巴等局部细节 | 眼睛的特写 |
⑤ 光影标签
| 维度 | 子类 | 判定方法 |
| 光源类型 | ☀️ 自然光 | 太阳光等自然界光源 |
| 光源类型 | 💡 人造光 | 室内灯光;赛博朋克=典型人造光 |
| 光质 | 🔆 硬光 | 明暗交界线锐利清晰 → 硬光 |
| 光质 | 🌤 软光 | 明暗交界线柔和有过渡 → 软光 |
🎯 光位方向争议考点(高频面试题):
一般光位 → 以观察者(标注者)看到的左右为准
人物器官(左眼/右手等)→ 以被拍摄人物自身左右为准(与观察者方向完全相反!)
第五章 · AI图文视频数据标注规则
图片描述标准框架(必背!)
【主体描述】 + 【修饰词】 + 【细节补充】 + 【风格/艺术形式】
| 模块 | 核心要求 | 示例 |
| ① 主体描述 | 明确核心主体+场景,禁止模糊词汇 | ✅ 一位舞者在沙漠中央 ❌ 人在跳舞 |
| ② 修饰词 | 装饰元素/衣服/表情/动作/材质质感 | 柔软棉质粉色上衣、灿烂笑容 |
| ③ 细节补充 | 构图/色彩/光影/特殊效果 | 三角构图、暖色调、左上侧光 |
| ④ 风格/艺术形式 | 艺术流派或技术参数 | 现代商业摄影 / 3D渲染/8K |
人机协同标注方案
🚀 核心流程:大模型预生成描述 → 人工校验改写补充
📊 效率:人工单条≈20~30分钟 → 人机协同后≈5~6分钟(效率提升约5倍!)
视频标注:低质量判断规则(视频独有)
| 序号 | 规则 | 类型 |
| 1-6 | 安全/水印/画面/模糊/曝光/美感(同图片规则) | 图片规则共用 |
| 7 | ⚡ 视频不流畅:掉帧/卡顿/静止/频繁切换镜头 | 视频独有! |
| 8 | ⚡ 全为文字:只有文字内容,无实际画面 | 视频独有! |
视频描述新增3个维度
| 新增维度 | 说明 |
| ⚡ 前后帧一致性 | 人物身份/物体属性在不同帧是否保持一致 |
| ⚡ 物理常识正确性 | 内容是否符合现实物理规律与空间逻辑 |
| ⚡ 镜头运动标注 | 标注镜头类型:推拉摇移/平移/跟镜头/升降 |
第六章 · 多模态VLM项目
VLM = Vision Language Model(视觉语言模型)
让模型从图像/音频/视频等多源输入中提取信息,将视觉信息转化为文本输出。
✅ 特点:门槛低、应用广,是当前求职热门项目方向!
STEP 01 — 数据有效性判断(6种无效情况)
| 序号 | 无效原因 | 具体情况 |
| 1 | 🖼 图片质量问题 | 无图片/图片过于模糊 |
| 2 | 🤖 模型能力边界 | 要求编辑图片/发布内容到社交平台 |
| 3 | 🎰 预测类限制 | 赌博/彩票/股票趋势等无规律预测 |
| 4 | ❓ 无关联内容 | 提问与图片内容完全无关 |
| 5 | 🚫 敏感内容 | 色情/暴力/政治敏感等违规内容 |
| 6 | 📐 专业领域限制 | 极高难度数学/物理/代码/金融题 |
STEP 02 — 答案正确性判断(4种错误类型)
🎯 唯一准则:将模型回复修改至「正确、较完美」即可,没有额外复杂规则!
| 错误类型 | 处理方式 |
| 🖼 图片信息描述错误 | 改写为准确的图片内容描述 |
| ✍ 内容质量问题(错别字/逻辑不通) | 校对修正文字质量 |
| ❌ 答案错误 | 查阅资料改写为正确答案 |
| 📋 格式错误 | 重新格式化,提升可读性 |
第七章 · 语音识别(ASR)项目
ASR
Automatic Speech Recognition语音→文字
智能客服/车载语音/视频字幕
TTS
Text-to-Speech文字→语音
音色克隆/AI配音/有声书
🎯 ASR精度标准(必背!)
训练集:字准 ≥ 97%
测试集:字准 ≥ 99% / 句准 ≥ 95%
ASR有效性判断(10种无效情况)
| 无效类别 | 判定标准 |
| ❌ 无音频 | 文件中没有任何音频内容 |
| 📢 噪声太大 | 背景噪声影响主体发音识别 |
| 🔇 发音模糊 | 听不清楚内容,无法识别 |
| 🗣 无法识别的方言 | 包含项目范围外的方言 |
| 👥 多人同时讲话 | 声音重叠,无法分辨 |
| ✂️ 音频不完整 | 说到一半断掉,内容不完整 |
| 🌍 包含小语种 | 出现非目标语言的小语种 |
| 😂 仅非语音事件 | 只有大笑/咳嗽/哭声,无语言内容 |
| 🤖 人工合成/电子音 | 非真人发音 |
| 🎵 混合背景音 | 人声+音乐/其他背景音同时存在 |
ASR准确转写规则(11条)
❗ 最重要铁律:不允许添加任何标点符号!!!
| 序号 | 规则 | 示例/说明 |
| 1 | 听到什么标注什么,不省略不增删 | 重复内容原样保留 |
| 2 | ❌ 不允许添加任何标点符号 | 包括逗号/句号/感叹号/问号 |
| 3 | 语气词使用带口字旁的汉字 | 啊/呢/呀/哦/嗯 |
| 4 | 人名/地名/专有名词需核对正确性 | 华谊(不是华宜) |
| 5 | 网络用语按实际发音转写为汉字 | 灰常=非常 / 童鞋=同学 |
| 6 | 数字按照发音转写为汉字 | 1341639 → 幺三四幺六三九 |
| 7 | 英文全部转为大写 | app → APP / iPhone → IPHONE |
| 8 | 网址/专业名词按发音如实转写 | http → HTTP冒号双斜杠WWW点 |
| 9 | 儿化音需要添加儿字 | 花儿 / 头儿 / 标签儿 |
| 10 | 拟声词需要如实转写 | 风刮得呼呼的 / 嘭的一声 |
| 11 | 多义词结合上下文判断 | 五月(月份)vs 五月(人名) |
第八章 · 文本转语音(TTS)项目
🔥 重要:未经精细标注的数据会导致超过30%的合成语音不自然!标注精细度直接决定合成效果!
TTS拼音标注规则
| 规则 | 说明 |
| 逐字校正拼音 | 错误拼音需标红改写,多音字结合语境确定读音 |
| ü 用 v 代替 | 女 → nv3 / 鱼 → yv2 / 韵律 → yv4nv4 |
| 声调标注方式 | 拼音后标数字:1=一声 / 2=二声 / 3=三声 / 4=四声 |
轻声规则(标记为5)
| 轻声场景 | 示例 |
| 🔁 叠词的第二个字 | 妈妈(ma1 ma5) / 哥哥 / 宝宝 |
| 💬 句尾语气助词 | 行吗(ma5) / 好吗 / 了 / 着 |
| 📝 名词代词后缀(子/头) | 石头(tou5) / 儿子(zi5) |
| 👁 人体部位名词第二字 | 鼻子(zi5) / 耳朵(duo5) |
| 📍 名词后方向词 | 墙上(shang5) / 左边 |
| 🏃 动词趋势补语 | 拿来(lai5) / 坐下(xia5) |
三三变调规则(标记为6)★★★
核心规则:连续两个三声,第一个三声变调为二声,变调后标记为「6」
例:你好(ni6 hao3) / 雨伞(yu6 san3) / 演讲稿(yan6 jiang6 gao3)
| 结构类型 | 规则 | 示例 |
| 单音节 + 双音节 | 双音节第一个三声变二声,标6 | 打(da3) 雨(yu6) 伞(san3) |
| 双音节 + 单音节 | 前两个三声都变二声,都标6 | 演(yan6) 讲(jiang6) 稿(gao3) |
| 单+单+单音节 | 前两个三声都变二声,都标6 | 你(ni6) 打(da6) 我(wo3) |
TTS声调体系总览
| 数字标记 | 含义 | 典型场景 |
| 1~4 | 一到四声 | 普通声调字 |
| 5 | 轻声 | 叠词第二字/语气助词/名词后缀等 |
| 6 | 变调后的三声(必考!) | 三三变调中第一个三声:雨yu6 / 你ni6 |
第九章 · 评测项目与求职建议
评测项目安排
评测 = 模型的「考试」:投喂优质数据训练后,必须进行评测。某类效果不合格 → 针对性补充数据 → 重新训练(循环迭代)
| 评测类型 | 触发时机 | 说明 |
| 小版本评测 | 每次小版本迭代后 | 快速验证改动效果,定向找短板 |
| 大版本评测 | 大版本更新后 | 全面评测各维度能力 |
| 上线前评测 | 产品正式上线前 | 确保质量达标,避免线上事故 |
| 上线后评测 | 产品上线后持续监控 | 发现新问题,持续优化 |
行业求职建议
| 项目方向 | 门槛 | 优势条件 | 就业前景 |
| VLM图像理解 | 低 | 所有专业背景均可 | 热门,适合作为面试项目 |
| ASR语音识别 | 中 | 有音乐基础/耳朵好/有方言 | 需求大,大厂大力招聘 |
| TTS文本转语音 | 中高 | 语言学/音乐/播音背景 | 音色克隆方向前景好 |
| 方言标注 | 低 | 有特定方言(粤/川/豫等) | 非常紧缺,竞争少 |
| 小语种标注 | 高 | 掌握小语种(日韩法德等) | 单价高,需求持续增长 |
| 3D标注 | 中高 | 有3D建模/动画背景 | 新兴领域,竞争较少 |
⚡ 终极速查表
多模态核心考点
| 考点 | 核心内容 |
| 多模态定义 | 整合两种及以上信息形态 = 多模态。OCR也属于多模态! |
| 扩散模型三步 | CLIP(对齐)→ U-Net(去噪)→ VAE(放大) |
| 三种降噪方式 | ①预测噪声均值 ②直接生成原始图像 ③预测噪声差值(现代主流) |
| VLA架构 | V视觉感知 → L大模型决策 → A动作执行 |
| L4自动驾驶 | 完全不需要人类干预 |
图像标签速查
| 标签类别 | 快速判定口诀 |
| 色调 | 刺眼=高饱和 / 灰调=低饱和 / 偏红橙黄=暖 / 偏蓝绿紫=冷 |
| 角度 | 与主体平行=平 / 从下往上=仰 / 从上往下=俯 |
| 构图 | 可多选!主体在中=中心构图 |
| 景别 | 全身=全景 / 膝盖以上=中景 / 胸以上=近景 / 局部=特写 |
| 光影 | 明暗交界线锐利=硬光 / 光位以观察者视角为准(器官除外) |
ASR转写速查
❗ 最重要铁律:不允许添加任何标点符号!
精度:训练集字准≥97% / 测试集字准≥99% / 句准≥95%
特殊格式:语气词加口字旁 / 数字转汉字 / 英文全大写 / 儿化音加儿字
TTS声调速查
| 标记 | 含义 | 场景 |
| 1~4 | 一到四声 | 普通声调字 |
| 5 | 轻声 | 叠词第二字/语气助词/后缀子头等 |
| 6 | 三三变调后的三声(必考!) | 雨yu6 / 你ni6 / 演yan6 / 讲jiang6 |