🎨 多模态AI数据标注 · 完整笔记

点击标签切换章节

第一章 · 多模态AI基础

官方定义：多模态（Multi-modality）是集成和处理两种或两种以上不同类型信息数据的技术方法。
⚡ 记忆口诀：只要整合「两种及以上」信息形态 = 多模态！OCR 也属于多模态！

多模态 vs 单模态

维度	🌈 多模态AI	⚪ 单模态AI
输入	同时输入文本+图像+语音等多类型数据	仅输入单一模态数据
输出	融合结果（如带有旁白的视频）	对应单一任务结果
典型示例	输入描述文字，生成对应视频内容	文本做翻译、图像目标检测
核心优势	综合多模态信息，实现跨领域复杂任务	专注特定领域，单任务效率高

多模态五大核心优势

① 更接近人类认知 → ② 更丰富的数据维度 → ③ 更广泛的应用场景 → ④ 提升AI系统整体能力 → ⑤ 通向通用人工智能（AGI）

模态交互类型

模态组合	代表产品/场景	方向
📝 文本 + 🖼 图片	DALL·E、Stable Diffusion	→ 文生图
📝 文本 + 🎬 视频	Sora	→ 文生视频
📝 文本 + 🔊 语音	TTS系统、音色克隆	→ 文生语音
🖼 图片 + 🎬 视频	图生视频系统	→ 图片生视频

VLA架构 — 多模态典型应用

👁 V = Vision 视觉感知

→

🧠 L = LLM 理解决策

→

⚡ A = Action 动作执行

自动驾驶分级必背：L1/L2 需人类参与 → L3 不需操作但需监管 → L4 完全不需要人类干预 ✅

第二章 · AI生图扩散模型技术原理

生成模型三代演进

代际	模型	状态
第一代	GAN 生成对抗网络：双模型博弈	❌ 已淘汰
第二代	自回归生成模型：图像拆分像素块逐块预测	⚠️ 效果有限
第三代	扩散模型 Diffusion Model：从纯噪声逐步去除噪声	✅ 当前主流

💧 扩散模型名称由来：如同把墨水滴入水中慢慢「扩散」——是这个过程的逆向操作：从混沌（噪声）恢复清晰（图像）。

扩散模型三步核心流程

Step1 CLIP
文本-图像语义对齐

→

Step2 U-Net
扩散降噪生成

→

Step3 VAE
解码放大输出

三种降噪方式

降噪方式	核心思路	说明
① 预测噪声均值	预测需要减去多少噪声的「均值」	最早期方法，DDPM采用
② 直接生成原始图像	直接预测最终目标图像	训练难度大
③ 预测噪声差值	预测噪声图与目标图像的「差值」	现代主流方案，效果最稳定

🔄 正向 vs 反向口诀：正向训练 = 往真实图像里「加噪声」→ 反向生成 = 从雪花屏出发一步步「减噪声」

第三章 · 文生图项目实战

项目完整流程

🔍 ① 数据筛选

→

🗂 ② 数据分类

→

✏️ ③ Caption描述

→

🤖 ④ 模型训练

→

📊 ⑤ 数据评测

核心原则：想让模型生成什么内容，就投喂什么内容的训练数据！

图片基础质量筛选规则（7条铁律）

序号	规则类型	判断标准	处理
1	🚨 安全性违规	含血腥/暴力/涉政/违法内容	直接跳过
2	💧 明显水印	超过画面5%面积的水印	跳过
3	📐 画面异常	带黑白边框/明显截图内容	直接跳过
4	🔲 多图违规	多图拼贴/图中图/手机截屏	直接跳过
5	🌫 图片模糊	清晰度低，边缘锯齿状	直接跳过
6	☀️ 曝光异常	过曝（太白）或过暗（太黑）	直接跳过
7	🎭 无美感/构图	随机拍摄，无美感无合理构图	直接跳过
✓	🤖 AI生成图片	优质图片无论是否AI生成	✅ 可以使用

Caption数据描述框架

📷 内容层（肉眼可见）

描述画面中所有可见元素：人物主体、背景、细节

🎨 艺术层（艺术特征）

描述色相、饱和度、构图方式等艺术元素

Prompt扩写项目

「生成一只猫」→「一只白色布偶猫，在温馨卧室，整体偏暖色，左侧逆光，高饱和度，宫崎骏动画风格」
判断扩写好坏：用原始Prompt生图 vs 扩写后生图，哪个更好 = 扩写有效！

第四章 · AI图像训练项目标注规则

💼 「标签挂载」= 行业通用专业黑话，面试中使用大幅提升专业感！

① 色调标签

标签	颜色范围	🎯 判定口诀
🌅 暖色调	红、橙、黄及变体	偏红/橙/黄 = 暖
🌊 冷色调	蓝、绿、紫及变体	偏蓝/绿/紫 = 冷
🌫 低饱和度	色彩柔和、对比度低	灰不拉几、不刺眼 = 低饱和
✨ 高饱和度	色彩鲜艳、对比度高	看起来刺眼 = 高饱和

② 角度标签

标签	拍摄方式	记忆联想
📷 平拍	与主体处于同一平行高度	=人正常看东西
⬆ 仰拍	从下向上拍摄	=仰望英雄
⬇ 俯拍	从上向下拍摄	=上帝视角

③ 构图标签（允许多选！）

构图类型	判定规则
↔ 对称构图	画面整体左右对称
⟺ 三分线构图	海/地平线沿三分线分布
✦ 三分点构图	主体位于三分线交点处
⊙ 中心构图	主体放置在画面正中心
╲ 对角线构图	左上到右下/左下到右上的对角线趋势
— 水平线构图	存在海平线、地平线等水平分割线

④ 景别标签

景别	展示范围	记忆方法
🏔 大远景	整座山/整片建筑群，人物极小	小蚂蚁一样
🌄 远景	人物仅为轮廓，以环境为主	能看出是人但很小
🧍 全景	展示人物全身	全身照
👔 中景	展示膝盖及以上	半身照
👤 近景	展示胸部以上	证件照感
👁 特写	仅眼睛/手/嘴巴等局部细节	眼睛的特写

⑤ 光影标签

维度	子类	判定方法
光源类型	☀️ 自然光	太阳光等自然界光源
光源类型	💡 人造光	室内灯光；赛博朋克=典型人造光
光质	🔆 硬光	明暗交界线锐利清晰 → 硬光
光质	🌤 软光	明暗交界线柔和有过渡 → 软光

🎯 光位方向争议考点（高频面试题）：
一般光位 → 以观察者（标注者）看到的左右为准
人物器官（左眼/右手等）→ 以被拍摄人物自身左右为准（与观察者方向完全相反！）

第五章 · AI图文视频数据标注规则

图片描述标准框架（必背！）

【主体描述】 + 【修饰词】 + 【细节补充】 + 【风格/艺术形式】

模块	核心要求	示例
① 主体描述	明确核心主体+场景，禁止模糊词汇	✅ 一位舞者在沙漠中央 ❌ 人在跳舞
② 修饰词	装饰元素/衣服/表情/动作/材质质感	柔软棉质粉色上衣、灿烂笑容
③ 细节补充	构图/色彩/光影/特殊效果	三角构图、暖色调、左上侧光
④ 风格/艺术形式	艺术流派或技术参数	现代商业摄影 / 3D渲染/8K

人机协同标注方案

🚀 核心流程：大模型预生成描述 → 人工校验改写补充
📊 效率：人工单条≈20~30分钟 → 人机协同后≈5~6分钟（效率提升约5倍！）

视频标注：低质量判断规则（视频独有）

序号	规则	类型
1-6	安全/水印/画面/模糊/曝光/美感（同图片规则）	图片规则共用
7	⚡ 视频不流畅：掉帧/卡顿/静止/频繁切换镜头	视频独有！
8	⚡ 全为文字：只有文字内容，无实际画面	视频独有！

视频描述新增3个维度

新增维度	说明
⚡ 前后帧一致性	人物身份/物体属性在不同帧是否保持一致
⚡ 物理常识正确性	内容是否符合现实物理规律与空间逻辑
⚡ 镜头运动标注	标注镜头类型：推拉摇移/平移/跟镜头/升降

第六章 · 多模态VLM项目

VLM = Vision Language Model（视觉语言模型）
让模型从图像/音频/视频等多源输入中提取信息，将视觉信息转化为文本输出。
✅ 特点：门槛低、应用广，是当前求职热门项目方向！

STEP 01 — 数据有效性判断（6种无效情况）

序号	无效原因	具体情况
1	🖼 图片质量问题	无图片/图片过于模糊
2	🤖 模型能力边界	要求编辑图片/发布内容到社交平台
3	🎰 预测类限制	赌博/彩票/股票趋势等无规律预测
4	❓ 无关联内容	提问与图片内容完全无关
5	🚫 敏感内容	色情/暴力/政治敏感等违规内容
6	📐 专业领域限制	极高难度数学/物理/代码/金融题

STEP 02 — 答案正确性判断（4种错误类型）

🎯 唯一准则：将模型回复修改至「正确、较完美」即可，没有额外复杂规则！

错误类型	处理方式
🖼 图片信息描述错误	改写为准确的图片内容描述
✍ 内容质量问题（错别字/逻辑不通）	校对修正文字质量
❌ 答案错误	查阅资料改写为正确答案
📋 格式错误	重新格式化，提升可读性

第七章 · 语音识别（ASR）项目

ASR

Automatic Speech Recognition
语音→文字
智能客服/车载语音/视频字幕

TTS

Text-to-Speech
文字→语音
音色克隆/AI配音/有声书

🎯 ASR精度标准（必背！）
训练集：字准 ≥ 97%
测试集：字准 ≥ 99% / 句准 ≥ 95%

ASR有效性判断（10种无效情况）

无效类别	判定标准
❌ 无音频	文件中没有任何音频内容
📢 噪声太大	背景噪声影响主体发音识别
🔇 发音模糊	听不清楚内容，无法识别
🗣 无法识别的方言	包含项目范围外的方言
👥 多人同时讲话	声音重叠，无法分辨
✂️ 音频不完整	说到一半断掉，内容不完整
🌍 包含小语种	出现非目标语言的小语种
😂 仅非语音事件	只有大笑/咳嗽/哭声，无语言内容
🤖 人工合成/电子音	非真人发音
🎵 混合背景音	人声+音乐/其他背景音同时存在

ASR准确转写规则（11条）

❗ 最重要铁律：不允许添加任何标点符号！！！

序号	规则	示例/说明
1	听到什么标注什么，不省略不增删	重复内容原样保留
2	❌ 不允许添加任何标点符号	包括逗号/句号/感叹号/问号
3	语气词使用带口字旁的汉字	啊/呢/呀/哦/嗯
4	人名/地名/专有名词需核对正确性	华谊（不是华宜）
5	网络用语按实际发音转写为汉字	灰常=非常 / 童鞋=同学
6	数字按照发音转写为汉字	1341639 → 幺三四幺六三九
7	英文全部转为大写	app → APP / iPhone → IPHONE
8	网址/专业名词按发音如实转写	http → HTTP冒号双斜杠WWW点
9	儿化音需要添加儿字	花儿 / 头儿 / 标签儿
10	拟声词需要如实转写	风刮得呼呼的 / 嘭的一声
11	多义词结合上下文判断	五月（月份）vs 五月（人名）

第八章 · 文本转语音（TTS）项目

🔥 重要：未经精细标注的数据会导致超过30%的合成语音不自然！标注精细度直接决定合成效果！

TTS拼音标注规则

规则	说明
逐字校正拼音	错误拼音需标红改写，多音字结合语境确定读音
ü 用 v 代替	女 → nv3 / 鱼 → yv2 / 韵律 → yv4nv4
声调标注方式	拼音后标数字：1=一声 / 2=二声 / 3=三声 / 4=四声

轻声规则（标记为5）

轻声场景	示例
🔁 叠词的第二个字	妈妈(ma1 ma5) / 哥哥 / 宝宝
💬 句尾语气助词	行吗(ma5) / 好吗 / 了 / 着
📝 名词代词后缀（子/头）	石头(tou5) / 儿子(zi5)
👁 人体部位名词第二字	鼻子(zi5) / 耳朵(duo5)
📍 名词后方向词	墙上(shang5) / 左边
🏃 动词趋势补语	拿来(lai5) / 坐下(xia5)

三三变调规则（标记为6）★★★

核心规则：连续两个三声，第一个三声变调为二声，变调后标记为「6」
例：你好(ni6 hao3) / 雨伞(yu6 san3) / 演讲稿(yan6 jiang6 gao3)

结构类型	规则	示例
单音节 + 双音节	双音节第一个三声变二声，标6	打(da3) 雨(yu6) 伞(san3)
双音节 + 单音节	前两个三声都变二声，都标6	演(yan6) 讲(jiang6) 稿(gao3)
单+单+单音节	前两个三声都变二声，都标6	你(ni6) 打(da6) 我(wo3)

TTS声调体系总览

数字标记	含义	典型场景
1~4	一到四声	普通声调字
5	轻声	叠词第二字/语气助词/名词后缀等
6	变调后的三声（必考！）	三三变调中第一个三声：雨yu6 / 你ni6

第九章 · 评测项目与求职建议

评测项目安排

评测 = 模型的「考试」：投喂优质数据训练后，必须进行评测。某类效果不合格 → 针对性补充数据 → 重新训练（循环迭代）

评测类型	触发时机	说明
小版本评测	每次小版本迭代后	快速验证改动效果，定向找短板
大版本评测	大版本更新后	全面评测各维度能力
上线前评测	产品正式上线前	确保质量达标，避免线上事故
上线后评测	产品上线后持续监控	发现新问题，持续优化

行业求职建议

项目方向	门槛	优势条件	就业前景
VLM图像理解	低	所有专业背景均可	热门，适合作为面试项目
ASR语音识别	中	有音乐基础/耳朵好/有方言	需求大，大厂大力招聘
TTS文本转语音	中高	语言学/音乐/播音背景	音色克隆方向前景好
方言标注	低	有特定方言（粤/川/豫等）	非常紧缺，竞争少
小语种标注	高	掌握小语种（日韩法德等）	单价高，需求持续增长
3D标注	中高	有3D建模/动画背景	新兴领域，竞争较少

⚡ 终极速查表

多模态核心考点

考点	核心内容
多模态定义	整合两种及以上信息形态 = 多模态。OCR也属于多模态！
扩散模型三步	CLIP（对齐）→ U-Net（去噪）→ VAE（放大）
三种降噪方式	①预测噪声均值 ②直接生成原始图像 ③预测噪声差值（现代主流）
VLA架构	V视觉感知 → L大模型决策 → A动作执行
L4自动驾驶	完全不需要人类干预

图像标签速查

标签类别	快速判定口诀
色调	刺眼=高饱和 / 灰调=低饱和 / 偏红橙黄=暖 / 偏蓝绿紫=冷
角度	与主体平行=平 / 从下往上=仰 / 从上往下=俯
构图	可多选！主体在中=中心构图
景别	全身=全景 / 膝盖以上=中景 / 胸以上=近景 / 局部=特写
光影	明暗交界线锐利=硬光 / 光位以观察者视角为准（器官除外）

ASR转写速查

❗ 最重要铁律：不允许添加任何标点符号！
精度：训练集字准≥97% / 测试集字准≥99% / 句准≥95%
特殊格式：语气词加口字旁 / 数字转汉字 / 英文全大写 / 儿化音加儿字

TTS声调速查

标记	含义	场景
1~4	一到四声	普通声调字
5	轻声	叠词第二字/语气助词/后缀子头等
6	三三变调后的三声（必考！）	雨yu6 / 你ni6 / 演yan6 / 讲jiang6