返回笔记列表

🎨 多模态AI数据标注 · 完整笔记

点击标签切换章节

第一章 · 多模态AI基础

官方定义:多模态(Multi-modality)是集成和处理两种或两种以上不同类型信息数据的技术方法。
记忆口诀:只要整合「两种及以上」信息形态 = 多模态!OCR 也属于多模态!

多模态 vs 单模态

维度🌈 多模态AI⚪ 单模态AI
输入同时输入文本+图像+语音等多类型数据仅输入单一模态数据
输出融合结果(如带有旁白的视频)对应单一任务结果
典型示例输入描述文字,生成对应视频内容文本做翻译、图像目标检测
核心优势综合多模态信息,实现跨领域复杂任务专注特定领域,单任务效率高

多模态五大核心优势

① 更接近人类认知 → ② 更丰富的数据维度 → ③ 更广泛的应用场景 → ④ 提升AI系统整体能力 → ⑤ 通向通用人工智能(AGI)

模态交互类型

模态组合代表产品/场景方向
📝 文本 + 🖼 图片DALL·E、Stable Diffusion→ 文生图
📝 文本 + 🎬 视频Sora→ 文生视频
📝 文本 + 🔊 语音TTS系统、音色克隆→ 文生语音
🖼 图片 + 🎬 视频图生视频系统→ 图片生视频

VLA架构 — 多模态典型应用

👁 V = Vision 视觉感知
🧠 L = LLM 理解决策
⚡ A = Action 动作执行
自动驾驶分级必背:L1/L2 需人类参与 → L3 不需操作但需监管 → L4 完全不需要人类干预 ✅

第二章 · AI生图扩散模型技术原理

生成模型三代演进

代际模型状态
第一代GAN 生成对抗网络:双模型博弈❌ 已淘汰
第二代自回归生成模型:图像拆分像素块逐块预测⚠️ 效果有限
第三代扩散模型 Diffusion Model:从纯噪声逐步去除噪声✅ 当前主流
💧 扩散模型名称由来:如同把墨水滴入水中慢慢「扩散」——是这个过程的逆向操作:从混沌(噪声)恢复清晰(图像)。

扩散模型三步核心流程

Step1 CLIP
文本-图像语义对齐
Step2 U-Net
扩散降噪生成
Step3 VAE
解码放大输出

三种降噪方式

降噪方式核心思路说明
① 预测噪声均值预测需要减去多少噪声的「均值」最早期方法,DDPM采用
② 直接生成原始图像直接预测最终目标图像训练难度大
③ 预测噪声差值预测噪声图与目标图像的「差值」现代主流方案,效果最稳定
🔄 正向 vs 反向口诀:正向训练 = 往真实图像里「加噪声」→ 反向生成 = 从雪花屏出发一步步「减噪声」

第三章 · 文生图项目实战

项目完整流程

🔍 ① 数据筛选
🗂 ② 数据分类
✏️ ③ Caption描述
🤖 ④ 模型训练
📊 ⑤ 数据评测
核心原则:想让模型生成什么内容,就投喂什么内容的训练数据!

图片基础质量筛选规则(7条铁律)

序号规则类型判断标准处理
1🚨 安全性违规含血腥/暴力/涉政/违法内容直接跳过
2💧 明显水印超过画面5%面积的水印跳过
3📐 画面异常带黑白边框/明显截图内容直接跳过
4🔲 多图违规多图拼贴/图中图/手机截屏直接跳过
5🌫 图片模糊清晰度低,边缘锯齿状直接跳过
6☀️ 曝光异常过曝(太白)或过暗(太黑)直接跳过
7🎭 无美感/构图随机拍摄,无美感无合理构图直接跳过
🤖 AI生成图片优质图片无论是否AI生成✅ 可以使用

Caption数据描述框架

📷 内容层(肉眼可见)
描述画面中所有可见元素:人物主体、背景、细节
🎨 艺术层(艺术特征)
描述色相、饱和度、构图方式等艺术元素

Prompt扩写项目

「生成一只猫」→「一只白色布偶猫,在温馨卧室,整体偏暖色,左侧逆光,高饱和度,宫崎骏动画风格」
判断扩写好坏:用原始Prompt生图 vs 扩写后生图,哪个更好 = 扩写有效!

第四章 · AI图像训练项目标注规则

💼 「标签挂载」= 行业通用专业黑话,面试中使用大幅提升专业感!

① 色调标签

标签颜色范围🎯 判定口诀
🌅 暖色调红、橙、黄及变体偏红/橙/黄 = 暖
🌊 冷色调蓝、绿、紫及变体偏蓝/绿/紫 = 冷
🌫 低饱和度色彩柔和、对比度低灰不拉几、不刺眼 = 低饱和
✨ 高饱和度色彩鲜艳、对比度高看起来刺眼 = 高饱和

② 角度标签

标签拍摄方式记忆联想
📷 平拍与主体处于同一平行高度=人正常看东西
⬆ 仰拍从下向上拍摄=仰望英雄
⬇ 俯拍从上向下拍摄=上帝视角

③ 构图标签(允许多选!)

构图类型判定规则
↔ 对称构图画面整体左右对称
⟺ 三分线构图海/地平线沿三分线分布
✦ 三分点构图主体位于三分线交点处
⊙ 中心构图主体放置在画面正中心
╲ 对角线构图左上到右下/左下到右上的对角线趋势
— 水平线构图存在海平线、地平线等水平分割线

④ 景别标签

景别展示范围记忆方法
🏔 大远景整座山/整片建筑群,人物极小小蚂蚁一样
🌄 远景人物仅为轮廓,以环境为主能看出是人但很小
🧍 全景展示人物全身全身照
👔 中景展示膝盖及以上半身照
👤 近景展示胸部以上证件照感
👁 特写仅眼睛/手/嘴巴等局部细节眼睛的特写

⑤ 光影标签

维度子类判定方法
光源类型☀️ 自然光太阳光等自然界光源
光源类型💡 人造光室内灯光;赛博朋克=典型人造光
光质🔆 硬光明暗交界线锐利清晰 → 硬光
光质🌤 软光明暗交界线柔和有过渡 → 软光
🎯 光位方向争议考点(高频面试题):
一般光位 → 以观察者(标注者)看到的左右为准
人物器官(左眼/右手等)→ 以被拍摄人物自身左右为准(与观察者方向完全相反!)

第五章 · AI图文视频数据标注规则

图片描述标准框架(必背!)

【主体描述】 + 【修饰词】 + 【细节补充】 + 【风格/艺术形式】
模块核心要求示例
① 主体描述明确核心主体+场景,禁止模糊词汇✅ 一位舞者在沙漠中央 ❌ 人在跳舞
② 修饰词装饰元素/衣服/表情/动作/材质质感柔软棉质粉色上衣、灿烂笑容
③ 细节补充构图/色彩/光影/特殊效果三角构图、暖色调、左上侧光
④ 风格/艺术形式艺术流派或技术参数现代商业摄影 / 3D渲染/8K

人机协同标注方案

🚀 核心流程:大模型预生成描述 → 人工校验改写补充
📊 效率:人工单条≈20~30分钟 → 人机协同后≈5~6分钟(效率提升约5倍!

视频标注:低质量判断规则(视频独有)

序号规则类型
1-6安全/水印/画面/模糊/曝光/美感(同图片规则)图片规则共用
7⚡ 视频不流畅:掉帧/卡顿/静止/频繁切换镜头视频独有!
8⚡ 全为文字:只有文字内容,无实际画面视频独有!

视频描述新增3个维度

新增维度说明
⚡ 前后帧一致性人物身份/物体属性在不同帧是否保持一致
⚡ 物理常识正确性内容是否符合现实物理规律与空间逻辑
⚡ 镜头运动标注标注镜头类型:推拉摇移/平移/跟镜头/升降

第六章 · 多模态VLM项目

VLM = Vision Language Model(视觉语言模型)
让模型从图像/音频/视频等多源输入中提取信息,将视觉信息转化为文本输出。
✅ 特点:门槛低、应用广,是当前求职热门项目方向!

STEP 01 — 数据有效性判断(6种无效情况)

序号无效原因具体情况
1🖼 图片质量问题无图片/图片过于模糊
2🤖 模型能力边界要求编辑图片/发布内容到社交平台
3🎰 预测类限制赌博/彩票/股票趋势等无规律预测
4❓ 无关联内容提问与图片内容完全无关
5🚫 敏感内容色情/暴力/政治敏感等违规内容
6📐 专业领域限制极高难度数学/物理/代码/金融题

STEP 02 — 答案正确性判断(4种错误类型)

🎯 唯一准则:将模型回复修改至「正确、较完美」即可,没有额外复杂规则!
错误类型处理方式
🖼 图片信息描述错误改写为准确的图片内容描述
✍ 内容质量问题(错别字/逻辑不通)校对修正文字质量
❌ 答案错误查阅资料改写为正确答案
📋 格式错误重新格式化,提升可读性

第七章 · 语音识别(ASR)项目

ASR
Automatic Speech Recognition
语音→文字
智能客服/车载语音/视频字幕
TTS
Text-to-Speech
文字→语音
音色克隆/AI配音/有声书
🎯 ASR精度标准(必背!)
训练集:字准 ≥ 97%
测试集:字准 ≥ 99% / 句准 ≥ 95%

ASR有效性判断(10种无效情况)

无效类别判定标准
❌ 无音频文件中没有任何音频内容
📢 噪声太大背景噪声影响主体发音识别
🔇 发音模糊听不清楚内容,无法识别
🗣 无法识别的方言包含项目范围外的方言
👥 多人同时讲话声音重叠,无法分辨
✂️ 音频不完整说到一半断掉,内容不完整
🌍 包含小语种出现非目标语言的小语种
😂 仅非语音事件只有大笑/咳嗽/哭声,无语言内容
🤖 人工合成/电子音非真人发音
🎵 混合背景音人声+音乐/其他背景音同时存在

ASR准确转写规则(11条)

❗ 最重要铁律:不允许添加任何标点符号!!!
序号规则示例/说明
1听到什么标注什么,不省略不增删重复内容原样保留
2❌ 不允许添加任何标点符号包括逗号/句号/感叹号/问号
3语气词使用带口字旁的汉字啊/呢/呀/哦/嗯
4人名/地名/专有名词需核对正确性华谊(不是华宜)
5网络用语按实际发音转写为汉字灰常=非常 / 童鞋=同学
6数字按照发音转写为汉字1341639 → 幺三四幺六三九
7英文全部转为大写app → APP / iPhone → IPHONE
8网址/专业名词按发音如实转写http → HTTP冒号双斜杠WWW点
9儿化音需要添加儿字花儿 / 头儿 / 标签儿
10拟声词需要如实转写风刮得呼呼的 / 嘭的一声
11多义词结合上下文判断五月(月份)vs 五月(人名)

第八章 · 文本转语音(TTS)项目

🔥 重要:未经精细标注的数据会导致超过30%的合成语音不自然!标注精细度直接决定合成效果!

TTS拼音标注规则

规则说明
逐字校正拼音错误拼音需标红改写,多音字结合语境确定读音
ü 用 v 代替女 → nv3 / 鱼 → yv2 / 韵律 → yv4nv4
声调标注方式拼音后标数字:1=一声 / 2=二声 / 3=三声 / 4=四声

轻声规则(标记为5)

轻声场景示例
🔁 叠词的第二个字妈妈(ma1 ma5) / 哥哥 / 宝宝
💬 句尾语气助词行吗(ma5) / 好吗 / 了 / 着
📝 名词代词后缀(子/头)石头(tou5) / 儿子(zi5)
👁 人体部位名词第二字鼻子(zi5) / 耳朵(duo5)
📍 名词后方向词墙上(shang5) / 左边
🏃 动词趋势补语拿来(lai5) / 坐下(xia5)

三三变调规则(标记为6)★★★

核心规则:连续两个三声,第一个三声变调为二声,变调后标记为「6」
例:你好(ni6 hao3) / 雨伞(yu6 san3) / 演讲稿(yan6 jiang6 gao3)
结构类型规则示例
单音节 + 双音节双音节第一个三声变二声,标6打(da3) 雨(yu6) 伞(san3)
双音节 + 单音节前两个三声都变二声,都标6演(yan6) 讲(jiang6) 稿(gao3)
单+单+单音节前两个三声都变二声,都标6你(ni6) 打(da6) 我(wo3)

TTS声调体系总览

数字标记含义典型场景
1~4一到四声普通声调字
5轻声叠词第二字/语气助词/名词后缀等
6变调后的三声(必考!)三三变调中第一个三声:雨yu6 / 你ni6

第九章 · 评测项目与求职建议

评测项目安排

评测 = 模型的「考试」:投喂优质数据训练后,必须进行评测。某类效果不合格 → 针对性补充数据 → 重新训练(循环迭代)
评测类型触发时机说明
小版本评测每次小版本迭代后快速验证改动效果,定向找短板
大版本评测大版本更新后全面评测各维度能力
上线前评测产品正式上线前确保质量达标,避免线上事故
上线后评测产品上线后持续监控发现新问题,持续优化

行业求职建议

项目方向门槛优势条件就业前景
VLM图像理解所有专业背景均可热门,适合作为面试项目
ASR语音识别有音乐基础/耳朵好/有方言需求大,大厂大力招聘
TTS文本转语音中高语言学/音乐/播音背景音色克隆方向前景好
方言标注有特定方言(粤/川/豫等)非常紧缺,竞争少
小语种标注掌握小语种(日韩法德等)单价高,需求持续增长
3D标注中高有3D建模/动画背景新兴领域,竞争较少

⚡ 终极速查表

多模态核心考点
考点核心内容
多模态定义整合两种及以上信息形态 = 多模态。OCR也属于多模态!
扩散模型三步CLIP(对齐)→ U-Net(去噪)→ VAE(放大)
三种降噪方式①预测噪声均值 ②直接生成原始图像 ③预测噪声差值(现代主流)
VLA架构V视觉感知 → L大模型决策 → A动作执行
L4自动驾驶完全不需要人类干预
图像标签速查
标签类别快速判定口诀
色调刺眼=高饱和 / 灰调=低饱和 / 偏红橙黄=暖 / 偏蓝绿紫=冷
角度与主体平行=平 / 从下往上=仰 / 从上往下=俯
构图可多选!主体在中=中心构图
景别全身=全景 / 膝盖以上=中景 / 胸以上=近景 / 局部=特写
光影明暗交界线锐利=硬光 / 光位以观察者视角为准(器官除外)
ASR转写速查
❗ 最重要铁律:不允许添加任何标点符号!
精度:训练集字准≥97% / 测试集字准≥99% / 句准≥95%
特殊格式:语气词加口字旁 / 数字转汉字 / 英文全大写 / 儿化音加儿字
TTS声调速查
标记含义场景
1~4一到四声普通声调字
5轻声叠词第二字/语气助词/后缀子头等
6三三变调后的三声(必考!)雨yu6 / 你ni6 / 演yan6 / 讲jiang6