数据集如何不"撞库"：势创智能多机型缺陷库的标注与版本管理

AI 模型最大的护城河是 数据集。但数据集不是越大越好——它必须 类型不混淆、标注一致、版本可追溯。我们 2018 年起开始积累光伏缺陷库，到 2024 年踩过的所有坑，都源自一句话——"两个标注员看同一张 EL 图给出不同标签"。本文讲清楚势创智能从 5 万图、3 类电池积累到 200 万图、9 类电池过程中，标注与版本管理是如何演进的。

一、为什么多机型不能简单合并

最早我们的缺陷库是按"缺陷类型"组织的——隐裂归隐裂、断栅归断栅，所有电池类型混在一起。这套结构 2019 年还工作得不错，但 2021 年开始崩溃，因为：

缺陷	PERC 表现	TOPCon 表现	HJT 表现	IBC 表现
隐裂	暗线宽 50-200μm	暗线宽 30-150μm	暗线宽 20-100μm	暗线偏短，常呈分支
断栅	主栅断裂明显	主栅 + 细栅同时	透明 TCO 上的暗斑	不存在主栅
黑斑	直径 200μm-2mm	直径 100-500μm	不可见（PL 才看得到）	形态完全不同

关键洞察：不同电池类型的"同名缺陷"在视觉上是不同的物体。如果训练数据里把 PERC 的隐裂和 IBC 的隐裂混在一起，模型会学到"平均化的隐裂特征"——对任一类型都不准。

我们在 2021 年做了第一次重组：每个缺陷类型按电池类型再分子库。29 类缺陷 × 9 类电池 = 261 个子库（实际有效组合约 180 个）。模型训练时根据电池类型选择对应子库的子集，每个类型独立训练 + 公共表征共享。

二、标注一致性的"漂移问题"

数据集的第二个杀手是 标注漂移——同一个标注员在不同时间对同一类型缺陷的判定会缓慢漂移：

新员工期（前 3 个月）：判定保守，倾向把"疑似缺陷"标为"非缺陷"；
熟练期（3-12 个月）：判定积极，发现率最高；
疲劳期（12 个月以上）：判定开始放松边界，比如把"边缘亮度差"误标为"黑边"。

3 年下来，新旧数据的标注边界不一致，模型在"老数据 fit 得好、新数据准确率掉"。

我们的解法是 三层校验 + 校准员制度：

第一层：标注员

每张图由 1 个标注员初标，记录"标注员 ID + 标注时间 + 标签 + 置信度（自评）"。

第二层：校验员

每天随机抽 5% 标注由资深校验员复核，给出"通过/驳回/重标"。校验员任期 6 个月，期满轮换，避免校验员自己漂移。

第三层：金标样本

我们维护一份 5000 张金标样本（由 5 名行业专家共同标注、争议样本删除），每月用金标样本测试所有标注员，通过率<90% 的标注员暂停标注 1 周回炉培训。

这套机制下，标注一致性（Cohen's kappa）从 2019 年的 0.71 提升到 2024 年的 0.91。

三、git-like 版本控制

数据集的第三个挑战是 版本管理。我们最早的方案是按月份打标签（dataset_2020_03、dataset_2020_04...），但很快出问题——某次月度更新引入了 200 张错标，但已经训练了 3 个模型并部署到客户产线。回滚需要重新训练 3 个模型。

2022 年我们设计了 git-like 版本控制：

1. 数据"提交"概念

每批新数据加入时按"提交"操作，记录：
- 提交者
- 提交时间
- 影响的缺陷类型 / 电池类型
- 数据来源（产线/客户/合成）
- 校验状态

2. 数据"分支"概念

主线（main）只接受三层校验通过的数据；实验分支可以接受未完全校验的数据。模型训练默认基于 main 分支某个 commit hash。

3. 数据"回滚"

如果发现某个 commit 引入了系统性标注错误，可以回滚到之前的 commit。下游模型重训只需基于回滚后的版本。

4. 内部工具

我们用 DVC（Data Version Control）+ S3 后端 + 自研标注质量看板 实现这一切。每个模型部署到客户产线时，元数据里都记录"训练数据 commit hash"，任何模型问题都可以追溯到具体的数据版本。

四、避免"撞库"的合成数据策略

很多客户会问："你们能不能合成数据来训模型？" 我们的回答：可以，但必须严格控制比例。

合成数据（用 GAN/Diffusion 生成的人工 EL 图像）的好处：
- 长尾缺陷可以快速凑量；
- 数据隐私无忧；
- 成本低。

但合成数据有"撞库"风险——如果训练集和测试集都是同一个 GAN 生成的，模型会过拟合到生成器的特定模式，真实产线表现反而下降。

我们的规则：
1. 真实数据为主：单一缺陷类的训练集中合成数据占比<30%；
2. 测试集纯真实：所有 benchmark 测试集 100% 来自真实产线；
3. 多生成器混合：合成数据来自至少 3 个不同 GAN/Diffusion 模型，避免单一生成器的特征污染；
4. 物理一致性校验：所有合成数据必须通过"物理合理性检查"（光强度分布、对比度、缺陷边缘锐度），不通过的丢弃。