势创智能

新闻资讯

数据集如何不"撞库":势创智能多机型缺陷库的标注与版本管理

数据集如何不"撞库":势创智能多机型缺陷库的标注与版本管理

AI 模型最大的护城河是 数据集。但数据集不是越大越好——它必须 类型不混淆、标注一致、版本可追溯。我们 2018 年起开始积累光伏缺陷库,到 2024 年踩过的所有坑,都源自一句话——"两个标注员看同一张 EL 图给出不同标签"。本文讲清楚势创智能从 5 万图、3 类电池积累到 200 万图、9 类电池过程中,标注与版本管理是如何演进的。

一、为什么多机型不能简单合并

最早我们的缺陷库是按"缺陷类型"组织的——隐裂归隐裂、断栅归断栅,所有电池类型混在一起。这套结构 2019 年还工作得不错,但 2021 年开始崩溃,因为:

缺陷PERC 表现TOPCon 表现HJT 表现IBC 表现
隐裂暗线宽 50-200μm暗线宽 30-150μm暗线宽 20-100μm暗线偏短,常呈分支
断栅主栅断裂明显主栅 + 细栅同时透明 TCO 上的暗斑不存在主栅
黑斑直径 200μm-2mm直径 100-500μm不可见(PL 才看得到)形态完全不同

关键洞察:不同电池类型的"同名缺陷"在视觉上是不同的物体。如果训练数据里把 PERC 的隐裂和 IBC 的隐裂混在一起,模型会学到"平均化的隐裂特征"——对任一类型都不准。

我们在 2021 年做了第一次重组:每个缺陷类型按电池类型再分子库。29 类缺陷 × 9 类电池 = 261 个子库(实际有效组合约 180 个)。模型训练时根据电池类型选择对应子库的子集,每个类型独立训练 + 公共表征共享

二、标注一致性的"漂移问题"

数据集的第二个杀手是 标注漂移——同一个标注员在不同时间对同一类型缺陷的判定会缓慢漂移:

  • 新员工期(前 3 个月):判定保守,倾向把"疑似缺陷"标为"非缺陷";

  • 熟练期(3-12 个月):判定积极,发现率最高;

  • 疲劳期(12 个月以上):判定开始放松边界,比如把"边缘亮度差"误标为"黑边"。

3 年下来,新旧数据的标注边界不一致,模型在"老数据 fit 得好、新数据准确率掉"。

我们的解法是 三层校验 + 校准员制度

第一层:标注员

每张图由 1 个标注员初标,记录"标注员 ID + 标注时间 + 标签 + 置信度(自评)"。

第二层:校验员

每天随机抽 5% 标注由资深校验员复核,给出"通过/驳回/重标"。校验员任期 6 个月,期满轮换,避免校验员自己漂移。

第三层:金标样本

我们维护一份 5000 张金标样本(由 5 名行业专家共同标注、争议样本删除),每月用金标样本测试所有标注员,通过率<90% 的标注员暂停标注 1 周回炉培训

这套机制下,标注一致性(Cohen's kappa)从 2019 年的 0.71 提升到 2024 年的 0.91。

三、git-like 版本控制

数据集的第三个挑战是 版本管理。我们最早的方案是按月份打标签(dataset_2020_03、dataset_2020_04...),但很快出问题——某次月度更新引入了 200 张错标,但已经训练了 3 个模型并部署到客户产线。回滚需要重新训练 3 个模型

2022 年我们设计了 git-like 版本控制:

1. 数据"提交"概念

每批新数据加入时按"提交"操作,记录:
- 提交者
- 提交时间
- 影响的缺陷类型 / 电池类型
- 数据来源(产线/客户/合成)
- 校验状态

2. 数据"分支"概念

主线(main)只接受三层校验通过的数据;实验分支可以接受未完全校验的数据。模型训练默认基于 main 分支某个 commit hash。

3. 数据"回滚"

如果发现某个 commit 引入了系统性标注错误,可以回滚到之前的 commit。下游模型重训只需基于回滚后的版本。

4. 内部工具

我们用 DVC(Data Version Control)+ S3 后端 + 自研标注质量看板 实现这一切。每个模型部署到客户产线时,元数据里都记录"训练数据 commit hash",任何模型问题都可以追溯到具体的数据版本

四、避免"撞库"的合成数据策略

很多客户会问:"你们能不能合成数据来训模型?" 我们的回答:可以,但必须严格控制比例

合成数据(用 GAN/Diffusion 生成的人工 EL 图像)的好处:
- 长尾缺陷可以快速凑量;
- 数据隐私无忧;
- 成本低。

但合成数据有"撞库"风险——如果训练集和测试集都是同一个 GAN 生成的,模型会过拟合到生成器的特定模式,真实产线表现反而下降

我们的规则:
1. 真实数据为主:单一缺陷类的训练集中合成数据占比<30%;
2. 测试集纯真实:所有 benchmark 测试集 100% 来自真实产线;
3. 多生成器混合:合成数据来自至少 3 个不同 GAN/Diffusion 模型,避免单一生成器的特征污染;
4. 物理一致性校验:所有合成数据必须通过"物理合理性检查"(光强度分布、对比度、缺陷边缘锐度),不通过的丢弃。

五、客户的数据反馈如何融入

每家客户产线的数据有独特价值——客户产线的工艺特征、缺陷类型分布、实际应用场景,这些是我们实验室合成的数据怎么也补不上的。

我们的客户数据反馈机制:

  1. 客户产线本地保留原图:客户图像不上传我们的中央数据库;

  2. 客户标注本地完成:客户运维工程师对自己产线的检测结果标注;

  3. 聚合上传"标签 + 特征向量":原图不出本地,但模型提取的特征向量 + 标签可以上传;

  4. 联邦学习更新模型:中央模型基于聚合的特征向量更新权重,新版本模型再下发。

这套机制满足客户数据隐私的同时,让势创智能的中央模型持续从所有客户产线学习。2024 年第四季度有 14 家客户参与联邦反馈,平均每月新增 ~12 万张有效标签。

六、给行业同行的建议

光伏检测 AI 行业还很年轻,数据集管理的成熟度参差不齐。我们的几条建议:

  1. 越早做版本管理越好——等到 100 万张图再做就晚了;

  2. 标注员轮换 + 金标校准是必须的,不要省这个成本;

  3. 多机型必须分库,不要图省事合并;

  4. 客户数据隐私 + 联邦学习是未来 3 年的标配,提前规划。

如需缺陷库管理方法学交流或客户联邦学习接入,请联系势创智能(15950489233)。

本文由南京势创智能科技有限公司原创发布,转载请注明出处。

联系我们

第一时间了解我们的新产品发布和最新的资讯文章。
势创智能 南京势创智能科技有限公司依托南京香宁人工智能研究院成立,汇聚南京321人才等多位行业科技人才,致力于人工智能技术开发与应用,机器视觉研发与应用。公司已服务于光伏行业、平板显示行业、冶金行业等多家知名企...

您有什么问题或要求吗?

点击下面,我们很乐意提供帮助。 联系我们
Copyright © 2025-2029 南京势创智能科技有限公司 版权所有    苏ICP备20015215号
微信二维码 关注

电话 联系

15950489233

返回顶部 顶部
势创智能