势创智能

新闻资讯

29 类缺陷的 AI 自动判定:从特征工程到深度模型的演进路径

29 类缺陷的 AI 自动判定:从特征工程到深度模型的演进路径

光伏 EL 缺陷识别这件事,2017 年时还需要 5-8 名经验丰富的工程师人工判读;2025 年我们的 AI 系统能在 0.2 秒内自动给出 29 类缺陷的标签和置信度。这中间走过了 4 代算法演进,每一代的突破都伴随着新的局限。本文不讲网络结构(学界文章已经很多),只讲实际工程落地中的演进路径与取舍。

一、第一代(2017-2019):手工特征 + 经典分类器

最早的 EL 缺陷识别用的是 手工特征 + SVM/随机森林

  • 特征:HOG、LBP、Gabor、灰度共生矩阵

  • 分类器:SVM 二分类(每类缺陷一个分类器)

  • 训练数据:5000 张人工标注图像

那个阶段有一个经典工程问题:29 类缺陷需要 29 个二分类器,推理时全部跑一遍要 1.2 秒,量产产线无法接受。一些工厂干脆只跑前 5 类高频缺陷(隐裂、断栅、碎片、虚焊、低效),剩下 24 类靠人工抽检。

第一代的核心局限
1. 特征工程依赖工程师经验,调参周期 2-4 周;
2. 手工特征对图像质量敏感(亮度变化、角度变化);
3. 准确率天花板 ~85%,无法再提升;
4. 新增缺陷类型需要重新设计特征。

二、第二代(2019-2021):CNN 端到端分类

随着 ImageNet 时代的成熟,我们把整个流水线换成 ResNet50 端到端分类网络

  • 网络:ResNet50 + 多任务头(同时输出 29 类标签 + 缺陷位置)

  • 训练数据:5 万张图像

  • 数据增强:随机翻转、亮度调整、Cutout

  • 推理速度:单卡 V100 上 0.15 秒/张

第二代的突破在于 准确率从 85% 跃升到 92%,且新增缺陷类型只需要标注新数据 + 微调。但也带来了新问题:

第二代的核心局限
1. 类不平衡问题严重:隐裂样本占 60%,位错只占 1.2%,模型对长尾类别识别效果差;
2. 小目标检测弱:早期 ResNet 在 ~10 像素的细小缺陷上召回率只有 60%;
3. 缺乏缺陷间空间关系建模:例如"隐裂 + 周边亮度差"这种空间共生模式无法显式利用。

三、第三代(2021-2023):检测分割双头 + 自监督预训练

第三代我们做了两个根本性升级:

1. 双头网络

  • 检测头:YOLOv8 检测 29 类缺陷的边界框

  • 分割头:U-Net 输出 29 类缺陷的像素级 mask

  • 共享 backbone:EfficientNet-B4

双头并行让小目标检出率从 60% 提升到 88%,同时给客户提供"缺陷位置 + 缺陷形状"的双重信息。

2. 自监督预训练

光伏图像具有特殊的纹理结构(栅线、边缘、电池片排列),通用 ImageNet 预训练 backbone 在这些结构上效果不佳。我们用 MAE(Masked Autoencoder) 在 200 万张未标注光伏图像上做自监督预训练,然后再用 5 万张有标注数据 fine-tune。

结果
- 准确率:92% → 96.5%
- 长尾类别(位错、应力滑移线)召回率:62% → 84%
- 推理速度:0.15s → 0.08s(更小的 backbone 但更聪明)

第三代的核心局限
1. 模型规模大(85M 参数),边缘设备部署困难;
2. 缺陷语义无法利用:模型不"理解"缺陷的物理含义,对极少见的新类型缺陷外推能力弱;
3. 跨产线/跨设备泛化不足,新工厂部署需要 200-500 张本地标注样本做 fine-tune。

四、第四代(2023-至今):基础模型 + 视觉-语言对齐

2023 年起的第四代算法借鉴了大模型时代的思路:

1. 视觉基础模型

backbone 换成 DINOv2 / SAM 等视觉基础模型,参数量虽大(300M+),但表征通用性极强。我们做的工程优化:

  • 量化压缩:FP32 → INT8,模型体积压到 75MB;

  • 算子融合:连续的 Conv-BN-ReLU 融合成单算子,推理速度提升 2.3 倍;

  • TensorRT 部署:在 NVIDIA Jetson Orin 上达到 0.06s/张。

2. 视觉-语言对齐

我们和南京香宁人工智能研究院联合做了一件事:把每类缺陷的物理描述(例如"隐裂:硅晶格沿应力线断裂导致的暗线,宽度 5-200μm,方向多沿主应力方向")通过 CLIP 思路编码进模型。结果

  • 新类型缺陷只需 50-100 张样本即可达到 90% 准确率(旧方法需要 500+ 样本);

  • 模型可以输出"为什么判定为这类"的解释(基于视觉-语言相似度);

  • 跨产线泛化能力大幅提升,新工厂部署样本需求从 500 降到 100。

3. 当前指标

指标第三代第四代
29 类整体准确率96.5%98.6%
长尾类别 mAP0.720.86
推理速度(边缘)0.08s0.06s
模型体积320 MB75 MB(INT8)
新工厂样本需求500+100+

五、下一代(2025-2026):在线持续学习

第四代仍然是"训练-冻结-部署"模式。2026 年我们正在投入的下一代方向是 在线持续学习——每个客户产线的检测模型在本地持续学习该产线的特定模式,新发现的缺陷案例自动反馈到模型权重中。挑战在于:

  1. 灾难性遗忘:在线学习容易让旧任务性能退化;

  2. 数据隐私:客户标注数据不能离开产线;

  3. 稳定性:产线模型权重不能因为单次错误标注而漂移。

势创智能正在测试 联邦学习 + 持续学习的混合架构——本地学习不出局,定期把"权重梯度"安全聚合到中央模型。预期 2026 年 Q3 在 3-5 家头部客户产线灰度上线。

六、给客户的实用建议

很多客户问"我应该选哪一代算法",答案不是"越新越好":

  • 量产线节拍紧(<1s/片):第三代或第四代量化版;

  • 缺陷类型相对固定:第三代足够,部署成本更低;

  • 频繁出现新类型缺陷:必须第四代,泛化能力是关键;

  • 多产线/多工厂:第四代 + 联邦学习预备。

势创智能的 EPL/PLEL/MC-W 等产品默认搭载第四代算法,老客户升级算法不收费。

如需算法演示或客户产线适配评估,请联系势创智能(15950489233)。

本文由南京势创智能科技有限公司原创发布,转载请注明出处。

联系我们

第一时间了解我们的新产品发布和最新的资讯文章。
势创智能 南京势创智能科技有限公司依托南京香宁人工智能研究院成立,汇聚南京321人才等多位行业科技人才,致力于人工智能技术开发与应用,机器视觉研发与应用。公司已服务于光伏行业、平板显示行业、冶金行业等多家知名企...

您有什么问题或要求吗?

点击下面,我们很乐意提供帮助。 联系我们
Copyright © 2025-2029 南京势创智能科技有限公司 版权所有    苏ICP备20015215号
微信二维码 关注

电话 联系

15950489233

返回顶部 顶部
势创智能