光伏 EL 缺陷识别这件事,2017 年时还需要 5-8 名经验丰富的工程师人工判读;2025 年我们的 AI 系统能在 0.2 秒内自动给出 29 类缺陷的标签和置信度。这中间走过了 4 代算法演进,每一代的突破都伴随着新的局限。本文不讲网络结构(学界文章已经很多),只讲实际工程落地中的演进路径与取舍。
最早的 EL 缺陷识别用的是 手工特征 + SVM/随机森林:
特征:HOG、LBP、Gabor、灰度共生矩阵
分类器:SVM 二分类(每类缺陷一个分类器)
训练数据:5000 张人工标注图像
那个阶段有一个经典工程问题:29 类缺陷需要 29 个二分类器,推理时全部跑一遍要 1.2 秒,量产产线无法接受。一些工厂干脆只跑前 5 类高频缺陷(隐裂、断栅、碎片、虚焊、低效),剩下 24 类靠人工抽检。
第一代的核心局限:
1. 特征工程依赖工程师经验,调参周期 2-4 周;
2. 手工特征对图像质量敏感(亮度变化、角度变化);
3. 准确率天花板 ~85%,无法再提升;
4. 新增缺陷类型需要重新设计特征。
随着 ImageNet 时代的成熟,我们把整个流水线换成 ResNet50 端到端分类网络:
网络:ResNet50 + 多任务头(同时输出 29 类标签 + 缺陷位置)
训练数据:5 万张图像
数据增强:随机翻转、亮度调整、Cutout
推理速度:单卡 V100 上 0.15 秒/张
第二代的突破在于 准确率从 85% 跃升到 92%,且新增缺陷类型只需要标注新数据 + 微调。但也带来了新问题:
第二代的核心局限:
1. 类不平衡问题严重:隐裂样本占 60%,位错只占 1.2%,模型对长尾类别识别效果差;
2. 小目标检测弱:早期 ResNet 在 ~10 像素的细小缺陷上召回率只有 60%;
3. 缺乏缺陷间空间关系建模:例如"隐裂 + 周边亮度差"这种空间共生模式无法显式利用。
第三代我们做了两个根本性升级:
检测头:YOLOv8 检测 29 类缺陷的边界框
分割头:U-Net 输出 29 类缺陷的像素级 mask
共享 backbone:EfficientNet-B4
双头并行让小目标检出率从 60% 提升到 88%,同时给客户提供"缺陷位置 + 缺陷形状"的双重信息。
光伏图像具有特殊的纹理结构(栅线、边缘、电池片排列),通用 ImageNet 预训练 backbone 在这些结构上效果不佳。我们用 MAE(Masked Autoencoder) 在 200 万张未标注光伏图像上做自监督预训练,然后再用 5 万张有标注数据 fine-tune。
结果:
- 准确率:92% → 96.5%
- 长尾类别(位错、应力滑移线)召回率:62% → 84%
- 推理速度:0.15s → 0.08s(更小的 backbone 但更聪明)
第三代的核心局限:
1. 模型规模大(85M 参数),边缘设备部署困难;
2. 缺陷语义无法利用:模型不"理解"缺陷的物理含义,对极少见的新类型缺陷外推能力弱;
3. 跨产线/跨设备泛化不足,新工厂部署需要 200-500 张本地标注样本做 fine-tune。
2023 年起的第四代算法借鉴了大模型时代的思路:
backbone 换成 DINOv2 / SAM 等视觉基础模型,参数量虽大(300M+),但表征通用性极强。我们做的工程优化:
量化压缩:FP32 → INT8,模型体积压到 75MB;
算子融合:连续的 Conv-BN-ReLU 融合成单算子,推理速度提升 2.3 倍;
TensorRT 部署:在 NVIDIA Jetson Orin 上达到 0.06s/张。
我们和南京香宁人工智能研究院联合做了一件事:把每类缺陷的物理描述(例如"隐裂:硅晶格沿应力线断裂导致的暗线,宽度 5-200μm,方向多沿主应力方向")通过 CLIP 思路编码进模型。结果:
新类型缺陷只需 50-100 张样本即可达到 90% 准确率(旧方法需要 500+ 样本);
模型可以输出"为什么判定为这类"的解释(基于视觉-语言相似度);
跨产线泛化能力大幅提升,新工厂部署样本需求从 500 降到 100。
| 指标 | 第三代 | 第四代 |
|---|---|---|
| 29 类整体准确率 | 96.5% | 98.6% |
| 长尾类别 mAP | 0.72 | 0.86 |
| 推理速度(边缘) | 0.08s | 0.06s |
| 模型体积 | 320 MB | 75 MB(INT8) |
| 新工厂样本需求 | 500+ | 100+ |
第四代仍然是"训练-冻结-部署"模式。2026 年我们正在投入的下一代方向是 在线持续学习——每个客户产线的检测模型在本地持续学习该产线的特定模式,新发现的缺陷案例自动反馈到模型权重中。挑战在于:
灾难性遗忘:在线学习容易让旧任务性能退化;
数据隐私:客户标注数据不能离开产线;
稳定性:产线模型权重不能因为单次错误标注而漂移。
势创智能正在测试 联邦学习 + 持续学习的混合架构——本地学习不出局,定期把"权重梯度"安全聚合到中央模型。预期 2026 年 Q3 在 3-5 家头部客户产线灰度上线。
很多客户问"我应该选哪一代算法",答案不是"越新越好":
量产线节拍紧(<1s/片):第三代或第四代量化版;
缺陷类型相对固定:第三代足够,部署成本更低;
频繁出现新类型缺陷:必须第四代,泛化能力是关键;
多产线/多工厂:第四代 + 联邦学习预备。
势创智能的 EPL/PLEL/MC-W 等产品默认搭载第四代算法,老客户升级算法不收费。
如需算法演示或客户产线适配评估,请联系势创智能(15950489233)。
本文由南京势创智能科技有限公司原创发布,转载请注明出处。
联系我们
第一时间了解我们的新产品发布和最新的资讯文章。
南京势创智能科技有限公司依托南京香宁人工智能研究院成立,汇聚南京321人才等多位行业科技人才,致力于人工智能技术开发与应用,机器视觉研发与应用。公司已服务于光伏行业、平板显示行业、冶金行业等多家知名企... 您有什么问题或要求吗?
点击下面,我们很乐意提供帮助。 联系我们