29 类缺陷的 AI 自动判定：从特征工程到深度模型的演进路径

光伏 EL 缺陷识别这件事，2017 年时还需要 5-8 名经验丰富的工程师人工判读；2025 年我们的 AI 系统能在 0.2 秒内自动给出 29 类缺陷的标签和置信度。这中间走过了 4 代算法演进，每一代的突破都伴随着新的局限。本文不讲网络结构（学界文章已经很多），只讲实际工程落地中的演进路径与取舍。

一、第一代（2017-2019）：手工特征 + 经典分类器

最早的 EL 缺陷识别用的是 手工特征 + SVM/随机森林：

特征：HOG、LBP、Gabor、灰度共生矩阵
分类器：SVM 二分类（每类缺陷一个分类器）
训练数据：5000 张人工标注图像

那个阶段有一个经典工程问题：29 类缺陷需要 29 个二分类器，推理时全部跑一遍要 1.2 秒，量产产线无法接受。一些工厂干脆只跑前 5 类高频缺陷（隐裂、断栅、碎片、虚焊、低效），剩下 24 类靠人工抽检。

第一代的核心局限：
1. 特征工程依赖工程师经验，调参周期 2-4 周；
2. 手工特征对图像质量敏感（亮度变化、角度变化）；
3. 准确率天花板 ~85%，无法再提升；
4. 新增缺陷类型需要重新设计特征。

二、第二代（2019-2021）：CNN 端到端分类

随着 ImageNet 时代的成熟，我们把整个流水线换成 ResNet50 端到端分类网络：

网络：ResNet50 + 多任务头（同时输出 29 类标签 + 缺陷位置）
训练数据：5 万张图像
数据增强：随机翻转、亮度调整、Cutout
推理速度：单卡 V100 上 0.15 秒/张

第二代的突破在于 准确率从 85% 跃升到 92%，且新增缺陷类型只需要标注新数据 + 微调。但也带来了新问题：

第二代的核心局限：
1. 类不平衡问题严重：隐裂样本占 60%，位错只占 1.2%，模型对长尾类别识别效果差；
2. 小目标检测弱：早期 ResNet 在 ~10 像素的细小缺陷上召回率只有 60%；
3. 缺乏缺陷间空间关系建模：例如"隐裂 + 周边亮度差"这种空间共生模式无法显式利用。

三、第三代（2021-2023）：检测分割双头 + 自监督预训练

第三代我们做了两个根本性升级：

1. 双头网络

检测头：YOLOv8 检测 29 类缺陷的边界框
分割头：U-Net 输出 29 类缺陷的像素级 mask
共享 backbone：EfficientNet-B4

双头并行让小目标检出率从 60% 提升到 88%，同时给客户提供"缺陷位置 + 缺陷形状"的双重信息。

2. 自监督预训练

光伏图像具有特殊的纹理结构（栅线、边缘、电池片排列），通用 ImageNet 预训练 backbone 在这些结构上效果不佳。我们用 MAE（Masked Autoencoder） 在 200 万张未标注光伏图像上做自监督预训练，然后再用 5 万张有标注数据 fine-tune。

结果：
- 准确率：92% → 96.5%
- 长尾类别（位错、应力滑移线）召回率：62% → 84%
- 推理速度：0.15s → 0.08s（更小的 backbone 但更聪明）

第三代的核心局限：
1. 模型规模大（85M 参数），边缘设备部署困难；
2. 缺陷语义无法利用：模型不"理解"缺陷的物理含义，对极少见的新类型缺陷外推能力弱；
3. 跨产线/跨设备泛化不足，新工厂部署需要 200-500 张本地标注样本做 fine-tune。

四、第四代（2023-至今）：基础模型 + 视觉-语言对齐

2023 年起的第四代算法借鉴了大模型时代的思路：

1. 视觉基础模型

backbone 换成 DINOv2 / SAM 等视觉基础模型，参数量虽大（300M+），但表征通用性极强。我们做的工程优化：

量化压缩：FP32 → INT8，模型体积压到 75MB；
算子融合：连续的 Conv-BN-ReLU 融合成单算子，推理速度提升 2.3 倍；
TensorRT 部署：在 NVIDIA Jetson Orin 上达到 0.06s/张。

2. 视觉-语言对齐

我们和南京香宁人工智能研究院联合做了一件事：把每类缺陷的物理描述（例如"隐裂：硅晶格沿应力线断裂导致的暗线，宽度 5-200μm，方向多沿主应力方向"）通过 CLIP 思路编码进模型。结果：

新类型缺陷只需 50-100 张样本即可达到 90% 准确率（旧方法需要 500+ 样本）；
模型可以输出"为什么判定为这类"的解释（基于视觉-语言相似度）；
跨产线泛化能力大幅提升，新工厂部署样本需求从 500 降到 100。

3. 当前指标

指标	第三代	第四代
29 类整体准确率	96.5%	98.6%
长尾类别 mAP	0.72	0.86
推理速度（边缘）	0.08s	0.06s
模型体积	320 MB	75 MB（INT8）
新工厂样本需求	500+	100+