多茶类CNN图像识别的数据增强优化及类激活映射量化评价

ZHANG Zhanyi, ZHANG Baoquan, WANG Zhouli, YANG Yao, FAN Dongmei,HE Weizhong,MA Junhui,LIN Jie

Journal of Tea Science（2023）

Cited 0|Views6

No score

Abstract

我国茶叶种类繁多,识别难度大.卷积神经网络(Convolutional neural network,CNN)图像识别具有客观性、适应复杂图片背景且可移植于移动端的优势.但当前茶叶CNN图像识别缺乏对数据增强优化和识别准确性客观评价的研究,限制了模型识别的鲁棒性和泛化能力.采集 29 种常见茶类共 6 123 张图像构建数据集,对比了 10 种图像数据增强方法的ResNet-18(Residual network-18)训练效果;为了客观评价模型识别区域的准确性,构建了 2 个梯度加权类激活映射(Gradient-weighted class activation mapping,Grad-CAM)量化评价指标(IOB和MPI).结果表明,网格擦除(Ratio=0.3)、分辨率扰动和HSV(Hue,Saturation,Value)颜色空间扰动是较优的数据增强方法,准确率(Accuracy)、损失值(Loss)、IOB和MPI等 4 个指标综合表现较优.进一步通过消融实验,得到了最佳的数据增强方法组合——水平镜像翻转+网格擦除(Ratio=0.3)+HSV颜色空间扰动,其模型测试准确率达到了 99.82％、损失值仅有 0.64,且 IOB、MPI 指标也表现较优,体现了较好的图像识别区域准确性.本研究对茶叶图像数据增强方法进行了优化,训练得到了高鲁棒性的多茶类CNN图像识别模型,构建的量化指标IOB和MPI也解决了CAM识别区域准确性客观评价的问题.

AI Read Science

Must-Reading Tree

Example

Generate MRT to find the research sequence of this paper

Chat Paper

Summary is being generated by the instructions you defined