卷积神经网络(CNN)在图像识别领域取得了巨大的成功,其中,L-Softmax和ArcFace等特征学习方法已经成为业界标杆。然而,传统的卷积和池化操作仍然存在局限性,无法充分挖掘图像的全局特征。为了突破这一瓶颈,本文提出了一种基于欧式距离Margin的方法EucMargin,实现了在图像识别任务中更强大的特征学习能力,在MNIST、CIFAR10和CIFAR100三个数据集上超越了L-Softmax和ArcFace的性能。
我们提出了一种基于距离度量的方法,用于提高CNN网络在图像识别任务中的特征学习能力。该方法的主要思想是通过引入一个欧式距离Margin参数mmm,计算最后一层特征到分类器参数之间的欧式距离,从而实现类内紧凑性和类间可分离性的目的。
具体而言,对于给定的图像样本xix_ixi,我们先通过CNN网络将其映射到最后一层的特征空间中,得到其特征向量fif_ifi。然后,我们计算fif_ifi与分类器参数wCw_CwC之间的欧式距离di,C=∣∣fi−wC∣∣2d_{i,C}=||f_i-w_C||_2di,C=∣∣fi−wC∣∣2,其中CCC表示所有类别。接下来,我们将di,cd_{i,c}di,c与一个欧式距离Margin参数mmm相加,得到新的距离di,c′=di,c+md'_{i,c}=d_{i,c}+mdi,c′=di,c+m,其中ccc表示样本xix_ixi所属的类别。最后,我们将di,c′d'_{i,c}di,c′输入到Softmax分类器中,用于计算样本xix_ixi属于类别ccc的概率值pi,cp_{i,c}pi,c。我们的优化目标是最小化交叉熵损失LLL:
L=−loge−di,c′e−di,c′+∑c≠Ce−di,CL = -\log\frac{e^{-d'_{i,c}}}{e^{-d'_{i,c}} + \sum_{c \neq C} e^{-d_{i,C}}}L=−loge−di,c′+∑c=Ce−di,Ce−di,c′
由于欧式距离越小,代表特征间距离越小,而Softmax优化的目标是使所属类别的激活值最大,正好跟欧式距离相反,所以这里分别把di,c′d'_{i,c}di,c′取反变为−di,c′-d'_{i,c}−di,c′,把di,Cd_{i,C}di,C取反变为−di,C-d_{i,C}−di,C。
本文在MNIST、CIFAR10和CIFAR100三个数据集上进行了实验,用于评估本文提出的方法在图像分类任务中的性能。实验使用的CNN网络采用的是L-Softmax这篇论文中的架构,数据预处理、优化器、学习率和训练迭代次数都跟L-Softmax这篇论文中的保持一致。
实验结果如表1所示:
数据集 | L-Softmax | ArcFace | EucMargin |
---|---|---|---|
MNIST | 0.31% | 0.31% | 0.28% |
CIFAR-10 | 7.58% | 7.90% | 7.38% |
CIFAR-100 | 29.53% | 30.23% | 28.42% |
表1:实验结果比较,使用错误率作为评估指标
从表中可以看出,我们提出的基于距离度量的方法在三个数据集上均具有较好的性能,特别是在CIFAR100数据集上表现非常出色。相比于L-Softmax,我们的方法训练简单,相比于ArcFace,我们的方法泛化能力好。