
yl6809永利检测中心孔政敏副教授课题组在卷积神经网络优化算法的研究中取得进展,相关研究成果“ADMM-Enhanced CNN Training Framework With Global Convergence Guarantees”,DOI: 10.1109/TAI.2025.3636117,发表于人工智能领域Top期刊《IEEE Transactions on Artificial Intelligence》。该研究提出了一种创新性的卷积神经网络(CNN)的训练算法,为解决深度CNN的梯度消失和爆炸的问题提供了一种新的思路;同时,也为计算机视觉的广泛应用提供了一种创新且高效的解决方案。
随着深度学习和计算机视觉的高速发展,CNN在各种任务中展现了优越的性能。目前优化CNN的方法都是基于反向传播,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。然而,基于梯度的训练方法存在诸多局限性。例如,随着网络深度增加,反向传播过程中梯度的累积乘积可能导致误差信号衰减或激增,以致于出现梯度消失和爆炸的问题。交替方向乘子法(ADMM)作为一种无梯度的训练算法,可以有效缓解网络在训练过程中的梯度消失和梯度爆炸等问题。此外,ADMM在分布式计算中的优异表现,使其成为大规模深度学习应用的理想选择。

图 1 传统梯度下降算法

图 2 梯度下将算法的缺陷
该研究团队提出了一种新颖高效的基于ADMM算法的CNN训练框架,有效解决了梯度消失和爆炸问题。首先,采用im2col技术将卷积运算转化为矩阵乘法运算,从而简化ADMM框架中卷积相关子问题的处理。其次,在池化层应用最大池化技术,仅在子问题优化过程中更新每个池化窗口内最大值的位置。这种设计将优化空间限制在下采样区域,显著降低了计算成本,同时保持了更新结果的完整性。最后,通过应用原始函数的一阶近似,采用局部线性近似(LLA)方法来处理非线性子问题。该方法无需额外数值求解器,进一步降低了计算复杂度。

图 3 卷积神经网络处理办法
在基准数据集和一个真实数据集上进行大量实验,评估了所提出框架的性能。结果表明,该算法在效率和稳定性方面优于大多数基于梯度的算法。并实现了分布式训练的实现,验证了其可以在大规模深度学习进行应用。图4是分布式的ADMM-CNN算法的实验结果图,从图中可以看出,进行分布式训练可以在不影响最终结果的情况下显著的减小训练迭代时间。图5是在真实数据集上的验证结果和不同参数对其影响。从图5(b)中可以看出,在200轮迭代后,其最终精确度领先于除了Adam外的其他算法;图5(c)、(d)展示了不同参数对其准确率和损失的影响。

图 4 分布式训练损失随时间变化

图 5 肺结节CT数据集中 ADMM 的性能表现。(a)良性/恶性肺结节及其掩膜。
(b)不同方法的测试准确率。(c)不同 β 和 λ 值下的测试准确率。(d)不同 β 和 λ 值下的测试损失值。
CNN在深度学习领域有广泛的应用,我们所研究的成果即ADMM-CNN训练框架,有效解决了深度CNN训练过程中梯度消失和梯度爆炸的问题,为CNN模型训练及计算机视觉的广泛应用提供了一种创新且高效的解决方案。