神经网络中的 Epochs, Batchsize, Iterations 具体是什么

佚名 6年前 (2020-04-10) 人工智能 1044人围观抢沙发百度已收录

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

在看神经网络相关的论文时，总是能看到Epochs, Batchsize, Iterations 这些字眼，要弄明白这些专业术语，不得不先讲下梯度下降的概念。

梯度下降

梯度下降法是机器学习中经典的优化算法之一，用来求解复杂曲线的最小值。“梯度”是指某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。“下降”是指下降递减的过程。

梯度下降法是多次迭代求解的，梯度下降的迭代质量有助于使模型尽可能拟合训练数据。

梯度下降中有一个叫做学习率的参数，如上图左所示，在迭代开始时，步长越大，学习率就越高。随着点的下降，步长变短，即学习率变小。此外，误差函数也在不断减小。

我们在训练模型时，如果训练数据过多，无法一次性将所有图像数据输入网络，为了解决这个问题，我们会将数据分成几个部分进行分批训练，即batch，使得每个批次的数据量是可以负载的。将这些batch的数据逐一输入到网络中，更新神经网络的参数，使得网络收敛。

Epoch

一个Epoch指的是将所有的数据输入网络完成一次向前计算及反向传播。由于完成一个epoch训练的周期较长（数据量大），一次性输入所有数据计算机无法负荷，所以将其分成多个batches。那么为什么还需要训练多个epochs呢？我们知道，训练网络时，仅仅将所有数据迭代训练一次是不够的，需要反复训练多次才能使网络收敛。在实际训练时，将所有数据分成多个batches，每次输入一个batch大小的数据进行训练，梯度下降本身就是一个迭代过程，所以经过单个epoch更新权重是不够的。

下图展示了经过不同的epoch训练的到的结果。