batch的取值会影响模型训练效果。batch过大,会增大内存消耗和计算时间,且训练效果并不会明显提升(因为每次参数只向梯度反方向移动一小步,所以方向没必要特别精确);batch过小,每个batch的样本数据将没有统计意义,计算的梯度方向可能偏差较大。1000 / 20 * 5 = 250越到后面的训练数据对权重影响越大的时候