Convolutional Neural Networks

$O = \frac{W-K+2P}{S}+1$

$O$是output_shape，$W$是image，$K$是filter，$P$是padding，$S$是stride

stride = 1

stride = 2

$Zero Padding = \frac{(K-1)}{2}$

有这些情况会使用zero padding

也叫downsampling（下采样）层，最常用的是max-pooling

stride = 2

优点：

参见 Geoffrey Hinton（即深度学习之父）的论文：Rectified Linear Units Improve Restricted Boltzmann Machines

随机丢弃神经元，简单来说，就是在训练过程中在Dropout层设置一个随机的激活参数集，在forward pass中将这些激活参数集设置为0。

理解了大概，这部分细节需要详细看看

参考资料
https://www.zhihu.com/question/52668301