的 TL; DR: 强> 卷积层的过滤器必须与数量相匹配 该层输入的通道。
的 TL; DR: 强>
卷积层的过滤器必须与数量相匹配 该层输入的通道。
因此,假设您的网络接收3通道彩色图像(例如RGB),尺寸为128x128(高度和宽度为128像素)作为输入。所以你的第一个卷积层的输入(让我们称之为 CONV1 ) 将会 的 3x128x128 强> (通道x宽x高)。
现在假设 CONV1 有64个大小为7x7的过滤器。为了处理来自输入的所有值,单个过滤器必须与馈送到该层的输入通道的数量匹配(否则在卷积期间不会考虑某些通道)。所以它也必须是3通道滤波器,最后,我们将有64个尺寸为3x7x7的滤波器 CONV1 。
Conv1将输出维度图 的 64x128x128 强> (过滤器数量X重量X高度)。如果您不清楚,请检查 这个演示 [1]。
然后是下一个转换层的过滤器( CONV2 )还必须匹配它们的尺寸以匹配输出。例如,32个大小为64x5x5的过滤器(对于空间维度为5x5的过滤器)。等等...
(为了简单起见,我们假设在卷积之前对输入进行零填充。零填充是我们对输入映射进行零的“边界”。这意味着空间维度,即宽度和高度,不会如果没有填充,则输出将小于输入。例如,对于输入大小为128x128的7x7滤波器,输出最终将具有125x125的大小。空间维度的减小等于 的 楼层(filter_size / 2) 强> )
[1] 用于视觉识别的CS231n卷积神经网络