原因是FC层有大量参数,在某些架构中计算了大部分网络参数。 SqueezeNet的作者删除了FC,用卷积层和全局平均池替换它们。
conv层具有多个等于类数的过滤器,将前一层的输出处理为(大致)每个类的映射。池化平均每个地图的响应。它们最终得到一个扁平向量,其维数等于类的数量,然后将其提供给SoftMax层。
通过这些修改(不要忘记他们提出的Fire模块),他们能够显着减少内存占用。
我强烈建议你阅读 SqueezeNet纸 。
SqueezeNet没有完全连接的层,而是使用全局平均池。