Inception——Going deeper with convolutions

佚名 6年前 (2019-04-21) 随笔 2199人围观抢沙发百度已收录

1. 摘要

作者提出了一个代号为 Inception 的卷积神经网络架构，这也是作者在 2014 年 ImageNet 大规模视觉识别挑战赛中用于分类和检测的新技术。

通过精心的设计，该架构提高了网络内计算资源的利用率，因而允许在增加网络的深度和宽度的同时保持计算预算不变。
SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

在作者提交的 ILSVRC14 中使用的一个特定的模型称为 GoogLeNet ，一个 22 层深的网络，在分类和检测的背景下对其性能进行了评估。

2. 介绍

在过去三年中，卷积神经网络在图像识别和物体检测领域取得了巨大的进步。可喜的是，这不仅仅是得益于更强大的硬件、更多的数据和更复杂的模型，更是许多新的想法、算法和改进的网络结构所带来的结果。比如，我们的 GoogLeNet 相比两年前的 AlexNet 参数量少了 12 倍（500 万 VS 6000 万），但是却更加准确。

另一个值得注意的因素是，随着移动和嵌入式计算的不断发展，我们的算法效率，特别是它们的功率和内存使用，变得越来越重要。作者在设计深层的网络结构时就考虑了这一因素，而不仅仅是一味追求准确率的提高。对于文中的大部分实验，这些模型在设计时都要保证测试阶段保持 15 亿次的乘-加操作时间预算。这样，它们就不单单只是为了满足学术界的好奇心，还能够以合理的成本应用到实际中去，即使是在大型数据集上。

作者提出了代号为 Inception 的网络架构，其得名于网络中的网络 (Network in network) 这篇论文，以及与电影《盗梦空间》有关的一幅图片。

这里的 “深” 有两层意思，其一是引入了我们新的 Inception Module，其二就是直观的网络的深度。

将 Network-in-network 引入卷积神经网络后，其可以看作是一个卷积核为 1×1 的卷积层后面跟着激活函数。作者在网络中大量使用了这种结构，主要有两个目的：一是降低维度来解决计算瓶颈，因此也限制了网络的大小。这让我们不仅仅能够增加深度，同时也能在对性能没有显著损坏的情况下增加网络的宽度。

3. 动机和考虑

提高网络的性能的最直观的方法就是增加网络的大小，包括增加深度——网络的层数和增加宽度——每层的单元数。这是最简单最好用的方法，特别是给定大量的有标签数据，但是它也有两个主要的缺点。

大的模型通常意味着大量的参数，这在训练数据有限的情况下更容易过拟合。这也是一个主要的瓶颈，因为高质量训练集的建立是非常困难和高昂的，特别是在需要专业的人类评估者来区分像 ImageNe 那样的细粒度视觉类别这种情况下，如下图。

另一方面，统一增加网络的大小会显著增加计算资源的使用。比如，两个连在一起的卷积层，增加卷积核的个数后会导致计算呈平方级增加。而如果增加的参数最后大部分都接近于零的话，许多计算就是被浪费掉了。在计算资源总是有限的情况下，尽管主要目的是增加模型的性能，我们也不能随意增加网络的大小而不注重计算资源的分配。

解决这两个问题的根本方法就是将全连接变为稀疏连接，甚至是在卷积内部。然而，当涉及到非均匀稀疏数据的数值计算时，现在的计算设备效率还非常低。因此，问题就变成了两者的折中，是否能设计一种结构，既能利用稀疏性又能利用当前硬件计算密集矩阵的优势。

4. 网络架构

Inception 架构的主要思想是说，要找出卷积视觉网络中的最佳局部稀疏结构是如何通过容易获得的密集组件来近似和覆盖的。在设计网络的时候，我们应该分析上一层的相关统计特性，将它们聚集成具有高相关性的单元组。我们假设来自前面层的每个单元对应于输入图像的某个区域，并且这些单元被划分为滤波器组。

在离输入较近的层，相关的单元可能更集中于局部区域。这就意味着大量的聚类集中在一个区域，这种情况可以用一个 1×1 卷积核来实现。同理，一些其它聚类可能有更大的空间区域，也就需要我们用更大的卷积核来实现。为了避免对齐问题，作者只采用了 1×1、3×3 和 5×5 三种卷积核大小，但这不是必须的。此外，由于池化在一些卷积网络中必不可少，作者也引入了一个池化通道。