大道至简----多示例学习与注意力机制的巧妙结合

佚名 6年前 (2020-02-24) 人工智能 816人围观抢沙发百度已收录

谈谈《Attention-based deep multiple instance learning》 ICML 2018

分享一篇十分简约且对我至关重要的一篇优秀的会议论文《Attention-based deep multiple instance learning》。首先分别谈谈我对多示例学习和注意力机制的理解，再聊一下这篇文章的精彩之处。

01 多示例学习

谈到多示例学习就一定要向南京大学周志华老师致敬，周老师是多示例学习领域的领航员。在此引用周老师对多示例学习的描述[1]：

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

“在多示例学习中，训练样本是由多个示例组成的包，包是有概念标记的，但示例本身却没有概念标记。如果一个包中至少包含一个正例，则该包是一个正包，否则即为反包。学习的目的是预测新包的类别。”

我们以直观方式表述了多示例的概念(Fig. 1)，图中内容非常直观就不做描述了。

Fig. 1. Illustration of a MIL Problem (引用自[2])

多示例学习中的关键是找到示例与包之间的逻辑关系，因为示例本身是无标签的而其所属的包是有标签的，所以这是一种弱监督学习框架下的特殊范式。公式(1-3)是应用较多的三种方式，看起来非常的简单但却是近年的主要方法。公式(1)所应用的逻辑在多示例领域被称为示例平均池化，即首先对示例得分(概率空间)进行判别，而后取所有示例得分平均值作为包的结果。公式(2)所展示的方式称为最大池化，即选择Key Instance，也就是找出得分最高的关键示例来代表其包的结果。而第三种所要讨论的，就是基于注意力机制的方式。

02 注意力机制

注意力机制（Attention Mechanism）是解决信息超载问题的主要手段的一种资源分配方案，将计算资源分配给更重要的任务。通俗且不是很严谨的说，就是一种被赋予了直观意义的权重，它决定着哪一部分信息更加重要。与上文结合来说，公式(1)和公式(2)可以认为是多示例问题中的一种硬性注意力。

公式(1)中每个示例的注意力权重可以认为是1/n。公式(2)中Key Instance权重为1.0，而其余示例的注意力权重均为0。

03 示例注意力

Fig. 2. The Framework of MI-Net (引用自[3])

Fig. 2 是经典的多示例网络，没错就是如此简单和经典。他与我们所熟悉的全连接网络区别在于，网络末端增加了符合多示例假设的模块：Instance Score Layer和MIL Pooling Layer。上述经典的网络结构中所使用的Pooling方法正是上文提到的最大池化。

那么《Attention-based deep multiple instance learning》文章所采用的注意力机制是如何实现的呢？我们首先定义包H，h_i表示H中的示例。那么对包H的加权和就如公式(7)所示。动态的权重a则借鉴了加性注意力模型思想进行构建(公式8)，其中W和V为网络参数。

另外，该文章作者提到：tanh激活函数在表达非线性复杂关系是效果不好。因为tanh值域在[-1,+1]之间，在一定程度上限制了示例之间关系的表达。所以作者进一步引入了门控思想构建了Gated Attention。从公式(9)中也不难看出，实际上就是多了一步激活函数为Sigmoid的加权，并以element-wise形式结合。其实这一部分作者并没有给出充分的理论依据，我想此处大多数的idea来源于经验。如果讲的理论些，我更愿意理解为是对两种激活函数不同特性的集成。而且从该论文实验中也看得出，Gated的方案也并不是永远优于第一个版本的。

该文章所设计的实验是我最喜欢的。对于相对小众的多示例领域，作者利用MNIST数据集构建了MNIST-Bag进行可视化实验，详细设置不赘述了，感兴趣可以直接读读原文。总之，作者利用可视化实验讨论了某个学术界小有争议的话题：注意力机制是否具备可解释性。而在本文方法中，答案是肯定的。注意力机制确实发现了包中的目标示例(关键示例，实验中设置为数字9)。对于其余实验效果同样出众，在此不赘述了。