我们是知识的搬运工

  文科生也看得懂的算法及数据科学入门书!本书用通俗易懂的人类语言以及大量有趣的示例和插图讲解10多种前沿的机器学习算法。内容涵盖k均值聚类、主成分分析、关联规则、社会网络分析等无监督学习算法,以及回归分析、k最近邻、支持向量机、决策树、随机森林、神经网络等监督学习算法,并概述强化学习算法的思想。

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

  只要你认真阅读下面的这篇文章,思考文末提出的问题,严格按照 互动:你的答案 的格式在评论区留言,就有机会获得奖品!

  众所周知,计算机很多时候可以给我们的问题一个很好的答案,但我们并不理解它是如何得到这些答案的。Been Kim一直在开发一个“面向人类的翻译器(translator for humans)”,这样我们就可以知道人工智能何时会失效。

  如果一个医生告诉你需要做手术,你会想知道为什么,而且你会期望自己可以理解这个解释,即使你从未上过医学院。谷歌大脑(Google Brain)的科学家Kim认为,我们应该对人工智能抱有更高的期望。作为“可解释”机器学习(“interpretable” machine learning)的专家,她希望开发能够向任何人解释自己的人工智能软件。

  自从大约十年前人工智能兴起以来,人工智能背后的神经网络技术使用其日益强大的学习和识别数据模式的能力,已经改变了从电子邮件到药物开发的每一件事。但这种能力带来了一个问题:现代深度学习网络的复杂性使之能够成功地学会如何驾驶汽车和发现保险欺诈,但即便是人工智能专家也无法了解它内部工作的机制。如果一个神经网络被训练来识别像肝癌和精神分裂症这样的病人——就像2015年纽约西奈山医院的“深度病人(Deep Patient)”系统一样——我们不知道神经网络关注的是数据的哪些特征。这种“知识”被加诸于许多层的人工神经元上,每层都有成百上千的连接。

  随着越来越多的行业试图用人工智能实现自动化或增强他们的决策能力,这种黑箱理论似乎显示出根本性的缺陷。美国国防部高级研究计划局(DARPA)的“XAI”项目(用于“可解释的人工智能”)正在积极研究这个问题,可解释性已经从机器学习研究的边缘转移到了它的中心。Kim说:“人工智能正处于这个关键时刻,人类正试图考察这项技术是否对我们有益。”“如果我们不解决这一可解释性问题,我认为我们就不应该继续使用这项技术。我们可能会放弃它。”

  Kim和她在Google Brain的同事最近开发了一个名为“概念激活向量测试(TCAV)”的系统,她将其描述为“面向人类的翻译器”,该系统允许用户询问黑匣子人工智能一个特定的高层次概念在其推理中发挥了多大作用。例如,如果一个机器学习系统已经被训练识别图像中的斑马,那么一个人可以使用TCAV来确定系统在做出决定时对“条纹”概念给予了多少权重。

  可解释性是什么意思,它为什么如此重要,Kim一一给出了解答。

  “可解释性”这个词到底是什么意思?

  可解释性有两个分支。一种是科学的可解释性:如果你把神经网络作为研究对象,那么你就可以进行科学实验来真正理解关于模型的细节、它的反应以及诸如此类的事情。

  可解释性还有第二个分支,我主要关注的是人工智能的可解释性。你不必了解模型的每一个细节。但是,只要你能够理解并足够安全地使用该工具就可以了,这就是我们的目标。

  你为什么能对一个你不完全理解其工作原理的系统有信心呢?

  我给你打个比方。假设我后院有一棵树,我想砍掉它。我可能会用电锯来做这项工作。现在,我不完全理解电锯是如何工作的。但手册上说,“这些是你需要小心的事情,以免割到你的手指。”所以,根据这本手册,我宁愿用电锯也不愿用手锯,手锯的原理容易理解,但会让我花五个小时来砍树。

  你知道“切割”是什么,即使你不完全知道完成这个动作的机制是什么。

  对。第二个可解释性的第二个分支是:我们能充分理解一个工具,以便安全地使用它吗?我们可以通过确认工具中反映出的人类已有的知识来形成这种理解。

  “反映人类知识”如何使人工智能更容易理解?

  这有另一个例子。如果医生使用机器学习模型来进行癌症诊断,医生会想知道,该模型有没有利用数据中我们不想涉及的随机性。确保这一点的一种方法是确认机器学习模型正在做医生会做的事情。换句话说,证明医生自己的诊断知识已经反映在模型中。

  因此,如果医生在判断一个细胞是否变成了癌细胞,他们可能会在标本中寻找一种叫做“融合腺(fused glands)”的东西。他们还可以考虑患者的年龄,以及患者过去是否接受过化疗。这些都是医生诊断癌症时关心的因素。如果我们能证明机器学习模型也注意到了这些因素,那么模型就更容易理解了,因为它反映了医生作为人类会具备的知识。

  这就是TCAV所做的吗?它揭示了机器学习模型使用哪些高级概念来做出决策?

  对。在此之前,可解释性方法只解释了在输入数据的特征上,神经网络做了什么工作。也就是说,如果您有图像,每个像素都是一个输入参数。事实上,Yann Lecun(一位早期的深度学习先驱,目前是Facebook的人工智能研究主管)说,你可以查看神经网络中的每个节点,并查看每个输入的数值。这对电脑来说没问题,但人类不会这样做。我不会告诉你,“哦,看看100到200像素,RGB值是0.2和0.3。”我只会说,“有一张狗的照片,它的毛发真的很蓬松。”这就是人类交流的方式——利用概念。  郑州哪家不孕不育医院好:http://jbk.39.net/yiyuanzaixian/zztjyy/

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄