在图像识别软件的背景下,可以在社交媒体上识别我们的朋友,我们院子里的野花是神经网络,这是一种受我们大脑处理数据方式启发的人工智能
当神经网络快速处理数据时,它们的架构使人们很难追踪人类显而易见的错误的来源——比如将匡威高帮上衣与踝靴混淆——限制了它们在医疗图像分析或研究等更重要的工作中的使用。普渡大学开发的一种新工具使发现这些错误变得像从飞机上发现山顶一样简单
“从某种意义上说,如果神经网络能够说话,我们就向你展示了它试图说什么,”理学院普渡大学计算机科学教授David Gleich说,他开发了该工具,该工具发表在《自然机器智能》杂志上的一篇论文中
“我们开发的工具可以帮助你找到网络在说‘嘿,我需要更多信息来完成你的要求’的地方。我建议人们在任何高风险的神经网络决策场景或图像预测任务中使用该工具。”
该工具的代码和用例演示都可以在GitHub上找到。Gleich与同样是普渡大学计算机科学教授的Tamal K.Dey和获得计算机科学博士学位的前普渡大学研究生Meng Liu合作进行了这项研究
在测试他们的方法时,Gleich的团队发现神经网络在从胸部X光片、基因序列到服装的所有数据库中都错误地识别了图像。在一个例子中,神经网络反复将Imagenette数据库中的汽车图像错误标记为盒式磁带播放器。原因是什么?这些图片来自网上销售清单,并包括汽车立体声设备的标签
神经网络图像识别系统本质上是以模拟图像分析和识别时神经元加权放电模式的方式处理数据的算法。系统通过一组“训练集”图像来完成其任务,例如识别动物、衣服或肿瘤,其中包括每个像素的数据、标签和其他信息,以及分类在特定类别中的图像的身份
使用训练集,网络学习或“提取”所需的信息,以便将输入值与类别相匹配。这些信息是一个称为嵌入向量的数字串,用于计算图像属于每个可能类别的概率。一般来说,图像的正确身份属于概率最高的类别
但是嵌入的向量和概率与人类能够识别的决策过程并不相关。输入100000个代表已知数据的数字,网络生成一个128个数字的嵌入向量,这些数字与物理特征不对应,尽管它们确实使网络能够对图像进行分类
换句话说,你不能打开一个经过训练的系统的算法并跟随它。在输入值和图像的预测身份之间是一个众所周知的“黑盒”,由多层无法识别的数字组成
“神经网络的问题是,我们无法看到机器内部来理解它是如何做出决策的,那么我们如何才能知道神经网络是否在犯一个特征性的错误呢?”Gleich说
Gleich的方法不试图通过网络追踪任何单个图像的决策路径,而是可以可视化计算机在整个数据库中看到的所有图像之间的关系。把它想象成神经网络组织所有图像的鸟瞰图
图像之间的关系(如网络对数据库中每个图像的身份分类的预测)基于网络生成的嵌入向量和概率。为了提高视图的分辨率,并找到网络无法区分两种不同分类的地方,Gleich的团队首先开发了一种拆分和重叠分类的方法,以识别图像属于多个分类的可能性很高的地方
然后,团队将这些关系映射到Reeb图上,Reeb图是拓扑数据分析领域的一种工具。在图上,网络认为相关的每组图像都由一个点表示。点按分类进行颜色编码。点越近,网络认为组越相似,图形的大多数区域都显示出单一颜色的点簇
但是,属于一个以上分类的高概率图像组将由两个不同颜色的重叠点表示。只需一眼,网络无法区分两种分类的区域就会显示为一种颜色的一簇点,伴随着第二种颜色的少量重叠点。放大重叠的点会显示一个混乱的区域,就像汽车和盒式磁带播放器的照片一样
"What we're doing is taking these complicated sets of information coming out of the network and giving people an 'in' into how the network sees the data at a macroscopic level," Gleich said. "The Reeb map represents the important things, the big groups and how they relate to each other, and that makes it possible to see the errors."