想象一下,当你在手机上滚动照片时,你会看到一张起初你无法识别的图像。它看起来像是沙发上模糊的东西;它会是枕头还是外套?几秒钟后,它会发出咔哒声——当然!那团绒毛是你朋友的猫,Mocha。虽然你的一些照片可以在一瞬间被理解,但为什么这张猫的照片要困难得多
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员惊讶地发现,尽管理解视觉数据在从医疗保健到交通运输到家用设备等关键领域至关重要,但图像对人类的识别难度这一概念几乎被完全忽视了
基于深度学习的人工智能进步的主要驱动力之一是数据集,但我们对数据如何推动大规模深度学习的进步知之甚少,除了越大越好
在需要理解视觉数据的真实世界应用中,尽管模型在当前数据集上表现良好,包括那些明确设计用于挑战具有去偏图像或分布变化的机器的模型,但人类的表现优于对象识别模型
这个问题仍然存在,部分原因是我们没有关于图像或数据集的绝对难度的指导。如果不控制用于评估的图像的难度,就很难客观地评估人类水平的表现进展,覆盖人类能力的范围,并增加数据集带来的挑战
为了填补这一知识空白,麻省理工学院电气工程和计算机科学博士生、CSAIL附属机构David Mayo深入研究了图像数据集的深层世界,探索了为什么某些图像对人类和机器来说比其他图像更难识别
“有些图像天生需要更长的时间才能识别,了解大脑在这一过程中的活动及其与机器学习模型的关系至关重要。也许我们目前的模型中缺少复杂的神经回路或独特的机制,只有在用具有挑战性的视觉刺激进行测试时才能看到。这一探索对于理解和增强机器视觉模型至关重要,”一篇关于这项工作的新论文的主要作者Mayo说
这导致了一种新指标的发展,即“最小观看时间”(MVT),它根据一个人在进行正确识别之前需要观看多长时间来量化识别图像的难度
使用机器学习中流行的数据集ImageNet和旨在测试对象识别稳健性的数据集ObjectNet的子集,该团队向参与者展示了从短至17毫秒到长至10秒的不同持续时间的图像,并要求他们从50个选项中选择正确的对象
在进行了20多万次图像展示试验后,该团队发现,包括ObjectNet在内的现有测试集似乎倾向于更容易、更短的MVT图像,而绝大多数基准性能都来自于对人类来说容易的图像
该项目确定了模型性能的有趣趋势,特别是与缩放相关的趋势。较大的模型在较简单的图像上显示出相当大的改进,但在更具挑战性的图像上进展较少。CLIP模型融合了语言和视觉,在朝着更像人类的识别方向发展时脱颖而出
“传统上,对象识别数据集倾向于不太复杂的图像,这种做法导致了模型性能指标的膨胀,无法真正反映模型的稳健性或处理复杂视觉任务的能力。我们的研究表明,较硬的图像构成了更严峻的挑战,导致了标准评估中通常没有考虑到的分布变化,”Mayo说
“我们发布了带有难度标记的图像集以及自动计算MVT的工具,使MVT能够添加到现有的基准测试中,并扩展到各种应用程序中。其中包括在部署真实世界系统之前测量测试集的难度,发现图像难度的神经相关性,以及推进对象识别技术以缩小基准测试和真实世界性能之间的差距。”
Jesse Cummings说,麻省理工学院电气工程和计算机科学研究生,也是该论文的第一作者之一
从ObjectNet到MVT
几年前,该项目背后的团队发现了机器学习领域的一个重大挑战:模型正在努力处理分布不均的图像或训练数据中没有很好表现的图像。输入ObjectNet,这是一个由从现实生活中收集的图像组成的数据集
该数据集通过消除其他基准中存在的虚假相关性,例如对象与其背景之间的相关性,有助于阐明机器学习模型与人类识别能力之间的性能差距。ObjectNet揭示了机器视觉模型在数据集上的性能与在现实世界应用中的性能之间的差距,鼓励许多研究人员和开发人员使用,从而提高了模型性能
快进到现在,团队在MVT方面的研究又向前迈进了一步。与专注于绝对性能的传统方法不同
该研究进一步探讨了如何解释图像难度,并测试其与人类视觉处理的相似性。使用c核心、预测深度和对抗性鲁棒性等指标,该团队发现网络对较硬的图像的处理方式不同。梅奥说:“虽然有一些可观察到的趋势,比如更容易的图像更具原型,但科学界仍然无法对图像难度做出全面的语义解释。”。
例如,在医疗保健领域,理解视觉复杂性的针对性变得更加明显。人工智能模型解释医学图像(如X射线)的能力取决于图像的多样性和难度分布。研究人员主张为专业人士量身定制对难度分布的细致分析,确保人工智能系统的评估基于专家标准,而不是外行的解释。
Mayo和Cummings目前也在研究视觉识别的神经基础,探讨大脑在处理简单图像和具有挑战性的图像时是否表现出不同的活动。这项研究旨在揭示复杂的图像是否会增加通常与视觉处理无关的大脑区域,希望有助于解开我们的大脑如何准确有效地解码视觉世界的神秘面纱。
迈向人类水平的绩效
展望未来,研究人员不仅专注于探索如何增强人工智能对图像难度的预测能力。该团队正在努力识别与观看时间难度的相关性,以便生成更难或更容易的图像版本。
尽管这项研究取得了重大进展,但研究人员承认存在局限性,特别是在物体识别与视觉搜索任务分离方面。目前的方法集中于识别物体,忽略了杂乱图像带来的复杂性。
Mayo说:“这种全面的方法解决了客观评估物体识别中人类水平表现进展的长期挑战,并为理解和推进该领域开辟了新的途径。”。
“这项工作有可能将“最小观看时间”难度指标适用于各种视觉任务,为物体识别中更稳健、更人性化的性能铺平了道路,确保模型真正经过测试,并为现实世界视觉理解的复杂性做好准备。”
约翰斯·霍普金斯大学布隆伯格认知科学和计算机科学杰出教授Alan L.Yuille没有参与这篇论文,他说:“这是一项引人入胜的研究,研究了如何利用人类感知来识别人工智能视觉模型的弱点,这些弱点通过专注于简单的图像来高估人工智能的性能。”。
“这将有助于制定更现实的基准,不仅能改善人工智能,还能更公平地比较人工智能和人类感知。”
“人们普遍认为,计算机视觉系统现在的性能优于人类,在一些基准数据集上,这是真的,”17岁的人类技术工作人员Simon Kornblith博士说,他也没有参与这项工作。
“然而,这些基准测试的很多困难都来自于图像中的模糊性;普通人只是不知道如何对不同品种的狗进行分类。这项工作的重点是人们只有在有足够时间的情况下才能得到正确的图像。这些图像对计算机视觉系统来说通常要困难得多,但最好的系统只比人类差一点。”