数据泄露会破坏机器学习模型

当开发机器学习模型来寻找数据中的模式时，各领域的研究人员通常使用单独的数据集进行模型训练和测试，这使他们能够衡量训练后的模型对新的、看不见的数据的处理效果。但是，由于人为错误，这条线有时会被无意中模糊，用于测试模型性能的数据会渗入用于训练它的数据中。

在一项新的研究中，耶鲁大学的研究人员评估了数据泄露如何影响基于神经成像的模型的性能，发现它既可以人为地夸大结果，也可以使结果变平

这项研究于2月28日发表在《自然通讯》上

生物医学研究人员正在评估机器学习在各种任务中的应用，从诊断疾病到识别可能成为疾病治疗方法的分子。在神经科学领域，科学家们正在使用机器学习来更好地理解大脑和行为之间的关系

为了训练一个模型，例如根据功能性神经成像数据预测一个人的年龄，研究人员向该模型提供功能性核磁共振成像数据和扫描对象的年龄。然后，该模型将开始将功能磁共振成像数据中的模式与年龄相关联，如果这些模式足够强大，该模型应该能够根据尚未看到的新神经成像数据预测个体的年龄

当数据泄露发生时，模型在训练阶段确实已经以某种方式看到了部分“看不见”的数据，这意味着研究人员无法确定模型的预测是否真的是预测，或者只是对其已经分析的信息的识别

耶鲁大学医学院放射学和生物医学成像副教授、该研究的高级作者Dustin Scheinost说，研究人员普遍承认应该避免数据泄露，但这种情况经常发生

“泄露数据非常容易，”他说。“这种情况有很多种发生方式。”

为了更好地了解数据泄露是如何影响机器学习性能的，研究人员首先使用不受泄露影响的功能磁共振成像数据训练了一个机器学习模型，然后测试了该模型预测年龄、个人执行一种称为矩阵推理的问题解决能力，以及来自看不见的神经成像数据的注意力问题。然后，他们在训练数据中引入了不同类型的泄漏，并将模型的预测与基于未污染训练数据的预测进行了比较

研究人员发现，两种类型的泄漏大大提高了模型的预测性能。第一种被称为“特征选择”泄漏，发生在研究人员从整个数据库中而不是仅从训练数据中选择大脑感兴趣的区域时。在第二种情况下，称为“重复受试者”泄漏，来自个人的数据出现在训练和测试集中

这种虚假膨胀会让模型看起来表现良好，而事实上，它可能根本无法用真正看不见的数据进行太多预测，这可能会影响研究人员解释模型的方式，并降低其他研究人员复制基于模型的已发表研究结果的能力

在引入另一种类型的泄漏后，研究人员发现它人为地削弱了模型的性能，在这种泄漏中，统计分析是在整个数据集而不仅仅是训练数据上进行的

与较大的数据集相比，在较小的样本量中，泄漏效应也更具可变性，因此更不可预测

虽然并非每种类型的泄露都会对模型的性能产生强烈影响，但研究人员表示，避免各种泄露是最佳做法。共享编程代码是防止事故发生的一种方法，因为其他人可以看到泄漏是否是无意中发生的。使用完善的编码包是另一种途径，这有助于防止从头开始编写代码时可能出现的错误。此外，还有一些工作表可以促使研究人员反思潜在的问题领域。

Rosenblatt说：“对你的结果持健康的怀疑态度也是关键。”。“如果你看到一些看起来不对劲的东西，最好仔细检查一下你的结果，并尝试用另一种方式验证它们。”

想要了解更多关于脑机接口技术的内容，请关注脑机网，我们将定期发布最新的研究成果和应用案例，让您第一时间了解脑机接口技术的最新进展。