生物和人工智能驱动的机器都需要快速自适应地应对各种情况。在心理学和神经科学中,行为可以分为两种类型——习惯性的(快速而简单但不灵活)和目标导向的(灵活但复杂而缓慢)
冲绳科学技术研究所(OIST)和位于上海的微软亚洲研究院的科学家提出了一种新的人工智能方法,在这种方法中,习惯性和目标导向的行为系统学会相互帮助
通过模拟迷宫探索的计算机模拟,该方法能够快速适应不断变化的环境,并再现人类和动物在长期适应特定环境后的行为
这项发表在《自然通讯》上的研究不仅为在新兴的人工智能领域快速可靠地适应系统的发展铺平了道路,还为我们如何在神经科学和心理学领域做出决策提供了线索
科学家们基于最近备受关注的“主动推理”理论,推导出了一个模型,该模型集成了人工智能主体中学习行为的习惯性和目标导向系统,该智能主体执行强化学习,这是一种基于奖励和惩罚的学习方法
在这篇论文中,他们创建了一个模拟任务的计算机模拟,在该任务中,老鼠根据视觉线索探索迷宫,并在达到目标时获得食物奖励
他们研究了这两个系统在与环境交互时如何适应和集成,表明它们可以快速实现自适应行为。据观察,人工智能主体通过强化学习收集数据并改善自己的行为
在漫长的一天工作之后,我们通常会自动驾驶(习惯行为)回家。然而,如果你刚搬完家,没有注意,你可能会发现自己出于习惯开车回了原来的地方。
我们的大脑更喜欢什么
当你发现自己在这样做时,你会切换档位(目标导向的行为),并重新安排路线到新家。传统上,这两种行为被认为是独立的,导致行为要么是习惯性的、快速但不灵活,要么是目标导向的、灵活但缓慢
“学习过程中从目标导向行为到习惯行为的自动转变是心理学中一个非常著名的发现。我们的模型和模拟可以解释为什么会发生这种情况:大脑更喜欢确定性更高的行为。随着学习的进行,习惯行为变得不那么随机,从而增加了确定性。因此,大脑更喜欢在经过大量训练后依赖习惯行为,”OIST认知神经机器人研究所前博士生、论文第一作者韩东奇博士解释道
对于人工智能尚未训练的新目标,它使用环境的内部模型来计划其行动。它不需要考虑所有可能的行动,而是使用其习惯行为的组合,这使得计划更有效
这对传统的人工智能方法提出了挑战,因为传统人工智能方法需要在训练中明确包括所有可能的目标才能实现。在该模型中,每个期望的目标都可以在没有明确训练的情况下实现,而是通过灵活地组合所学知识来实现
认知神经机器人研究部负责人Jun Tani教授表示:“在灵活和习惯行为之间取得平衡或权衡很重要。”。“实现一个目标可能有很多可能的方法,但考虑所有可能的行动是非常昂贵的,因此目标导向的行为受到习惯性行为的限制,从而缩小了选择范围。”
"It's important to achieve a kind of balance or trade-off between flexible and habitual behavior," Prof. Jun Tani, head of the Cognitive Neurorobotics Research Unit stated. "There could be many possible ways to achieve a goal, but to consider all possible actions is very costly, therefore goal-directed behavior is limited by habitual behavior to narrow down options."
想要了解更多关于脑机接口技术的内容,请关注脑机网,我们将定期发布最新的研究成果和应用案例,让您第一时间了解脑机接口技术的最新进展。