在《智能计算》杂志上发表的一篇论文中,普林斯顿大学的Philip Nicholas Johnson Laird和开姆尼茨理工大学的Marco Ragni提出了一种新的图灵测试替代方案,这是一种由计算先驱Alan Turing开发的里程碑式测试。这篇论文认为,现在是时候把焦点从机器是否能模仿人类的反应转移到一个更基本的问题上了:“程序的推理方式和人类的推理方式一样吗?”,长期以来一直是人工智能评估的基石,它涉及到人类评估者试图区分人类和机器对一系列问题的反应。如果评估者不能始终如一地区分两者,则认为机器“通过”了测试。虽然它在人工智能史上一直是一个有价值的基准,但它也有一定的局限性:模仿与理解:通过图灵测试通常涉及模仿人类的反应,这使它更像是对模仿和语言生成的测试,而不是真正的类人推理。许多人工智能系统擅长模仿人类对话,但缺乏深度推理能力。缺乏自我意识:图灵测试不要求人工智能具有自我意识或理解自己的推理。它只关注外部互动和反应,忽视了人类认知的内省方面。未能解决思考问题:Alan Turing自己也认识到,该测试可能无法真正解决机器是否会思考的问题。测试更多的是模仿,而不是认知
1。心理实验测试:
研究人员建议对人工智能程序进行一系列心理实验,旨在区分类人推理和标准逻辑过程。这些实验探索了推理的各个方面,包括人类如何从复合断言中推断可能性,以及他们如何将一致的可能性浓缩为一种可能性,以及其他偏离标准逻辑框架的细微差别
2。自我反思:
这一步骤旨在衡量程序对自身推理方式的理解,这是人类认知的一个关键方面。程序必须能够反思其推理过程,并为其决策提供解释。通过提出需要意识到推理方法的问题,研究人员试图确定人工智能是否表现出类似人类的内省
3。源代码检查:
在最后一步,研究人员深入研究程序的源代码。这里的关键是识别已知的模拟人类表现的组件的存在。这些组件包括快速推理系统、深思熟虑的推理系统以及基于上下文和一般知识解释术语的能力。如果程序的源代码反映了这些原则,则程序被认为是以类似人类的方式推理的
这种创新的方法,用对人工智能程序推理能力的检查取代了图灵测试,标志着人工智能评估的范式转变。通过将人工智能视为认知实验的参与者,甚至将其代码提交给类似于大脑成像研究的分析,作者们试图让我们更接近于理解人工智能系统是否真的以类似人类的方式推理
随着世界继续追求先进的人工智能,这种替代方法有望重新定义人工智能评估的标准,并使我们更接近理解机器如何推理的目标。通往通用人工智能的道路可能已经向前迈出了重要的一步。