人工智能模型终于学会说“我不知道”来抑制聊天机器人的过度自信

韩国研究人员终于开发出了一种新方法，可以让人工智能模型承认它们对人类行为等话题的不熟悉。

韩国科学技术院的研究人员表示，这一突破可以提高自动驾驶和医学等领域使用的人工智能模型的可靠性。

此前的研究强调人工智能“过度自信”是使用此类工具进行决策的主要风险之一，特别是在医疗诊断等领域。

常用的人工智能模型（例如 OpenAI 的 ChatGPT）已被证明会产生“幻觉”或事实，因为它们被鼓励猜测而不是承认自己缺乏知识。

现在，研究人员开发了一种方法，使人工智能能够识别涉及不熟悉或未见过的知识的情况，有助于提高聊天机器人的整体可靠性。

他说，对人工智能过度自信的根本原因是它使用人工神经网络从初始数据中学习的方式，人工神经网络构成了人工智能的骨干基础设施。

此阶段遇到的小错误可能会传播，如果不纠正，则会在后续训练中导致严重错误。

研究人员发现，当在初始阶段将随机数据输入神经网络时，该模型尽管没有学到任何东西，但仍显示出很高的置信度。

这引起了“幻觉”。

为了解决这个问题，研究人员表示，他们利用了人脑解决问题方式的线索。

对于人类来说，甚至在出生前，大脑信号就在没有外部输入的情况下产生，这有助于解决这个问题。

模仿这一点，科学家们开发了一个系统，其中人工智能模型的神经网络主干在实际学习之前使用随机噪声输入进行了简短的预训练。

研究人员表示，这个过程可以帮助人工智能在开始学习数据之前调整其不确定性，从而为自己设定基线。

预热过程可以帮助人工智能模型将其初始置信度设置为接近偶然的低水平，并显着减少其过度自信偏差。

换句话说，研究人员表示，这种方法可以帮助模型首先学习“我什么都不知道”的状态。

研究人员报告说：“虽然传统模型即使对于训练期间没有遇到的数据也会以很高的置信度给出错误答案，但经过热身训练的模型在降低置信度和识别‘不知道’的能力方面表现出明显的进步。”

这可以帮助人工智能发展区分“它知道什么”和“它不知道什么”的能力。

发表在《自然》杂志上的这项研究的作者 Se-Bum Paik 表示：“这项研究表明，通过结合大脑进化的关键原理，人工智能可以以类似于人类的方式识别自己的知识状态。” 自然机器智能， 说。

“这很重要，因为它可以帮助人工智能理解何时不确定或可能犯错，而不仅仅是提高给出正确答案的频率。”

过度自信韩国科学技术院

暴风雪