优质边坡防护网：麻省理工学院的研究发现人类在与RL代理合作时会挣扎

人工智能已经证明，复杂的棋盘游戏和视频游戏不再是人类思维的专属领域。从国际象棋到 Go 到星际争霸，使用强化学习算法的AI 系统近年来的表现都超过了人类世界冠军。

但是，根据麻省理工学院林肯实验室 AI 研究人员的一项研究，尽管 RL 代理的个人表现很高，但当与人类玩家配对时，它们可能会成为令人沮丧的队友。该研究涉及纸牌游戏Hanabi 中人类和 AI 代理之间的合作，表明相比复杂的 RL 系统，玩家更喜欢经典且可预测的基于规则的 AI 系统。

文章插图

该研究结果发表在 arXiv 上的一篇论文中，突出了将强化学习应用于现实世界情况的一些尚未探索的挑战，并且可能对旨在与人类合作的 AI 系统的未来发展产生重要影响。

寻找强化学习的差距

深度强化学习是最先进的游戏机器人使用的算法，它首先为代理提供一组游戏中可能的动作、一种从环境接收反馈的机制以及要追求的目标。然后，通过大量的游戏情节，RL 代理逐渐从随机动作转变为学习可以帮助其最大化目标的动作序列。

深度强化学习的早期研究依赖于对来自人类玩家的游戏数据进行预训练的智能体。最近，研究人员已经能够开发出 RL 代理，该代理可以在没有人工输入的情况下通过纯粹的自我游戏从头开始学习游戏。

在他们的研究中，麻省理工学院林肯实验室的研究人员有兴趣了解一个超越人类的强化学习程序是否可以成为人类可靠的同事。

“在非常高的层面上，这项工作的灵感来自以下问题：存在哪些技术差距阻止强化学习 (RL) 应用于现实世界的问题，而不仅仅是视频游戏?”林肯实验室的人工智能研究员、该论文的合著者罗斯艾伦博士告诉 TechTalks 。“虽然存在许多这样的技术差距(例如，现实世界的特点是不确定性/部分可观察性、数据稀缺性、模糊/微妙的目标、不同的决策时间尺度等)，但我们认为与人类合作的必要性是在现实世界中应用 RL 的关键技术差距。”

对抗与合作博弈

最近的研究主要将强化学习应用于单人游戏(例如 Atari Breakout)或对抗性游戏(例如星际争霸、围棋)，其中 AI 与人类玩家或其他游戏机器人进行较量。

“我们认为强化学习非常适合解决人与人工智能协作中的问题，原因与强化学习在人与人工智能竞争中取得成功的原因类似，”艾伦说。“在竞争领域，强化学习是成功的，因为它避免了关于游戏应该如何玩的偏见和假设，而是从头开始学习所有这些。”

事实上，在某些情况下，强化系统已经成功地破解了游戏并找到了连最有才华和最有经验的人类玩家都感到困惑的技巧。一个著名的例子是 DeepMind 的 AlphaGo 在与围棋世界冠军李世石的比赛中做出的举动。分析人士首先认为此举是错误的，因为它违背了人类专家的直觉。但同样的举动最终扭转了局势，有利于 AI 玩家并击败了世石。艾伦认为，当 RL 与人类合作时，同样的独创性也会发挥作用。

“我们认为，通过避免基于规则的专家系统的先入为主的假设和偏见，可以利用 RL 来推进人类与人工智能协作的最新水平，”艾伦说。

在他们的实验中，研究人员选择了 Hanabi，这是一种纸牌游戏，其中 2 到 5 名玩家必须合作以特定顺序打牌。Hanabi 特别有趣，因为它虽然简单，但也是一个充分合作和信息有限的游戏。玩家必须将他们的牌向后拿，不能看到他们的脸。因此，每个玩家都可以看到他们队友的卡片的面孔。玩家可以使用有限数量的代币来为彼此提供有关他们所持牌的线索。玩家必须利用他们在队友手上看到的信息以及他们对自己手牌的有限提示来制定获胜策略。

以上关于本文的内容，仅作参考！温馨提示：如遇健康、疾病相关的问题，请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容，希望对您有所帮助：