优质边坡防护网:麻省理工学院的研究发现人类在与RL代理合作时会挣扎( 二 )



“在追求现实世界的问题时,我们必须从简单开始,”艾伦说 。“因此,我们专注于 Hanabi 的基准协作游戏 。”

近年来,多个研究团队探索了可以玩花的人工智能机器人的开发 。其中一些代理使用符号 AI,工程师预先提供游戏规则,而其他代理则使用强化学习 。

人工智能系统根据它们在自我游戏(代理玩自己的副本)、交叉游戏(代理与其他类型的代理合作)和人类游戏(代理合作)中的表现进行评级与人) 。

研究人员写道:“与人类的交叉游戏,称为人类游戏,特别重要,因为它衡量人机合作,并且是我们论文中实验的基础 。”

为了测试人与人工智能合作的效率,研究人员使用了智能机器人(SmartBot),这是自我游戏中表现最佳的基于规则的人工智能系统,以及其他游戏,一种在交叉游戏和人类游戏中排名最高的 RL 中的 Hanabi 机器人算法 。

“这项工作直接扩展了先前在 RL 方面的工作,用于训练 Hanabi 代理 。我们特别研究了来自 Jakob Foerster 实验室的“Other Play”强化学习代理,”艾伦说 。“该代理的训练方式使其特别适合与在培训期间未遇到的其他代理合作 。当它与其他在训练中没有遇到过的人工智能合作时,它在 Hanabi 中产生了最先进的性能 。”

人机合作

在实验中,人类参与者与 AI 队友玩了几款 Hanabi 游戏 。玩家接触了 SmartBot 和其他游戏,但没有被告知幕后工作的算法 。

研究人员根据客观和主观指标评估了人与人工智能合作的水平 。客观指标包括分数、错误率等 。主观指标包括人类玩家的体验,包括他们对 AI 队友的信任度和舒适度,以及他们理解 AI 动机和预测其行为的能力 。

两个AI代理的客观表现没有显着差异 。但是研究人员希望人类玩家对其他游戏有更积极的主观体验,因为它已经被训练为与自身以外的代理合作 。

“我们的结果让我们感到惊讶,因为人类参与者对与其他游戏代理合作的反应非常强烈 。简而言之,他们讨厌它,”艾伦说 。

根据参与者的调查,与基于规则的 SmartBot 代理相比,经验丰富的 Hanabi 玩家对其他游戏 RL 算法的体验较差 。Hanabi 成功的关键点之一是向其他玩家提供微妙提示的技巧 。例如,假设“方格之一”牌放在桌子上,你的队友手里拿着两个方格 。通过指着这张牌说“这是一张二”或“这是一张正方形”,你是在暗示你的队友打出那张牌,而没有告诉他关于这张牌的完整信息 。一个有经验的玩家会立即抓住这个提示 。但事实证明,向 AI 队友提供相同类型的信息要困难得多 。

“我给了他信息,他只是把它扔掉,”一名参与者在对其他球员的经纪人感到沮丧后说道,据该报称 。另一个说,“在这一点上,我不知道重点是什么 。”

有趣的是,Other-Play 旨在避免创建“秘密”约定,这是 RL 代理在仅通过自我对弈时制定的 。这使得 Other-Play 成为不属于其训练制度一部分的 AI 算法的最佳队友 。但研究人员指出,它仍然对遇到的队友类型有假设 。

“值得注意的是,[Other-Play] 假设队友也针对零射击协调进行了优化 。相比之下,人类 Hanabi 玩家通常不会根据这种假设进行学习 。赛前约定设置和赛后评论是人类 Hanabi 玩家的常见做法,这使人类学习更类似于少拍协调,”研究人员在他们的论文中指出 。

对未来人工智能系统的影响

“我们目前的研究结果表明,在与人工智能合作时,仅人工智能的客观任务表现(我们在论文中称为‘自我游戏’和‘交叉游戏’)可能与人类的信任和偏好无关,”艾伦说过 。“这就提出了一个问题:什么样的客观指标做关联到人的主观偏好?鉴于训练基于 RL 的代理需要大量数据,在循环中与人类一起训练是站不住脚的 。因此,如果我们想训练被人类合作者接受和重视的 AI 代理,我们可能需要找到可训练的目标函数,这些目标函数可以作为人类偏好的替代品,或与人类偏好密切相关 。”


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: