优质边坡防护网:麻省理工学院的研究发现人类在与RL代理合作时会挣扎( 三 )



与此同时,艾伦警告不要将 Hanabi 实验的结果外推到他们无法测试的其他环境、游戏或领域 。该论文还承认了实验中的一些限制,研究人员正在努力解决这些问题 。例如,主题库很小(29 名参与者)并且偏向于精通 Hanabi 的人,这意味着他们对 AI 队友有预定义的行为期望,并且更有可能对RL的古怪行为产生负面体验代理 。

尽管如此,这些结果可能对强化学习研究的未来产生重要影响 。

“如果最先进的 RL 智能体甚至无法在像 Hanabi 这样受限和狭窄的游戏中成为可接受的合作者;我们真的应该期待相同的强化学习技术在应用于更复杂、细微、有影响的游戏和现实世界情况时能够‘正常工作’吗?”艾伦说 。“在技术和学术领域有很多关于强化学习的讨论;理所当然 。但是,我认为我们的研究结果表明,不应在所有可能的应用中都认为 RL 系统的卓越性能是理所当然的 。”

例如,很容易假设 RL 可用于训练能够与人类密切协作的机器人代理 。但艾伦说,麻省理工学院林肯实验室的工作结果表明情况恰恰相反,至少考虑到目前的技术水平 。

“我们的结果似乎意味着,在基于学习的智能体成为人机交互等复杂情况下的有效合作者之前,还需要更多的理论和应用工作,”他说 。版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人 。本文( http://www.diemang.com)仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任 。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 907991599@qq.com 举报,一经查实,本站将立刻删除 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: