DeepMind评估AI多模态图像语言转换器在看图理解中对动词的识别力( 二 )

下面的条形图详细说明了测试的结果。标准多模态转换器模型经过测试后总体准确率达到 64.3% ，这也显示了 SVO- Probes 数据集确实具有挑战性。而这一 AI 模型在对于主语和宾语判断的准确率分别为 67.0% 和 73.4% ，但是对于动词判断的准确率却下降到 60.8% 。这一结果表明，动词识别确实对 AI 系统模型具有挑战性。
此外，该公司的工程师们还进一步总结调查了哪些类别的动词对于这些 AI 预训练模型尤其具有挑战性。结果发现，像“抓”这样的运动性动词以及“带领”这样在不同类型的语境中经常出现的动词对于 AI 来说更容易。而 AI 模型判断的正确率最高的动词有“打斗”“包围”“滑雪”“参加”等；而错误率最高的几个动词有“切”“争论”“断”等。

文章插图
图｜多模态机器学习的图像语言转换器对于 SVO-Probes 数据集进行判断测试之后的结果（来源：DeepMind）
值得一提的是，当工程师们对哪些模型架构在 SVO-Probes 数据集上的表现更好这一问题进行探索时，他们惊讶地发现，相比图像建模能力更强的标准图像语言转换器模型，那些图像建模较弱的模型反而表现更好。对这一与直觉相反的发现的解释的一个假设是，标准转换器模型在图像识别方面可能有些“过度训练”了。
-End-
参考：
https://deepmind.com/research/publications/2021/Probing-Image-Language-Transformers-for-Verb-Understanding
https://aclanthology.org/2021.findings-acl.318.pdf

文章插图

以上关于本文的内容，仅作参考！温馨提示：如遇健康、疾病相关的问题，请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容，希望对您有所帮助：