计算机视觉三大领域 计算机视觉技术的发展方向


计算机视觉三大领域 计算机视觉技术的发展方向

文章插图
随着深度学习的进步、计算存储的扩大、可视化数据集的激增,计算机视觉方面的研究在过去几年蓬勃发展 。在自动驾驶汽车、医疗保健、零售、能源、语言学等诸多领域,计算机视觉的应用都越来越广 。
我将在本文中介绍 2018 年主导了计算机视觉研究的 5 个主要趋势 。详尽回顾太难,此处只会分享这个领域中令我印象深刻的成就 。
1?—?合成数据合成数据,即人工合成、用来训练深度学习模型的数据,在 2018 年的计算机视觉研究领域绝对是重头戏 。例如这个 SUNCG 数据集 被用于模拟室内环境,这个 Cityscapes 数据集被用于驾驶和导航,这个合成人类的 SURREAL 数据集 被用于学习姿势估计和追踪 。让我们一起来过一遍 2018 年利用合成数据的最佳成果们:
在 How Well Should You Label (你该标记得多好) 中,作者着眼于为了从现代 CNN 架构中得到良好的分割质量,对训练标签的质量要求有多低 。这很重要,因为合成数据通常以其像素完美的质量而闻名 。作者在 Auto City 数据集上进行实验,证明最终的分割质量确实与标记所花费的时间量密切相关,但与每个标签的质量无关 。Soccer on Your Tabletop (桌面上的足球) 提出了一个可以拍摄足球比赛的视频流并将其转换为移动 3D 重建的系统,该重建可被投影到桌面上并使用增强现实设备进行观看 。系统提取运动员的边界框,使用姿势和深度估计模型分析人物图形,最终得到非常精确的3D场景重建 。现有的大多特征学习方法都缺乏人类那样同时从不同信息源学习的能力 。Cross-Domain Self-supervised Multi-task Feature Learning(跨领域自监督多任务特征学习) 使用合成图像通过提出一个原始的多任务深度学习网络来解决这个差距,该网络使用合成图像来更好地学习跨模态设置中的视觉表示 。通过合成图像训练网络大大减少了多任务学习所需的往往昂贵且耗时的数据注释 。为了弥合真实数据和合成数据之间的跨域差距,在无监督的特征级域适应方法中采用对抗性学习,增强了在视觉特征知识到现实世界任务的迁移方面的表现 。Training Deep Networks with Synthetic Data (用合成数据训练深度网络) 提出了一种依赖合成数据的域随机化训练用于真实物体检测的深度神经网络数据的精确方法 。域随机化通过刻意和随机地干扰环境的纹理来迫使网络聚焦并识别对象的主要特征,从而减少对高质量模拟数据集的需求 。为了增强这一过程的性能,会进行结合合成数据和真实数据的额外训练,从而弥合现实差距、得到更好的性能 。论文还提出了不同的方法来发挥合成数据的潜力,认为这一领域将在未来几年进一步发展 。2?—?视觉问答视觉问答(Visual question answering,VQA)是一种结合计算机视觉和自然语言处理的新问题 。通常涉及到给计算机展示一张图片,让计算机回答关于图片的问题 。答案可以是以下任何一种形式:一个单词,一个词组,是/否,选择题答案,或者是填空题答案 。
诸如 DAQUAR,Visual7W,COCO-QA, VQA 之类的多种数据集都致力于解决这项任务. 让我们同样来看看视觉问答领域的今年最佳:
Embodied QA 以创建完全智能代理为目标,这些代理可以主动感知,在基于环境的对话中自然交流、表现和执行命令 。通过目标驱动的 3D 设置智能导航,代理被要求基于对象识别和视觉定位和理解来回答问题 。有趣的是,该代理仅使用自我中心视觉来导航其周围环境 。这意味着代理没有提供地图,只能通过原始感官输入(像素和单词)进行训练,并且必须依靠常识来导航不熟悉的环境 。标准的 VAQ 模型不如人类自然互动那样采样高效、简要,而是被动地依赖于大型静态数据集 。Learning by asking questions 通过引入模仿自然学习的更具互动性的 VQA 模型填补了这一研究空白 。在这篇文章中,通过评估其先前获得的知识并询问相关的好问题来最大化来自发送到 oracle 的每个图像-问题对学习信号,训练代理像人一样学习 。该论文还展示了交互式提问如何显著减少冗余和训练所需样本,以实现准确率提高40% 。Inverse Visual QA (iVQA) 连接了其他旨在通过专注于开发视觉定位来提高标准 VQA 模型性能的模型 。本文颠倒了流行的 VQA 任务,目标是在给定图像/答案对的情况下生成问题 。标准 VQA 的学习偏差破坏了评估过程 。iVQA 使用部分生成的问题,对应于图像-答案对的偏差较小的学习先验,以实现更多的视觉定位 。Interactive QA 致力于解决标准 VAQ 模型的一个短板:通常是被动的,不能训练能够在其环境中导航、交互和执行任务的完全智能的代理 。该模型使用具有语义空间记忆的多级控制器方法,收集模拟真实场景的丰富数据集和广泛的问题以评估模型 。它推动标准 VQA 朝着创建完全视觉智能代理的最终目标迈进 。有效地评估当前最先进的 VQA 模型的性能并防止它们依赖有偏差的训练先验是一个仍在开发中的领域 。为了这一目标,Grounded Visual QA 模型提供了一种新方法,可以直接分离从合理的先前答案中识别出的对象,从而迫使模型更多地去视觉定位 。从该报告的优异成果以及当前社区对这一研究领域的关注来看,未来用创新方法进一步推进 VQA 模型很有希望 。3?—?域适应2018年有一些特定的研究方向,一个是域适应 。该领域实际上与合成数据密切相关 。它解决了为监督学习收集标记数据集并确保数据足够可靠和多样化这一巨大挑战 。这个问题的本质是,我们如何使用一种数据来让网络能处理不同的数据 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: