datav数据可视化工具 阿里云datav数据可视化( 三 )


表2 数据可视化交互技术
分别以高维数据可视化中的散点图和平行坐标交互方式为例进行说明 。在散点图可视化交互中,用户交互式地选取关注的属性数据进行可视化,比如按照重要程度排列属性,优先显示重要的程度高的属性,并比对不同属性散点图所展示的关联关系差异,在一定程度上缓解空间的局限 。在平行坐标可视化交互中,由于平行坐标多描述相邻两个属性之间的关系,不适合同时表现多个维度间或非相邻属性间的关系,用户可以通过平行坐标揭示高维数据中的深层信息,消除大数据带来的线段混乱和重叠等问题,并交互地选择感兴趣的数据对象,将其高亮显示 。
2.2 自动化数据建模
自动化数据建模相较于传统数据建模而言,主要体现在数据建模全流程中由机器操作替代人工操作的过程 。自动化数据建模的核心是自动化机器学习(Automated Machine Learning,AutoML) 。自动化机器学习用于描述模型选择或超参数优化的自动化方法,包括多种类型的算法,如神经网络[20] 。国际人工智能学会理事长杨强教授认为,从数学的角度看,AutoML是让目标函数学习机器学习参数,从配置里学习最佳参数,由于参数和维度是巨量的,因此选择最佳点的工作应该由机器承担 。
在2017年谷歌刚刚推出AutoML工具的时候,AutoML还仅有机器学习模型自动化的意思,但目前AutoML被认为需要贯穿机器学习工作流 。机器学习工作流指在给定数据集中实现当前最佳模型性能,通常包含数据清洗、特征工程、选择算法模型结构及其中涉及的超参数调试,AutoML意味着端到端的机器学习工作流(Machine Learning Pipeline) 。事实上,自动化建模最初聚焦于机器学习中的模型选择环节,但目前已覆盖数据预处理、模型选择、变量选择、模型调参和模型评估的全流程数据建模,模型选择将算法模型由机器学习扩展至深度学习、强化学习、迁移学习等(见图1) 。
图1 自动化数据建模流程
自动化数据建模通过降低技术门槛、提升建模效率和模型解释程度,优化了数据建模的流程和投入成本 。传统数据建模的技术门槛较高,需要大量的建模专业人员,具备包括统计学、算法和编程能力等,以便在具体场景下选择合适的数据预处理规则,并使用编程软件实现数据建模和数据分析 。传统数据建模的建模流程复杂,数据预处理和模型选择的工程量较大,其中超参数的调试往往需要在可能的超参数空间遍历足够多的选择,导致机器学习模型耗费几小时或几天的时间完成模型训练与评估 。传统数据建模多为“黑箱”模型,降低了模型的可解释性,难以满足模型支撑上层应用的需求 。相比之下,自动化数据建模基于输入的数据建模应用场景,选择数据预处理方式,缩短了数据建模流程(见表3) 。
表3 传统数据建模和自动化数据建模对比
自动化建模的核心技术包括模型选择环节的神经架构搜索(NAS)和自动化调参 。
机器学习和深度学习是计算密集型,神经网络的设计工作耗时,并对专业知识有较高要求 。神经架构搜索的网络减少了训练和调参工作,使用者只需为NAS系统提供数据集,NAS将返回最佳架构 。神经架构搜索通过遵循最大化性能的搜索策略,从所有可能的架构中寻找最佳架构 。如图2所示,其中搜索空间定义了NAS方法原则上可能发现的神经架构 。同时,通常使用强化学习或进化算法来设计新的神经网络结构,目前已用于目标检测和图像分类等任务 。
图2 NAS 方法
在机器学习中,参数是影响算法性能的关键因素,而调参是一项繁琐却重要的环节,贝叶斯优化是一种自动化调参的方法 。贝叶斯优化是一种用模型找到函数最小值的方法,目前众多Python库可以实现贝叶斯超参数调整 。相较于其他随机或网格搜索方法,贝叶斯优化在尝试下一组超参数时会参考之前的评估结果,因此在遍历超参数空间的过程中,通过推断过去的结果缩小超参数空间的范围,提升搜索效率 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: