今日头条让人上瘾的数据挖掘( 二 )

“从资料中取出隐含的过去未知的有价值的潜在信息”;
“一门从大量资料或者资料库中取有用信息的科学” 。
尽管通常资料探勘应用于资料分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域 。它与KDD(Knowledge discovery in databases)的关系是:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤 。事实上,在现今的文献中,这两个术语经常不加区分的使用 。4. 本质数据挖掘本质上属于机器学习的内容 。例如:《数据挖掘:实用机器学习技术及Java实现》一书大部分是机器学习的内容,这本书最初只叫做“实用机器学习”,“数据挖掘”一词是后来为了营销才加入的 。通常情况下,使用更为正式的术语,(大规模)数据分析和分析学,或者指出实际的研究方法(例如人工智能和机器学习)会更准确一些 。5. 过程数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以取过去未知的有价值的潜在信息 。例如:数据的分组(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联式规则挖掘) 。这通常涉及到数据库技术,例如空间索引(英语:spatial index) 。这些潜在信息可通过对输入数据处理之后的总结来呈现,之后可以用于进一步分析,比如机器学习和预测分析 。举个例子:进行数据挖掘操作时可能要把数据分成多组,然后可以使用决策支持系统以获得更加精确的预测结果 。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤,但它们确实属于“资料库知识发现”(KDD)过程,只不过是一些额外的环节 。数据库知识发现(KDD)过程通常定义为以下阶段:
  1. 选择
  2. 预处理
  3. 变换
  4. 数据挖掘
  5. 解释/评估
1)预处理在运用数据挖掘算法之前,必须收集目标数据集 。由于数据挖掘只能发现实际存在于数据中的模式,目标数据集必须大到足以包含这些模式,而其余的足够简洁以在一个可接受的时间范围内挖掘,常见的数据源如资料超市或资料仓储 。在数据挖掘之前,有必要预处理来分析多变量数据,然后要清理目标集,数据清理移除包含噪声和含有缺失数据的观测量 。2)数据挖掘数据挖掘涉及六类常见的任务:


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: