数据挖掘过程
数据挖掘的过程主要有:
数据挖掘的实施步骤有哪些?如何做?
数据挖掘的实施步骤有哪些?如何做?
数据挖掘的实施步骤有哪些?如何做?
1、定义目标
2、获取数据(直接获取或者爬虫)
3、数据探索(初步研究,无特别严格的流程)
4、数据预处理(数据清洗【去掉数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)
数据:无效、异常、空
数据集成:不同来源的数据放在一起
5、挖掘建模(分类、聚类、关联、预测)
6、模型评价与发布
数据挖掘有哪些步骤?
1、业务理解 业务理解,指从业务角度来理解项目目标和要求,接着把这些理解知识转换成数据挖掘问题的定义和实现目标的初规划。
2、数据理解 数据理解,指从数据收集开始,然后接着是一系列活动,这些活动的目的是:熟悉数据,甄别数据质量问题、发现对数据的真知灼见、或者探索出令人感兴趣的数据子集并形成对隐藏信息的设。
3、数据准备 数据准备,指从初原始数据构建终建模数据的全部活动。数据准备很可能被执行多次并且不以任何既定的秩序进行。包括为建模工作准备数据的选择、转换、清洗、构造、整合及格式化等多种数据预处理工作。
4、建立模型 建立模型,指选择和使用各种建模技术,并对其参数进行调优。一般地,相同数据挖掘问题类型会有几种技术手段。某些技术对于数据形式有特殊规定,这通常需要重新返回到数据准备阶段。
在数据挖掘中的建模主要需要做哪些工作,他的作用是什么?
挖掘步肯定是进行商业问题定位。也就是确要解决什么问题,然后再去建立挖掘。
挖掘步肯定是进行商业问题定位
也就是确要解决什么问题,然后再去建立挖掘模型,这个过程其实就是选择合适的算法去解决我们的问题。
建模时的数据是全量的(不考虑噪声数据),但是这些数据并不全部用来分析,可能还要留一部分数据验证,以预测型模型为例,从已知数据中抽烟一部分进行分析,建立模型,好了之后自然要验证模型的准确度,这个验证就是用另一部分数据。
数据挖掘的实施步骤有哪些
数据挖掘的实施步骤:
01
理解业务:
从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步。
02
理解数据:
收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。
03
准备数据:
将初的原始数据构造成终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换和数据清理等。
04
建模:
选择和应用各种建模技术,并对其参数进行优化。
05
模型评估:
对模型进行较为的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的商业目的。
06
模型部署:
创建完模型并不意味着项目的结束,即使模型的目的是为了增进对数据的了解,所获得的知识也要用一种用户可以使用的方式来组织和表示。通常要将活动模型应用到决策制订的过程中去。该阶段可以简单到只生成一份报告,也可以复杂到在企业内实施一个可重复的数据挖掘过程。控制得到普遍承认。
什么是数据挖掘,或数据挖掘的过程是什么
CRISP-DM (cross-industry standard process for data mining), 即为“跨行业数据挖掘标准流程”。
从实践角度讲,数据挖掘的流程基本上和CRISP-DM标准过程一致,无非是几个步骤不断的反复。
我比较喜欢对数据挖掘定义的一种描述:数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。从中也可以看出,数据挖掘的基础是了解业务或找到熟悉业务的人,然后才是利用历史知识建立知识模式从而创造新知识。
过程的边界并不明显,但是又有基本的依赖顺序。比如可行性分析需要数据评估,模型优化结果不明显又得回到数据分析阶段,数据的分析和准备都得依赖ETL。
每个步骤缺一不可,前面的步骤是后面的基础,后面的步骤依赖于前面所有步骤,根据情况可能跳回前面任何一个步骤。