一、前言
每次提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日之物,大数据挖掘也不是一个孤立的概念,其实质还是采用传统的数据挖掘的方法,只是其实现工具发生了变化而已,本质的东西还在。简说一下,发布近20年前的CRISP-DM数据挖掘标准规范模型,以享其用。
CRISP-DM (cross-industry standard process for data mining), 即为'跨行业数据挖掘过程标准'. 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data mining and knowledge discovery中 )。
二、框架
CRISP-DM数据挖掘方法论用层次过程模型描述,包括四个抽象(从一般到具体)层次构成的任务集合:阶段(phase)、一般任务(generic task)、具体任务(specialized task)和过程实例(process instance)。每个阶段由若干一般任务组成,每个一般任务又实施若干具体任务,每个具体任务由若干过程实例来完成。
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的、但顺序并非完全不变的阶段(如下图示)。
每次提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日之物,大数据挖掘也不是一个孤立的概念,其实质还是采用传统的数据挖掘的方法,只是其实现工具发生了变化而已,本质的东西还在。简说一下,发布近20年前的CRISP-DM数据挖掘标准规范模型,以享其用。
CRISP-DM (cross-industry standard process for data mining), 即为'跨行业数据挖掘过程标准'. 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data mining and knowledge discovery中 )。
二、框架
CRISP-DM数据挖掘方法论用层次过程模型描述,包括四个抽象(从一般到具体)层次构成的任务集合:阶段(phase)、一般任务(generic task)、具体任务(specialized task)和过程实例(process instance)。每个阶段由若干一般任务组成,每个一般任务又实施若干具体任务,每个具体任务由若干过程实例来完成。
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的、但顺序并非完全不变的阶段(如下图示)。
