您可信赖的分析顾问
CRISP-DM 1.0 数据挖掘指导手册
来源:数海时代 | 作者:CRISP-DM 委员会 | 发布时间: 2013-07-17 | 2116 次浏览 | 分享到:
本文档描述跨行业数据挖掘标准程序(以下简称CRISP-DM)模型,主要包括以下几个部分:CRISP-DM方法论,CRISP-DM参考模型,CRISP-DM用户指南,CRISP-DM报告,附录部分载有其他一些相关的帮助信息。
CRISP-DM 1.0
Cross Industry Standard Process-Data Mining 1.0
数据挖掘指导手册

      本文档描述跨行业数据挖掘标准程序(以下简称CRISP-DM)模型,主要包括以下几个部分:CRISP-DM方法论,CRISP-DM参考模型,CRISP-DM用户指南,CRISP-DM报告,附录部分载有其他一些相关的帮助信息。

前言
      1996末,在当时尚为年轻和不成熟的数据挖掘市场中,三家在这个领域的“老公司”设想、构思了CRISP-DM 。戴姆勒-克莱斯勒公司 (后名为戴姆勒奔驰)早以比大多数工商业机构先行一步,将数据挖掘应用于其业务运作中。SPSS公司(后名为 ISL)早在1990年就开始提供基于数据挖掘的服务,并于1994年开发了第一个商用数据挖掘的工作平台——Clementin。NCR公司建立了由数据挖掘咨询顾问以及技术专家组成的团队,为客户提供咨询服务,希望将其作为增值服务,提供给使用Teradata数据仓库的客户。
      那个时候,人们对数据挖掘的兴趣显示出这个市场将出现爆炸式增长。这既令人兴奋,又让人有所顾虑。我们大家都按照自己的方式去开发数据挖掘的方法。然而我们做得是否正确?是否每一个数据挖掘的新应用者都要像我们那样经过不断的尝试和失败去学习它?从一个供应商的角度而言,我们怎么向潜在顾客展示:数据挖掘已经足够成熟,可以作为他们商业操作中的一个关键因素?
我们推断,无论是对我们、还是所有从业者而言,一个非私有的、公开的标准程序模型能够解决上面提到的问题。
      一年后,我们成立了委员会,提出了CRISP-DM这个词(以CRoss-Industry Standard Process for Data Mining 首字母缩写),并获得了欧洲委员会提供的基金,开始实施我们最初的想法。我们旨在使CRISP-DM成为一个在工业运用、工具性以及应用方面都没有偏颇的中立性模型,因此我们不得不寻求各方面从业者们以及其他对数据挖掘有兴趣的相关人士的帮助(例如,数据仓库的供应商和管理咨询顾问)。为此,我们成立了CRISP-DM的专门兴趣小组(也就是人们所知道的“The SIG”)。我们邀请那些对数据挖掘感兴趣的人参加我们在阿姆斯特丹的一天研讨会,从而建立了这个兴趣小组。在那个研讨会上,我们阐释了我们的想法,并邀请他们讲述他们自己的想法,公开讨论如何推进CRISP-DM。
      在研讨会当天,委员会成员都怀着一颗忐忑的心。会不会因为没有人感兴趣而无人出席?或者即使他们出席了,但他们会说他们的确没有对标准程序的急切需求?再或者我们的想法如此超前,以至于任何标准化的想法都会成为一个不切实际的幻想?
      然而,研讨会超出我们的预期。主要表现为以下三点:
      ①有两倍于我们起初预期的人出席。
      ②与会者有一个近乎完全一致的想法:数据挖掘行业需要一个标准化的程序,而且现在就需要。
      ③由于每一位参与者都从他们自身的项目实践经验角度阐释了他们对于数据挖掘的见解,所以有关这一标准程序的看法已经很明晰:尽管仍有些表面的差异——主要表现在阶段的划分和术语上——但有关数据挖掘程序的理解,参与者有着惊人的一致。
      到研讨会结束时,我们在听取了SIG成员的意见和批评之后,已有相当的自信认为可以发布一个标准程序模型为数据挖掘行业提供服务。
      在接下来的两年半时间里,我们着手于CRISP-DM的进一步制定和完善工作,并在梅塞德斯奔驰公司和我们保险业的合伙人——OHRA公司的大规模数据挖掘项目中进行试验。此外,我们还进行了CRISP-DM与商业数据挖掘工具的整合工作。The SIG的成立具有无限的价值,已拥有超过200名成员,并在伦敦、纽约和布鲁塞尔召开了研讨会。
      1999年中期,也就是欧洲委员会资助的那部分项目结束的时候,我们自认为已经起草了一个相当好的程序模型的草稿。那些熟悉草稿的人会发现经过一年的时间,CRISP-DM1.0绝对有了根本的不同,尽管现在它更加全面和完善。但是我们也清晰地意识到,在项目进行的过程中,程序模型仍然是一个需要不断改进的模型:CRISP-DM还仅仅在一个很少的项目中得到验证。在过去的一年中,戴姆勒克莱斯勒有机会把CRISP-DM应用到更广泛的领域当中去。SPSS和NCR公司的专业服务部门已经采纳了CRISP-DM,并在涉及多个行业和业务问题的大量客户项目中,成功了运用了CRISP-DM。在这段时间内,我们注意到,非委员会成员的服务提供商们采用了CRISP-DM;分析师们已把它作为一个行业标准,不断的参考引用这一模型;同时客户们也日益意识到CRISP-DM的重要性(目前CRISP-DM经常在招标(RFP)文件中被提到)。我们相信我们最初的想法已经被彻底的证实,尽管这一模型无疑还需要进一步的扩展和改善,但我们认为CRISP-DM1.0已足以进行出版、发行。
      从技术原理上来讲,CRISP-DM还未能以一个学术、理论的形式来构建,它也不是一些权威委员会的精英们闭门造车的结果。过去我们也曾尝试过这些方法,以构建CRISP-DM的方法论,但没能够建立一个实用的、成功的以及被广泛采纳的标准。CRISP-DM之所以成功,就在于它建立在人们进行数据挖掘项目的实践的和真实的经验的基础之上。基于这一点,我们要非常感谢那些为项目作出贡献并提供建议的许多从业者们。


CRISP-DM 委员会
2000年8月

上一篇:
下一篇: