数据挖掘建模技术
数据的理解与准备

数据的理解与准备概述

发布时间:2012-11-9 16:06:06  点击数:3125

   数据挖掘的步骤会随不同的应用而有所变化,特别是不同的数据情况涉及的数据理解和准备完全各异,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。这些因素造成了数据挖掘在实际不同领域甚至项目中的运用、规划,以及流程的差异性,因此对于数据挖掘过程的系统化、标准化就显得格外重要。数据理解与数据准备,是准备建模前最重要的工作环节,也是工作量最大的环节。
   数据挖掘完整的步骤如下:  

   理解数据和数据的来源(understanding)
   获取相关知识与技术(acquisition)
   整合与检查数据(integration and checking)
   去除错误或不一致的数据(data cleaning)  
   建立模型和假设(model and hypothesis development)  
   实际数据挖掘工作(data mining) 
   测试和验证挖掘结果(testing and verification)  
   解释和应用(interpretation and use)


   由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。



 
分享到: