数据挖掘建模技术
数据的理解与准备

描述数据与探索性数据分析

来源:数海时代  发布时间:2012-11-9 16:05:17  点击数:4458

一、描述所取得的数据的“整体”或者说“表面的”特征并报告其结果
   包括:数据格式,数据数量,例如每一个数据表中记录的条数和变量的数目,变量特征以及数据的任何其他表面特征。数据是否已经满足一系列相关的需要等评估分析。
二、探索性数据分析(Exploratory Data Analysis)
   检查变量的种类(数值型,字符型,定类变量等)、变量值的范围;分析变量间的关系,从商业角度了解每一个变量及其值的含义;对每一个变量进行基本的统计分析(如,计算其分布:均值,最大值,最小值,标准差,方差,众数,偏度、峰度等);分析基本的统计量,并把其结果与商业含义联系起来。
   通过查询、图示或者报告的形式表现出将要处理的数据挖掘的问题。主要包括:关键变量的分布,例如预测任务中的目标变量的分布;配对变量或几个变量之间的关系;简单聚合的结果;重要的人群的特征;简单的统计分析等等。包括最初的发现或者初期的假设以及这些发现对余下项目的影响。可行的话,报告还应包括一些图表,用来展示数据的特征或者产生有趣的数据子集以作进一步的检测。
   这些分析将直接涉及到数据挖掘的目标;同时也将有助于进一步完善数据描述,改进报告质量,并为进一步的数据分析提供了数据转换和其他的数据准备。
三、评估数据质量
   列举相关的数据质量问题,例如:数据是否完整(它是否覆盖了各种必需的情况)?数据是否正确或者数据是否包含错误?如有错误,是否常见?数据中是否存在缺失值?如存在,它们以何种方式出现,在哪里出现,是否常见?
   确认缺失变量和空白;确定缺失值的含义、检验那些具有相似含义却有不同值的变量(如,低脂肪,节食);检验数据值的拼写(如,相同的数据值有时以小写字母开头,而有时又以大写字母开头);检验偏差,确认这一偏差是干扰信息还是预示了一个值得关注的现象;检验数值的合理性,例如,当所有数据栏都有相同或相似的值时,需要检验其合理性。
   形成数据质量检测的报告。如果存在数据质量问题,列出可能的解决办法。通常解决数据质量问题的办法主要取决于数据和商业知识。

 
分享到: