数据挖掘建模技术
数据的理解与准备

收集与评估原始数据

来源:数海时代  发布时间:2012-11-9 16:05:39  点击数:3299

一、收集原始数据,完成数据提取或导入

   收集原始数据首先要搞清楚以下几个问题:

       数据是从几个业务系统中来?
       各个业务系统的数据库服务器运行什么DBMS?
       是否存在手工数据,手工数据量有多大?
       是否存在非结构化的数据?

   等等类似问题,当收集完这些信息之后才可以进行数据抽取的设计。

   1、与存放DW的数据库系统相同的数据源处理方法

   这一类数源在设计比较容易,一般情况下,DBMS(包括SQLServer,Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select 语句直接访问。

   2、与DW数据库系统不同的数据源的处理方法。

   这一类数据源一般情况下也可以通过ODBC的方式建立数据库链接,如SQL Server和Oracle之间。如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中。另外一种方法通过程序接口来完成。

   3、对于文件类型数据源(.txt,,xls),

可以培训业务人员利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库抽取。或者可以借助工具实现,如SQL SERVER 2005 的SSIS服务的平面数据源和平面目标等组件导入ODS中去。

   4、增量更新问题

   对于数据量大的系统,必须考虑增量抽取。一般情况,业务系统会记录业务发生的时间,可以用作增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间的所有记录。利用业务系统的时间戳,一般情况下,业务系统没有或者部分有时间戳。

   当需要使用某一特定的分析系统进行数据理解时,就需要将数据导入到这一系统之中。这一工作还有可能与初期的数据准备阶段相联接,如果获得了多个数据资源,那么这个阶段或在后面的数据准备阶段就需要额外处理这些数据的整合问题。

   列出获得的数据(或数据集)的描述,以及项目中使用这些数据的位置,数据取得方法和遇到的问题。形成完整的分析数据集的数据字典,并记录数据收集过程中遇到的问题以及处理这些问题的解决办法,将有助于今后执行同样的或者与之相类似的方案。


二、评估数据
1、数据是否可用?

   这看起来好像是一个非常明显的问题,但值得注意的是:尽管数据可能可用,但其形式可能并不易于使用。可以从数据库(通过ODBC)或文件导入数据。但是,数据可能在计算机上以某种其他形式保存,而无法直接访问。因此在使用之前,需要以某种合适的形式对其进行下载或转储。数据还可能散落于各种不同的数据库和源中,需要把它们放在一起。甚至这些数据可能不是在线的。如果数据只存在于纸面上,则首先需要进行数据录入,然后才能开始数据挖掘。
2、数据是否包含相关的属性?
   数据挖掘的目的是为了确定相关属性,因此这看起来好像是一个奇怪的问题。但是,查看哪些数据可用并尝试确定可能相关但未记录的因素,这点非常有用。例如,尝试预测冰淇淋销售情况时,您可能有很多零售销路或销售历史的相关信息,但您可能没有关于天气和温度信息,而这些信息很可能十分重要。缺少属性不一定意味着数据挖掘无法产生有用的结果,但可能会限制所生成预测的准确性。
   评估这种情况的一种快速方式是对数据执行全面的审核。开始审核之前,请将一个数据审核节点与数据源相连,并执行该节点以生成一个完整的报告。
3、数据是否有噪声?
   数据通常包含错误,也可能包含主观因素,因此可能存在偏差、臆断。这些现象统称为噪声。有时数据中的噪声是正常的。其中可能存在正常的底层规则,但可能不涵盖100% 的观测值。通常情况下,数据中的噪声越多,越难获得准确结果。因此,需要选择好的数据准备方法和机器学习方法,来能理噪声数据,至少需要成功处理包含将近50% 噪声的数据集。
4、数据是否足够?
   在数据挖掘中,数据集的大小并不一定非常重要。数据集的代表性,以及它对可能结果和变量组合的覆盖范围,这些要重要得多。通常情况下,考虑的属性越多,需要提供代表性的涉及范围的记录越多。如果数据具有代表性并且存在通用底层规则,可能几千个(甚至几百个)记录的数据样本能够提供与一百万个记录同样好的结果- 并且您获得结果的速度要快很多。
5、是否具有针对可用数据的专业知识?
   在很多情况下,您都是针对自己的数据进行操作,因此对其内容和意义非常熟悉。但如果您要对组织中其他部门的数据进行操作,或对客户的数据进行操作,则需要您拥有了解这些数据的专家。这些专家可以指导您确定相关的属性,帮助您解释数据挖掘的结果,并从信息的“黄沙”中淘出“真金”或通过数据集的异常值探得“珍宝”。

 
分享到: