数据挖掘建模技术
数据挖掘建模

数据挖掘建模概述

来源:数海时代  发布时间:2012-11-9 16:03:43  点击数:2885

数据挖掘建模概述

   数据挖掘是通过各种技术来识别隐含在数据之中的有价值的信息。通过数据挖掘提取的信息可应用于很多领域,如决策支持、预测、预报和估计。数据挖掘处理的数据,通常数量很多但价值较低,并且以其原始形式显示时并没有什么直接用处。往往有价值的是隐藏在数据之中的信息,以及变量/字段之间的关系。
   在数据挖掘中,将您的(或专家的)数据知识与计算机用来识别数据底层关系和特性的高级的、主动的分析技术相结合,才能获得成功。数据挖掘过程将利用历史数据生成模型,这些模型将在日后用于预测、模式识别以及更多用途。构建这些模型的技术称为机器学习或建模。

建模技术
   数据挖掘分析工具(如SAS、IBM SPSS Modeler 等)一般包含了许多统计学和机器学习的建模技术,这些技术可以根据它们要解决的问题类型大致进行分组:
   预测建模方法:包括回归分析、时间序列等统计模型,也包括决策树、神经网络等机器学习方法。
   细分模型:聚类模型主要用来确定相似记录的组并根据它们所属的组来为记录添加标签。聚类方法包括Kohonen、k-means 和两步法。
   关联规则:会将某个特定的结论(如某个特定产品的购买)与一系列条件(若干其他产品的购买)相关联。
   筛选模型:可用于对数据进行筛选以找出最可能与建模相关的字段和记录,还可用于识别与已知模式不匹配的离群值。可用方法包括特征选择和异常检测。

数据操作和知识发现
   数据挖掘分析工具一般还包括了很多可将您的专业知识应用于数据的工具:
   数据操作。从现有数据项派生构建新的数据项,并将数据细分为有意义的子集。来自各种源的数据可以进行合并和过滤。
   浏览和可视化。使用数据审核节点显示数据的各个方面(其中包括图形和统计量),以执行初始审核。高级可视化包括交互式图形,这些图形可包含在工程报告中进行导出。
   统计量。确认数据中变量之间的潜在统计关联或关系。统计学常见的统计量如集中趋势的均值、中位数、众数和离散趋势的极差、标准差等,以及推断统计常用的卡方、T值等,也可在数据挖掘过程中使用。
   假设检验。构建数据行为模式的模型,并验证这些模型。

通常情况下,您要使用这些工具来识别数据中的一些可能有价值的属性。然后这些属性可以提供给建模技术,用以尝试确定底层规则和关系。

 
分享到: