数据挖掘建模技术
模型的验证

模型的验证

来源:数海时代  发布时间:2012-11-9 16:01:48  点击数:11320

模型的验证
   在正式建立模型之前,我们需要设定一个过程或者机制来检验和验证模型的质量和有效性。例如,在监督分类预测等数据挖掘任务中,通常使用错误率(error rates)作为检验模型质量的方法。因此,比较有代表性的做法是在建模时,我们一般通过随机抽样技术,把数据集分成三组:训练组(Training Group)、评估组(Evaluating Group)和预测组(Predicting Group)。我们用训练组数据进行建模,然后用评估组对模型进行评估,最后使用模型来对预测组进行预测。对于简单的以知识发现为主要目的的数据挖掘项目,也可以把数据集分为训练组和评估组两组。对于得到的模型,使用评估组和预测组进行预测,将模型预测结果和这两组的实际结果进行交叉比对,就可以得到验证模型的正确率或错误率。

   例如,某银行审批客户申请贷款的数据记录进行数据挖掘。银行在评估信用申请者时,一般会根据申请人的职业、收入、贷款用途等进行判断。数据挖掘使用了两种决策树算法模型:分类回归树(CART)和C5.0。验证模型时对两种方法都采取使用,并进行对比。

   
   结果中我们可以看出,机器学习生成的规则对评估组327 条数据进行的预测结果,两种算法规则集的实际正确率分别为73.39%和81.65%。
   在“一致性矩阵”中,预测值和实际结果交叉分析得到四格矩阵,其中横栏为实际结果,纵栏为预测结果。因此,预测错误有两种情况:一种是客户申请应通过但被否决(横+纵-),一种是客户申请应被否决但通过(横-纵+)。
   “表现评估”衡量了模型对该类别的预测结果所提供的平均信息内容,单位为“比特bit”。我们看出“-”类中的比特值较小,说明该类别的信息纯净度较高。
   “信息报告”提供了模型信心值的统计数据,包括信心区间、平均正确率、平均错误率、总高(低)于(信心阀值)、X%的精确率以上和X 倍正确率以上等。两种算法平均正确率相差不大,两套规则貌似都可以利用。


模型的调整

   汇总这一阶段工作的结果,列出所有模型的质量(例如,以精确度衡量)并将他们进行比较排序。根据模型质量指标和,修正、微调参数设置,为下一轮的模型建造工作做准备。
   为了得到高精度的模型,这个阶段经常遇到两种情况:一种是得到了大量繁杂的规则,这些规则要在现实商业环境中全部运用上的话,将是非常麻烦的事情。另一种情况,是机器学习时往往会“过度拟合”,生成的规则会倾向于尽量适应训练数据组中的特殊结构,而在评估数据组或预测数据组上的精度严重不足。这两种情况,都需要调整模型。规则的繁杂,需要详细分析验证和调整其中精度不足的规则,或对应数据量非常小的规则。模型的过度拟合问题,需要重新调整模型的参数设置,甚至调整变量重新建模。
   重复进行模型的建造和评估工作,直到你相信已经找到了最好的模型为止。

 
分享到: