查看完整版本: 数据挖掘与统计学的价值观,决定了两者的不同态度

匿名 2010-11-3 22:32

数据挖掘与统计学的价值观,决定了两者的不同态度

数据挖掘与统计学的价值观,决定了两者的不同态度
引言:以往了解到一些专业学习统计的人对数据挖掘会有一些不理解,认为数据挖掘的方法和研究过程都不够严谨和科学,但数据挖掘又是来源于统计学的,基于这个冲突,我也一直存在疑虑,今天在论坛中看到一篇文章,解决了我的这个疑问,原来数据挖掘和统计学的根本价值观导致了它们对待研究的态度。文章如下:

麦当劳和高考成绩

在数据挖掘中,需要放松统计学所要求的一些假设和界定。因为这一点,在数据分析论坛上经常可以看到口水论战,在统计学家看来,一些数据挖掘中惯常采用的做法,如对多重共线性的处理,对缺失值的补值,连续性变量的离散化处理,等等,都是有违统计学原理和准则的。

假设你需要建立一个数据挖掘模型预测高考成绩,可供考虑的预测因子很多,如高中期间的主课平均成绩,家庭状况,教师年资,等等,等等。但除此之外,你从数据中还发现学生每月光顾麦当劳次数和高考成绩高度相关。谁都知道,这是一个“虚假”的联系,真正起作用的应该是一个同时影响麦当劳用餐和高考成绩的因素,例如说父母和子女的关系。对于统计分析,特别是求证分析来说,剔除这种"spurious"联系是非常重要的。而从数据挖掘的角度考虑,只要它对预测高考成绩有帮助,有显著的预测效果,在没有更好,更合理的因子可以取代的情况下,就可以使用。

之所以可以这样做,是因为数据挖掘,尤其是商业性质的数据挖掘,有很强的“功利性”。它不是,或不完全是,为求知服务的。并且,数据挖掘注重的是眼前的,立即的成效。所以尽管用麦当劳预测入学成绩经不起时间的考验,但只要能在短期内准确预言高考成绩,为营销活动提供目标,就是达到了目的。数据挖掘的“短命”是有其现实依据的:由于客户在不断变化,营销活动本身在不断重新塑造自己的客户群体,客户对重复促销产生的“抵抗”,所以客户数据挖掘模型的更新周期一般不会很长。
页: [1]
查看完整版本: 数据挖掘与统计学的价值观,决定了两者的不同态度