数据收集篇之一:你为什么要收集数据

数据收集篇之一:你为什么要收集数据

为什么要收集数据?这是个问题吗?可能很多人认为这不是问题。在大部分情况下我也觉得不是问题,但有些时候确实是一个很大的问题。

每个单位乃至每个人收集数据都有其目的,但有些人做着做着就忘了,变成了为数据而数据。我在指导项目时就经常碰到这样的情况,有时候问题已经很清楚了,但是项目组还是弄了很多数据贴上去,似乎体现出了用数据说话。人家也振振有词,六西格玛不是强调用数据说话吗?没有数据能叫六西格玛项目吗?

虽然六西格玛强调用数据说话,但并不是说你拿一堆数据出来就完了,还要记得收集数据的原因,学会运用恰当的方法从枯燥的数据中提取出有价值的信息,这些信息才是你真正想要的东西。数据不会自己说话,那些鼓吹大数据会自己说话的专家其实是瞎忽悠。如果你事先对数据分析的目的没有清晰的认识,再多的数据也是白搭。

更有甚者,有些项目为了好看,故意修改和编造一些数据,随意剔除一些看起来异常的数据,这些做法实在有违初衷,这样的项目做反而不如不做。当然有些数据收集的目的也并不纯粹,存在故意挑毛病的现象。

在收集相关素材的时候,发现了这样一个挺有意思的故事,特别想拿出来跟大家分享一下。

话说在英国有一个John Bennet Lawes爵士,他的父亲是个庄园主,就是Rothamsted的所有者。1822年,Lawes八岁那年他父亲去世了,家道衰落。他母亲将庄园里的房子租了出去以供他读书,先是伊顿公学,然后牛津。1834年,房客离去,他母亲又回到了庄园,正读大二的Lawes也退学回家帮母亲打理庄园。出于对科学的浓厚兴趣,他将一间卧室改装成实验室,尝试做了很多实验。

1843年开始,Lawes与其助手,化学家Joseph Henry Gilbert一起开始了他与Lawes开始了一系列长期田间试验-这是世界上最早的长期试验,而且这其中的大部分试验一直延续到了今天!这些试验的目的是测量无机肥和有机肥对作物产量的影响,即所谓的“Classical Field Experiments”。这些试验的结果正日益显示出它独一无二难以估量的价值:气候的长期变化对作物生产的影响。这份耐心足以让我们由衷地敬佩,这不就是现在人们天天挂在嘴边的工匠精神吗?可惜说归说,做归做,很多人还是希望成为风口上的猪,可以借风飞舞。

但是他们的实验也遇到了一个很大的问题,积累了几十年的数据已经是“海量”数据了,加上农业田间试验固有的可变性,怎么分析这些数据成了非常棘手的问题,显然这需要合理的统计方法。于是统计界的大神费歇尔适时出现了,正是在Rothamsted农业实验站,费歇尔面对积累了90年的数据,创造性地提出了很多统计方法,著名的方差分析、试验设计等等都诞生于此,这些方法已成了数理统计学的主流。

可想而知,如果没有明确的目标,这90年的数据可能早就不知去向了,那样的话,统计学的发展可能还要再滞后几十年。

注:关于 Rothamsted 农业实验站的内容部分来自翟保平先生的博客,有兴趣的可以查看这个链接 。

那么数据收集的目的到底是什么呢?我的理解是获取可靠信息,然后在可靠信息的基础上做出恰当的决策。我认为没有所谓“正确的决策”,只有基于当时当地所获取信息的恰当决策。这就需要我们老老实实地收集真实的数据,并且运用恰当的分析方法从中提炼出可信的信息,这一点也说明了掌握统计学的重要性,否则你那一堆原始数据谁看呢?

对于数据收集来说,在我看来,大致分成这两类。一类是事先已经建立模型,需要根据模型的需要来收集数据,如比较分析、回归分析、测量系统分析、控制图、试验设计等等。另一类是事先没有模型,试图从原始数据中找出有用的信息。这通常是探索性数据分析(EDA)的范畴,现在流行的大数据等大致也属于这一类。六西格玛项目立项时的数据分析通常也属于这一类。当然这一类的分析需要不断的建立、验证和优化模型,最终获得满意的模型。

数据收集中需要注意的几个问题:

1.数据收集计划:在所有的六西格玛教材中都会提到要制定数据收集计划,但实际真正能够做到的却并不多。详细的数据计划能够让我们少走弯路,提高效率和控制成本。尤其是像DOE这样比较复杂的试验,更需要我们仔细地进行策划。

2.数据来源:这是非常常见的一个问题。我们经常能够看到项目中列出的数据没有交代时间、地点、方法、条件等必要的信息,有些数据表就几列数据,让人摸不着头脑,对数据的真实性更无法做出判断。建议在数据收集之前,制定完整的数据收集表格,这些表格中要包括时间、地点、测量工具、测量方法、测量条件、测量参数、测量人等等。

3.测量系统分析(MSA):在收集数据之前要做MSA,这已经达成共识,但在这里还是要强调一下。记得当前参加摩托罗拉的黑带培训时,要求每一个工具都要单独写一份报告,其中有一步就是必须要说明测量系统是合格的。

4.数据的保存:之所以提出这个问题,是因为在指导项目中遇到过电脑坏了,找不到原始数据的情况。还遇到过系统数据不能长期保存,无法获取历史数据的情况。第一种情况比较好办,建议最好做个备份,有条件的可以专门做个数据仓库。第二种情况通常是系统长期存储海量数据的成本太高,需要固定期限滚动存储。这种情况建议通过建立数据分析模型,将数据分析结论保存下来,以便可以追溯历史,做趋势分析。

最后再强调一下,不要忘了为什么收集数据,获取信息是数据收集的目的。因为需要付出人力、物力、时间等成本,数据收集需要仔细策划。

请关注我的微信公众号:张老师漫谈六西格玛