第17章 数据挖掘
《如何独立思考》章节:第17章 数据挖掘,去读读网友提供全文无弹窗免费在线阅读。!
所属部分:元认知
引申话题:追问异常
在大量的数据中进行筛选,并试图找出数据之间的关联性,这一过程称为“数据挖掘”。很多情况下,发现数据间的关联纯属偶然。因为有其合理性,所以人们在提出假说时往往会用到它。不过,数据也不见得都是板上钉钉的事实,而数据挖掘的方法也很容易被滥用。
拷问数据吧!它一定会坦白一切。
——罗纳德·科斯
Suncorp-Metway是一家澳大利亚的金融服务机构。该机构于2002年2月发布了一项针对16万起交通事故报告的研究结果。通过把事故报告与星座联系起来,他们发现双子座、金牛座和双鱼座的人更容易出交通事故,而摩羯座、天蝎座和射手座的人则正好相反。不过别担心,保险公司是不会根据人们的星座来制定保险费率的(至少目前还不会)。
这项研究结果(包括其他类似的研究)立刻受到占星学家的高度赞扬。在他们看来,这证明神秘的星相技术其实并非虚言,但却被人们当作无稽之谈而束之高阁。实际上,这份研究报告真正的价值在于,它告诉我们数据挖掘并非百分之百可靠。那些所谓数据之间的内在联系很可能一文不值。
这个问题并不罕见,但是由于不太显眼而容易被人忽视。它既源于人类大脑的天性,也犯了逻辑上的错误。前者属于模式识别的范畴,后者则犯了将关联性和因果性混为一谈的谬误。
世界可以呈现出许多种模式,而这些模式未必会如实反映真相,认识到这一点尤为重要。我们能够接触的各类信息可谓浩如烟海,其中也包含一部分正确的关联模式,比如季节更替。不过,更多的信息是以随机方式呈现的。此外,随机信息很可能只是碰巧才包含了某种关联。卡尔·萨根曾明确指出,随机性会“抱团”出现,我们得注意这种现象。其实,我们很容易注意到这种“抱团”现象,好像其中蕴含了某种潜在的模式。
在评估周围的信息数据时,我们会自然而然地将其分为两个步骤。首先,我们热衷于模式识别——试图找出任何潜在的模式,不过这样容易犯假阳性的错误。不过,我们这样做可以大大减少遗漏真实模式的概率,而这些模式很可能对我们非常重要。其次,我们会对潜在的关联模式进行评估,看看它们是否符合事实——它们是否合乎常理?是否与我们的已知信息相一致(心理学家把该过程称作“现实检测”)?捕捉一切信息是大脑进化的结果,而且大脑还会进一步淘汰那些被证明错误的模式。不过,我们往往第一步做得比第二步更好一些。
正因为如此,我们才需要科学。某种程度上说,科学就是将真实模式与随机性事件“抱团”所呈现的虚假模式区分开来的过程。科学就是正规化的“现实检测”。
所谓数据挖掘,其实就是主动地从一大堆数据集合中找出其模式(相互关联)的过程。因为随机数据有可能同时出现,所以即使它们之间本质上没有任何潜在联系,我们依然可能发现某种偶然的关联。这一幕往往出现在对汇编数据的统计分析中,无论这些数据是研究人员搜集得来的,还是源于历史传记或其他领域信息的数据库,分析所用的数据量越大,出现“表面关联”的可能性越大。
从方法论的角度而言,数据挖掘的不利之处在于,无法预判会发现什么样的内在关联——因此,任何关联都可以被认为是一个发现。从最终效果来看,这些关联就好比是无意中的发现。例如,如果医生最近收治了很多患同一种罕见疾病的病人,他肯定会对此多加留意。另外,有人总觉得每到星期二他就会在工作上出各种问题。说真的,我们每天都在挖掘遍布四周的各种数据,并且下意识地去分析其内在的联系。
这种关联模式也许确实存在——确实反映了某种隐藏的诱因。但更多时候,它们很可能就是一堆随机性的集合。为什么会这样呢?因为大量的潜在关联其实都具有偶然性。这种偶尔出现的关联数量可观,因此无论是主动还是被动地参与数据挖掘,我们每天都会遇到很多次这种情况。
从统计学的角度看,我们无法单纯靠计算得出“偶然出现某种特定关联”的概率。有时这种特定的关联似乎不可能发生——偶尔发生的概率只有数千分之一,甚至数百万分之一。看上去似乎很有道理,但由于提问的方式不对,因此容易让人得出错误的结论(这就是此前我们讨论过的“彩票谬误”)。你提出这样的问题,说明你其实已经预设了希望找到的关联模式。如果你没有做此预设,那么你应该这么问:“在这些数据中,任何数据之间发生关联的概率有多大呢?”
因此,假如通过挖掘大量的数据集合来寻找(同样无论主动或被动)其可能的内在关联,所找到的模式或关联性也只能视为“有可能”而已,还有待进一步的检验。我们可以利用这种关联性来启动某个实质性研究(而不是得出结论)。按照理性的科学流程,下一步就应该问:“这种关联确定真实吗?”上文提到的那位医生就应该问:“这说明这种罕见疾病最近确实暴发了,还是只是一个随机性的聚集?”为了证实其中的关联,你必须要提前澄清产生这类特定关联的可能性到底有多大。接着,你应该通过测试某个全新或者更新过的数据集,来验证该关联是否可靠。你其实是在寻找此前就预设好的某个内在关联,所以按照统计学的规则,你应该问:“这种关联随机出现的可能性究竟有多大呢?”
不过,我们应该注意避免另外一个统计学上的陷阱。在分析新的数据集时,不应纳入你之前发现关联的那些数据。新数据应该完全独立。这样才能避免将随机性关联代入后续的分析。
还记得那个与占星术有关的交通事故统计吗?尽管没有人会去重复这一研究,但是类似的数据一直受到人们的关注。李·罗曼诺夫是保险比价网站InsuranceHotline的总裁。2006年,他在对10万起驾车保险索赔案例做过分析后,得出的结论是天秤座、水瓶座和白羊座开车时遇上事故的可能性最大,而狮子座、双子座和巨蟹座的可能性最小——与Suncorp-Metway的分析结果截然不同,似乎数据间的关联性完全是个随机数字。
在科学研究中,数据挖掘出错的情况屡见不鲜。特别是在流行病学研究中,这一现象尤为明显。通过筛选大量数据的集合,找到其中的关联性,这就是流行病学研究的基础方法。为公平起见,在多数情况下,它们都会被看作有待证实的原始数据。接着我们会用科学手段甄别这些相关性——有些靠谱,有些则不然。不过,完成整套流程搞不好要花上好几年。另外,媒体也经常无视其所处的科学背景,而把这些初步的关联性看作最终结论。那些支持此类媒体报道的科学家和机构也难辞其咎,比如在获得证实之前就匆忙召开新闻发布会,宣布一项健康领域相关性的最新发现。正因为如此,公众将面对无穷无尽的关于相关性的所谓科学成果。同时,他们对科学研究过程中这些数据究竟起到什么作用却几乎一无所知。
尽管数据挖掘在主流科学界不受待见(优秀的科学家和统计学家应该对此心知肚明,并知道如何在工作中避免它),但它在伪科学领域却很常见。占星术就是一个典型的例子。号称能够证实占星术科学性的所谓研究,几乎都把数据挖掘作为基础。一旦可靠的统计或独立测试被取而代之后,这类研究就失去了效力。
我们与这个世界的日常互动和交流也常用到数据挖掘。我们往往会笃信所看到的关联模式,它们总能打动我们。因为我们总是更愿意迷信自己看到的模式,所以我们的“常识”也经常无法正确地引导他们。要想从模式的包围中冲出一条血路,我们必须依靠系统性的逻辑分析和检测手段——这也是人们都认可的科学方法。
如果不这样做,人们也许会冒出来一些很可笑的想法。比如,我们会通过观察星星在天空中的排列形状,来判断我们是否会在地面遭遇交通事故。不管他们怎么想,我认为系好安全带才是最重要的。
假阳性为一种统计学概念,又称为I类错误。它指的是在统计中,将不具备所指特征的对象当作希望具备所指特征的对象来处理,其统计结果自然是错误的。——译者注