第17章数据挖掘

《如何独立思考》章节:第17章数据挖掘,去读读网友提供全文无弹窗免费在线阅读。!

所属部分：元认知

引申话题：追问异常

在大量的数据中进行筛选，并试图找出数据之间的关联性，这一过程称为“数据挖掘”。很多情况下，发现数据间的关联纯属偶然。因为有其合理性，所以人们在提出假说时往往会用到它。不过，数据也不见得都是板上钉钉的事实，而数据挖掘的方法也很容易被滥用。

拷问数据吧！它一定会坦白一切。

——罗纳德·科斯

Suncorp-Metway是一家澳大利亚的金融服务机构。该机构于2002年2月发布了一项针对16万起交通事故报告的研究结果。通过把事故报告与星座联系起来，他们发现双子座、金牛座和双鱼座的人更容易出交通事故，而摩羯座、天蝎座和射手座的人则正好相反。不过别担心，保险公司是不会根据人们的星座来制定保险费率的（至少目前还不会）。

这项研究结果（包括其他类似的研究）立刻受到占星学家的高度赞扬。在他们看来，这证明神秘的星相技术其实并非虚言，但却被人们当作无稽之谈而束之高阁。实际上，这份研究报告真正的价值在于，它告诉我们数据挖掘并非百分之百可靠。那些所谓数据之间的内在联系很可能一文不值。

这个问题并不罕见，但是由于不太显眼而容易被人忽视。它既源于人类大脑的天性，也犯了逻辑上的错误。前者属于模式识别的范畴，后者则犯了将关联性和因果性混为一谈的谬误。

世界可以呈现出许多种模式，而这些模式未必会如实反映真相，认识到这一点尤为重要。我们能够接触的各类信息可谓浩如烟海，其中也包含一部分正确的关联模式，比如季节更替。不过，更多的信息是以随机方式呈现的。此外，随机信息很可能只是碰巧才包含了某种关联。卡尔·萨根曾明确指出，随机性会“抱团”出现，我们得注意这种现象。其实，我们很容易注意到这种“抱团”现象，好像其中蕴含了某种潜在的模式。

在评估周围的信息数据时，我们会自然而然地将其分为两个步骤。首先，我们热衷于模式识别——试图找出任何潜在的模式，不过这样容易犯假阳性的错误。不过，我们这样做可以大大减少遗漏真实模式的概率，而这些模式很可能对我们非常重要。其次，我们会对潜在的关联模式进行评估，看看它们是否符合事实——它们是否合乎常理？是否与我们的已知信息相一致（心理学家把该过程称作“现实检测”）？捕捉一切信息是大脑进化的结果，而且大脑还会进一步淘汰那些被证明错误的模式。不过，我们往往第一步做得比第二步更好一些。

正因为如此，我们才需要科学。某种程度上说，科学就是将真实模式与随机性事件“抱团”所呈现的虚假模式区分开来的过程。科学就是正规化的“现实检测”。

所谓数据挖掘，其实就是主动地从一大堆数据集合中找出其模式（相互关联）的过程。因为随机数据有可能同时出现，所以即使它们之间本质上没有任何潜在联系，我们依然可能发现某种偶然的关联。这一幕往往出现在对汇编数据的统计分析中，无论这些数据是研究人员搜集得来的，还是源于历史传记或其他领域信息的数据库，分析所用的数据量越大，出现“表面关联”的可能性越大。

从方法论的角度而言，数据挖掘的不利之处在于，无法预判会发现什么样的内在关联——因此，任何关联都可以被认为是一个发现。从最终效果来看，这些关联就好比是无意中的发现。例如，如果医生最近收治了很多患同一种罕见疾病的病人，他肯定会对此多加留意。另外，有人总觉得每到星期二他就会在工作上出各种问题。说真的，我们每天都在挖掘遍布四周的各种数据，并且下意识地去分析其内在的联系。

这种关联模式也许确实存在——确实反映了某种隐藏的诱因。但更多时候，它们很可能就是一堆随机性的集合。为什么会这样呢？因为大量的潜在关联其实都具有偶然性。这种偶尔出现的关联数量可观，因此无论是主动还是被动地参与数据挖掘，我们每天都会遇到很多次这种情况。

从统计学的角度看，我们无法单纯靠计算得出“偶然出现某种特定关联”的概率。有时这种特定的关联似乎不可能发生——偶尔发生的概率只有数千分之一，甚至数百万分之一。看上去似乎很有道理，但由于提问的方式不对，因此容易让人得出错误的结论（这就是此前我们讨论过的“彩票谬误”）。你提出这样的问题，说明你其实已经预设了希望找到的关联模式。如果你没有做此预设，那么你应该这么问：“在这些数据中，任何数据之间发生关联的概率有多大呢？”

因此，假如通过挖掘大量的数据集合来寻找（同样无论主动或被动）其可能的内在关联，所找到的模式或关联性也只能视为“有可能”而已，还有待进一步的检验。我们可以利用这种关联性来启动某个实质性研究（而不是得出结论）。按照理性的科学流程，下一步就应该问：“这种关联确定真实吗？”上文提到的那位医生就应该问：“这说明这种罕见疾病最近确实暴发了，还是只是一个随机性的聚集？”为了证实其中的关联，你必须要提前澄清产生这类特定关联的可能性到底有多大。接着，你应该通过测试某个全新或者更新过的数据集，来验证该关联是否可靠。你其实是在寻找此前就预设好的某个内在关联，所以按照统计学的规则，你应该问：“这种关联随机出现的可能性究竟有多大呢？”

不过，我们应该注意避免另外一个统计学上的陷阱。在分析新的数据集时，不应纳入你之前发现关联的那些数据。新数据应该完全独立。这样才能避免将随机性关联代入后续的分析。

还记得那个与占星术有关的交通事故统计吗？尽管没有人会去重复这一研究，但是类似的数据一直受到人们的关注。李·罗曼诺夫是保险比价网站InsuranceHotline的总裁。2006年，他在对10万起驾车保险索赔案例做过分析后，得出的结论是天秤座、水瓶座和白羊座开车时遇上事故的可能性最大，而狮子座、双子座和巨蟹座的可能性最小——与Suncorp-Metway的分析结果截然不同，似乎数据间的关联性完全是个随机数字。

在科学研究中，数据挖掘出错的情况屡见不鲜。特别是在流行病学研究中，这一现象尤为明显。通过筛选大量数据的集合，找到其中的关联性，这就是流行病学研究的基础方法。为公平起见，在多数情况下，它们都会被看作有待证实的原始数据。接着我们会用科学手段甄别这些相关性——有些靠谱，有些则不然。不过，完成整套流程搞不好要花上好几年。另外，媒体也经常无视其所处的科学背景，而把这些初步的关联性看作最终结论。那些支持此类媒体报道的科学家和机构也难辞其咎，比如在获得证实之前就匆忙召开新闻发布会，宣布一项健康领域相关性的最新发现。正因为如此，公众将面对无穷无尽的关于相关性的所谓科学成果。同时，他们对科学研究过程中这些数据究竟起到什么作用却几乎一无所知。

尽管数据挖掘在主流科学界不受待见（优秀的科学家和统计学家应该对此心知肚明，并知道如何在工作中避免它），但它在伪科学领域却很常见。占星术就是一个典型的例子。号称能够证实占星术科学性的所谓研究，几乎都把数据挖掘作为基础。一旦可靠的统计或独立测试被取而代之后，这类研究就失去了效力。

我们与这个世界的日常互动和交流也常用到数据挖掘。我们往往会笃信所看到的关联模式，它们总能打动我们。因为我们总是更愿意迷信自己看到的模式，所以我们的“常识”也经常无法正确地引导他们。要想从模式的包围中冲出一条血路，我们必须依靠系统性的逻辑分析和检测手段——这也是人们都认可的科学方法。

如果不这样做，人们也许会冒出来一些很可笑的想法。比如，我们会通过观察星星在天空中的排列形状，来判断我们是否会在地面遭遇交通事故。不管他们怎么想，我认为系好安全带才是最重要的。

假阳性为一种统计学概念，又称为I类错误。它指的是在统计中，将不具备所指特征的对象当作希望具备所指特征的对象来处理，其统计结果自然是错误的。——译者注

去读读

第17章 数据挖掘

第17章数据挖掘