第24章 P值操纵等研究缺陷
《如何独立思考》章节:第24章 P值操纵等研究缺陷,去读读网友提供全文无弹窗免费在线阅读。!
所属部分:科学与伪科学
引申话题:伪科学
要想对科学研究(即使其论证过程看上去无可挑剔)的成果施加影响,我们可以有许多方法。首先,我们要学会如何评估某项研究的可靠程度,才能决定其结论是否值得我们认真对待。这一点非常重要。
从本质上来说,科学并不是一个稳定而线性的发现真相的过程。这个过程充满曲折,随时让你钻进死胡同,或者让你不得不重新回到老路。但它始终会一步一步地引领我们前进,最终(哪怕是暂时的)让我们对整个自然界有更深刻的理解。
——马西莫·皮柳奇
茱莉亚是我的女儿。此刻我正看着她和我4岁大的外甥迪伦一起玩《格斗机器人》游戏。其中有个回合,迪伦操纵的机器人一挥拳,把茱莉亚的机器人的头给打掉了。迪伦马上宣布:“我赢了!”在下一个回合中,茱莉亚率先发难,于是迪伦的机器人的头掉了下来。迪伦居然宣布这次还是他赢。茱莉亚当然质疑他耍赖,而他对此的解释是:在这个回合,谁的机器人头先掉下来,谁才算赢。
当我们玩的不再是单枪匹马可以搞定的游戏时,我们应该会记得——当游戏结果公布后,有时孩子会提出更改游戏的规则。对此我们只会一笑置之,因为孩子太想掌控游戏的结果了。他们的这一要求基本上没人会答应,再说也显得太露骨,太做作了。年纪稍大一些的儿童(更不用说成年人)就会明白,我们必须提前设定游戏规则,并在游戏过程中始终遵守这一规则。就算最后知道了游戏结果,你也用不着费心思去想:“究竟什么情况下我才算赢了?”
别以为成年人就不会这么干。一旦知道了研究结果,哪怕再知名的科学家也有可能会忍不住“小小地”调整一下规则——只不过他们调整的手法更加隐蔽,也复杂得多。甚至有时候,他们都没意识到自己已经践踏了规则。
科学研究也有自己的一套规则,而且远比任何游戏规则都重要得多。制定这些规则就是为了防范作弊(不管有意为之还是无心之过)。恪守严规既改变了我们的宇宙观,也在很大程度上帮助我们辨别什么是事实真相,什么是一厢情愿的想法。即便如此,还是有大量的所谓“科学研究”要么有漏洞,要么还不够深入,甚至有些研究完全是垃圾。
科学研究涉及的领域非常广泛,因此每年都会产生数百万项新的研究成果。人们的研究差不多涵盖了所有领域——你的任何观点都能找到对应的研究成果(只要你专门选取那些有利于自己的证据)。
那么,究竟如何区分哪些研究是真正科学而可靠的,哪些研究是粗劣的呢?让我们来一次基于理性怀疑的深入探索吧。
在2017年初的一期节目中,我们曾经探讨过一个“走上岔路”的研究案例——意识的“场效应”及美国城市谋杀率的下降,以及对某项前瞻性准实验的评估。该研究来自美国玛赫西管理大学。
按照实验者的说法,思想意识是一种“场”,而且存在某种包括我们所有人在内的大一统的“场”。当人们陷入“超觉禅定”状态时,他们不但会影响自身的意识,同时也会对整个“场”造成影响。
这种观点(包括其他对“超觉禅定”的研究结果)无非是要我们确信(事实上他们也从未对此进行过验证),只要有足够多的人同时用心灵感应对意识的“统一场”施加影响,我们整个社会都会因此而受益匪浅。那究竟多少人算足够呢?呃,还真有一个数字——总人口的1%的平方根(先算出这个地区的总人口数,除以100后再开平方)。为什么是这个数字?不为什么,就是算出来的。
其实这个数字本来是总人口的1%。但是随后(人们发现无法召集到足够多的人,以便对整个世界产生“影响”)他们发现,这个数字只需要达到1%的平方根即可。
显然,此处发挥作用的不是剂量效应,而是门槛效应。一旦你踏过了这个门槛,效应就开始显现。该门槛可以用一个简单的数学公式来表达,因此看上去非常“科学”。它背后其实并没有理论支持。与其说它是科学,倒不如说它更接近于某种法术或命理学(真实的世界并不是基于十进制的,十进制只不过是人们传承下来的习惯罢了。任何自然常数都必须与像1%这样的约整数发生关联是毫无根据的说法)。
他们是这么说的,也是这么开展实验的:依靠当地联邦调查局的统计数据,他们对全美排名前206的大城市的谋杀率展开跟踪调查。他们将2002—2006年作为基准期,把2007—2010年作为干预期,并将两者做了对比。在干预期内,他们发现自2007年1月起,加入“超觉禅定”及其下属锡提门派的信徒已经超过了1 725人。他们声称在此之前,这些城市的谋杀率一直呈上升态势,而当信徒的数量达到1 725人(因为1 724人还不够)后,谋杀率就开始下降了。
这个案例真正有趣的地方在于,那些鼓吹“频率论”(frequentist)的人甚至在新闻发布会上对此大谈特谈,而且完全是一派胡言。他们声称“经过计算,谋杀率下降纯属偶然的可能性只有十万亿分之一”。
根据他们的说法,2007—2010年谋杀案的数量有所减少一定是有原因的。纯属运气使然的概率只有十万亿分之一。
这是一个非常典型的案例,它可以让我们了解对研究结果施加偏见性影响有哪些途径。研究人员费了九牛二虎之力,采用各种严谨的科学方法,却不知道他们实际上的研究对象根本不是科学。
真实的情况是:在过去40年,犯罪和谋杀案件的数量的确呈下降的趋势。上述研究中,所谓的谋杀率下降,其实不过是该趋势的延续罢了。况且,他们选择这个时间段也比较主观(为什么必须是2002—2006年?),而后续的干预期也是如此。实际上,在干预期的几年中,加入禅定派的信徒数量有时候还低于那个神奇的临界数值。在这项研究中有许多武断的选择,因此可以人为地让实验数值符合你的要求——就好比这个回合,脑袋被打掉的机器人才算赢。接着,你可以对最终报告进行删改,使其看上去非常合理。我们将其形象地比喻为“把数据折磨到招供为止”。
P值的问题所在
一项科学研究中有很多环节可能会出错。这其中最为常见的就是“P值操纵”。这个说法源于统计学的P值计算。所谓P值,只是我们研究科学数据的一种方法。我们会针对某个问题提出“零假设”(null hypothesis)——比如假设“两个变量之间没有关联”。接下来,我们要知道:“如果该零假设为真,出现目前这种极端观测数据的概率有多大呢?”如果P值是0.05(要想判定结果“显著”,0.05是一个经典门槛),意味着数据有5% 的可能性是源于随机效应,并非真实效应。
但是,这并非事实情况。虽然这符合大多数人对P值的解读,但它真正的含义不是人们所想的那样。其他重要变量,包括先验概率、效应量、置信区间和备择假设,都不在P值的考虑范围之内。假如有人问道:“要让一组新的数据与某项P值为0.05的研究结果完全相同,发生这种情况的概率是多少?”答案将是完全不同的。
针对这个问题,雷吉娜·努佐在一篇发表于《自然》杂志的评论文章中指出:
这些概念不太好解释,不过已经有统计学家试图用通用的经验法则去说明它。根据广泛采用的计算方式,假如确有可能存在真实效应,P值达到0.01意味着发生假阳性的概率至少会达到11%。如果P值达到0.05,上述概率会飙升至29%或更高。因此,莫蒂尔的发现被证明是假阳性的概率要远大于十分之一。同样,得到与他首次试验完全相同结果的概率,也并非像很多人设想的那样高达99%,而仅有不到73%——如果他想再现“非常显著”的统计结果,成功的概率搞不好只有50%。换句话说,完全复制原先实验结果的可能性不太大。就如同抛硬币时你猜正面朝上,而实际上却是背面朝上一样,做不到也很正常。
让我再重申一遍:如果某项研究的P值只有0.01,那么再次重复该实验时,P值仍然达到0.01的概率只有50%(而不是大多数人想象的99%)。
换句话说,人们(甚至资深的科学家也不例外)往往会认为P值是一个预测值,但其实不是。P值从来不是一个预测值。实际上,它只不过是一个小小的测试,用来检验它们究竟是值得研究的数据,还是没有意义的一堆随机数字。
我喜欢在讲座中引用一个医学上的案例。假设每100位40岁的妇女当中,就有1位会患上乳腺癌。另外再假设乳腺X光检查的敏感性是80%(即80%的乳腺癌患者在这项检测中都是阳性结果),特异性为90%(即如果非乳腺癌患者接受该检查,有90%的概率会显示阴性)。以上数值对筛查来说已经非常不错了。
那么问题来了——对一位接受检查的40岁女性来说,阳性预测值是多少?或者,因为乳腺X光检查的结果呈阳性,从而认定该妇女患有乳腺癌,这样的可能性又有多大呢?我们知道胸检的特异性是90%,于是很可能认为应该有90%的概率——可惜这是错的。正确答案是7.5%。因为每100位40岁的妇女当中,有99位没有患乳腺癌。再加上我们必须考虑到胸检有10%的假阳性率(即每100位妇女当中会有10位的胸检结果呈阳性,但实际上她们并没有患乳腺癌),而每100位乳腺癌患者中当中只有约80位的胸检结果会显示阳性。
综上所述,100位妇女当中会有9.9位实际上没有患乳腺癌,但其胸检结果却呈现阳性。有0.8位确实患有乳腺癌,而且其胸检结果也是阳性。所以,如果你是一位年届40的妇女,并且乳腺X光检查结果呈阳性,你其实没有患乳腺癌的可能性是相当大的。
P值其实也是这样。P值达到0.05并不意味着假设有95%的概率为真。就像某位40岁妇女的乳腺X光检查呈阳性,并不能说明她患上乳腺癌的概率达到了90%。
检测乳腺癌的例子告诉我们,“基础概率”是一个必须掌握的概念。我们也称之为“先验概率”。从科学假设的角度来说,这也经常意味着“科学的可信度”。可信度越低(就像人群中患上癌症的比例越低),阳性结果或者有显著统计学意义的研究结论为真的可能性也越低。
这意味着,我们根本无法从某项研究的P值中推测其假设正确与否的概率大小。我们需要知道该假设的可信度,同时还需要掌握其他相关研究的结果。
我们把这种思路称为“贝叶斯分析法”——接触新的信息后,需要把它与原先的信息综合在一起考虑,由此重新得出某个观点是否正确的概率。判断假设的可信度固然见仁见智,但有一点是很清楚的:P值(即统计学上的显著性)并没有许多人想象的那么重要。就算研究呈现强“显著性”,我们也无法依靠P值去影响其先验概率。我们必须汇集多项研究,发现更多独立的证据,才有理由认为某个假设或许为真。
如果把这套思路推广到科技文献领域——正如统计学家兼医学教授约翰·约安尼季斯所做的那样,我们会发现大多数发表的实证研究结果都是(也应该是)错的。在2005年的一项开创性研究中,约安尼季斯教授指出:假如新发表的科学假说有80%都是错误的(这还是保守的估计),而我们把P值设为0.05,那么仅仅是因为随机性的影响,25%的研究将是假阳性的。如果先验概率进一步下降,那么这个百分比还会急剧上升。
先验概率并非影响人们正确判断的唯一因素。埃里克·洛肯和安德鲁·格尔曼指出,测量误差(meansurement error)同样会极大地影响人们的判断。正因为如此,在科学研究中只要涉及测量,信噪比就是我们必须考虑的因素。在“嘈杂”的环境中,测量误差会被放大,而P值的预期价值则会大幅下滑。“噪声”数据正是如此——好比你正在收听广播节目,但是周围静电干扰得太厉害(即所谓“噪声”),使你根本无法听清楚播音员在说什么(所谓“信号”)。这只能说明,数据的自行波动幅度要比你预期的效应带来的影响大得多。
P值操纵
其实问题更加严重,“P值操纵”也开始浮出水面。在约安尼季斯教授的计算中,他假设科学研究都精心设计并完美遵守了实验方案——每个人都遵循了游戏规则,但是,我们知道事实并非如此。
在2011年进行的一项研究中,约瑟夫·西蒙斯、利夫·纳尔逊和尤里·西蒙松针对如何对“科研自由度”加以巧妙利用进行研究,并发表了研究结果。它指的是科研人员自行选择何时应该停止记录数据,应该跟踪哪一种变量,应该做哪一类比较,以及应该用什么样的统计方法——总之,包括人们在研究中需要做出的各种决定。但是当他们一边做决定,一边盯着数据或实验结果时,他们会下意识地利用这种“自由度”将P值调整到那个神奇的0.05。西蒙斯甚至向我们展示了如何在数据全部为阴性的情况下,还能有60%的概率将P值调整到0.05。
西蒙斯指出,在公开发表的学术文献中,P值基本上都在0.05这个水平上下浮动,这一点令人颇为疑惑——这似乎暗示:研究人员会自行调整P值,直到他们的实验结果达到可以发表的最低标准。
操纵P值的行为无处不在,对此我们有更多更直接的证据。一篇于2009年发表在《公共科学图书馆综合》(PLOS One)的评论文章指出,调查显示,约有33%的科研人员承认在研究过程中至少有过一次“令人怀疑”的行为。究竟是什么行为呢?说到底就是操纵P值。
大多数P值的操纵行为似乎都不是有意的。也就是说,研究人员并未意识到自己的行为实际上属于欺骗。比如,你会在搜集数据的同时研究这些数据。你很可能会决定,一旦研究P值达到了0.05这个阈值门槛,你就不再搜集新的数据,并将研究结果公之于众。
追踪数据本身无可厚非。在医学研究中,我们经常需要对数据进行跟踪,以确保受试对象不会受到实验伤害。但是,搜集原始论文数据的人不应参与后续的数据追踪,或者至少受试对象的数量应当提前确定。在后续对数据进行监控的过程中,该数量也应该保持稳定,不能随意更改。
数据搜集工作完成后,再对科研工作的任何部分进行更改都可能属于操纵P值——因为改动会影响统计数据。操纵P值实质上就是挖掘数据,或者多扔几次色子,但只选择自己中意的那个结果。
很多公开发表的研究都未能如实反映真相,因为它们无法被重复。
要想搞清楚某个理论是否正确,独立的重复试验是最理想的裁决方式。任何研究成果都有可能是侥幸所得,或者是受到外界影响而发生偏差的结果。但是,只有那些真实存在的现象才会不受实验者的影响反复出现在实验数据中。
一比一的重复试验由于消除了所有“科研自由度”,因此尤为有效——因为数据搜集和分析过程中会面临的种种选择,在前一次实验中都已经规定下来了。
但是,不少人意识到目前的试验的重复性存在问题。《自然》杂志于2016年发表了一篇研究文章,称多达52%的受访科学家承认该问题确实存在,因为他们自己都无法完整重复别人的实验。
人们曾经多次试图复制心理学和其他领域的某些经典实验。2015年,科学界试图再现100个历史上的心理实验,但其中被认为复制成功的仅有39个。
并非只有心理学存在这个问题。如前所述,由于测量结果受到“噪声”(干扰)的影响相当大(即数据值始终不稳定),像心理学和医学这种领域实验呈现“假阳性”(误判)的概率会更高一些。
还记得我们的老朋友达里尔·贝姆教授吗?他做的那些“未卜先知”的实验,问题就在于他操纵了P值。贝姆在2017年的一次访谈中,其实也承认他采用了某些技巧,以便在整理数据过程中能够得到想要的结果。
“实验过程要严谨,对此我个人完全赞成。”他说道,“但我更希望是由其他人来做这件事。这的确很重要——有些人会乐此不疲,而我却没有这个耐心。”他说进入一个如此依赖数据的领域,对他而言并非易事。“我过去那些实验其实更多的是一种展示手段。我搜集数据都是为了证明我的观点,我引用数据是为了说服别人接受我的观点。至于别人是否能重复我的实验,我从来就不管。”
为了挽回超自然现象实验失败的声誉,贝姆不得不求助于P值操纵法。他专门修改了实验规则,以期让自己成功获得想要的实验结果——就像我女儿对她的表兄无可奈何一样,整个科学界都对此哭笑不得——贝姆,算你厉害。
解决方式
操纵及滥用P值的问题其实是可以解决的。如前所述,重要的解决办法之一就是更加重视完全的重复试验。在科学领域,估算某项研究所蕴含的价值不是什么难事——哪些结果可以发表,哪些项目应当获得资助,又有哪些研究能让你在学术界声名鹊起。
统计学家安德鲁·格尔曼来自哥伦比亚大学。他认为科研工作应该分几步进行。首先,我们要搜集原始数据。假如这些数据很有意义,那就设计一个重复试验,但是该实验中任何关于数据采集的内容都应该事先就规定好。其次,在正式搜集数据前,列明将采用的研究方法。最后,根据公开的研究方法采集一组完整的新数据。这么做至少能让我们得到一个诚实的P值,也避免了人为操纵的可能。
搞科学研究绝不能只依赖P值。与此同时,研究者还应表明效应量和置信区间,这才是检验数据更为全面的途径。无论统计学的显著性有多大,只要效应量的值很小(比如感冒原来要持续一个星期,现在的平均持续时间比原先缩短了1个小时——了不起!),这样的结论都值得怀疑,因为任何微小的系统性偏差、错误或未知因素都会对实验结果造成影响。
西蒙斯则号召科研工作者不要有任何保留——所有关于数据搜集和分析的决策都应该公之于众。这么做至少能让操纵P值的行为无处遁形,也能让人们打算调整P值时有所顾虑。努佐和其他同行则一致建议,我们应该在研究时更多地采用贝叶斯分析法(上文已经提到过这一方法)——想想看,结果为真的总体概率到底有多少?
我们该站在哪一方?
对普通科学爱好者或科学实践者而言,之前我们提到的种种计算方式意味着:在对某项全新的研究或某个结论做出评价时,我们眼睛里不能只有P值。在评价科研工作时,我们也要看其中有没有操纵P值的行为——实验规则是否留有更改的余地,以便研究人员在必要时能获得他们想要的实验结果?
我们总有办法判断置信度的高低。如果某项研究能做到下面这几条,我们就可以认为其结论是有说服力的:
1.研究过程要非常严谨,能够将偏差或无关变量的影响控制在最小范围;
2.除了统计学意义之外,实验结果应当在效应量上也呈现其“显著性”(即信噪比在合理范围内);
3.独立的重复试验结果与实际情况一致;
4.证据的强度与结果的可信度成正比。
许多人在为伪科学以及可疑结论摇旗呐喊的时候,会大肆宣扬上述四条中的一到两条——但不可能四条全部满足(甚至前三条也不可能)。他们只会卖力宣传P值的作用,但是对效应量过小或者未能进行重复试验等缺陷却无动于衷。
对顺势疗法、针灸以及第六感的研究都存在这些缺陷。他们的研究结果甚至并未接近可以接受的门槛阈值。他们在研究过程中随意篡改P值,而且通常效应量的值过于微小。他们也没有统一设计重复试验,而是各自为战,分头去证明那些脱离常识的结论。
然而,科学和伪科学并不总是非黑即白(又是恼人的划界问题)。没错,确实有很多观点远未达到伪科学的范畴,但是上述这些问题也同样让主流科学界头痛不已。
操纵P值的行为也是对科学资源的极大浪费。它没有任何意义,只会让我们的学术文章充斥荒谬结论,而且说不定这些结论还无法复制。我们在公布研究成果时,通常会完全忽略这一点。人们只知道“某某科学家公布了一项重要的科研成果”,但又有多少人知道,大多数所谓令人兴奋的伟大科研成就,其实不过是发表在科技文献上的胡言乱语罢了。
原文为Transcendental Meditation,即“带有先验主义色彩的冥想”,又名“超在禅定派”。这是一种西方流行的模仿印度教中静坐冥思的修行方式,以此来摆脱烦恼,寻求内心安宁。——译者注
剂量效应指化学(或物理、生物)因素作用于生物体时的剂量与个体出现特异性生物学效应的程度之间的相关情况。——译者注
心理学家认为,在一般情况下,人们都不愿接受较高难度的要求,相反却乐于接受较小的、较易完成的要求。在实现了较小的要求后,人们才慢慢地接受更加高级别的要求,这就是“门槛效应”。——译者注
命理学是对人生命运规律的探索,以人的各式各样的数字(出生年月日、姓名笔画等)来推测人的性格与命运并占卜推测未来会发生的事情。古今中外都有相关方面的理论。周易、八字命理、紫微斗数、七星命理和占星术等都属于命理学。——译者注
频率论即完全依赖统计数字来推导出结论的一种研究方式。——译者注
P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况发生的概率很小,根据小概率原理,我们就有理由拒绝原假设。P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。——译者注
零假设是统计学术语,又称原假设,指进行统计检验时预先建立的假设(一般是希望证明其错误的假设)。零假设成立时,有关统计量应服从已知的某种概率分布。——译者注
马特·莫蒂尔当时是弗吉尼亚大学的博士生,他在2000年进行的一项实验显示P值仅有0.01(即非常“显著”)。但在后续的再现实验中,添加新的样本后P值成了0.59,远远高于可以接受的0.05的及格线。他的实验结果引发了人们对P值有效性的争论。——译者注
公式如下:0.8(患者呈阳性)/10.7(患者和非患者均呈阳性)×100=7.5%。