统计的艺术：为什么科学结论大多是错的？

更新时间：2026-03-08 13:49 浏览量：1

戴维·施皮格尔霍尔特

David Spiegelhalter

英国皇家学会院士

剑桥大学统计学荣休教授，英国皇家统计学会前会长，当代最具影响力的统计学家与风险交流专家之一。曾长期任教于剑桥大学统计实验室，并于2016—2023年出任剑桥大学温顿风险与证据交流中心主任，致力于提升公众对定量证据的理解、呈现与使用能力。其研究涵盖贝叶斯统计、医学统计、风险评估与不确定性分析，对医疗决策、公共卫生和政策评估产生了重要影响，其论文全球引用逾十万次，曾入选“高被引研究者”。他长期为政府机构、国际组织及主流媒体解读统计数据，参与英国国家统计体系治理，并以卓越的科学传播能力闻名，善于将复杂的统计思想转化为清晰、可信的公共语言，深受公众推崇。

追问快读：

1. 可重复性危机很大程度上是因为研究人员的学术不端行为。

2. 虽然数据造假的情况较为罕见，但统计错误却屡见不鲜。

3. 更严重的问题是，某些“可疑学术行为”会导致具有统计显著性的结论被过分夸大。

4. 在统计资讯流向公众的过程中，新闻机构、记者、编辑都有可能会误解、曲解统计结论，或者做出一些可疑的、夸大的阐释。

第六感真的存在吗？

2011年，美国著名社会心理学家达里尔·贝姆在著名心理学期刊上发表了一篇重要论文。在论文相关的实验中，达里尔·贝姆找来了100名学生，让他们坐在电脑屏幕前。屏幕上有两块“窗帘”，达里尔·贝姆让这些学生猜测哪块窗帘后面藏有图像。之后窗帘会被“打开”，展现出正确答案。学生们需要连续猜36次。该实验最特殊的一个地方在于，受试者给出答案以后，图像出现在哪块窗帘后面完全随机，因此研究者认为，所有正确答案都来自受试者的超感官知觉，即第六感。

达里尔·贝姆在论文中提到，零假设为“不存在第六感”，所以选择正确的概率预计为50%。但实验结果显示，当窗帘后面的图像为色情图像时，受试者的正确率可以达到53%，这一结果的P值为0.01。另外，该论文还包含了另外8项第六感实验的结果，受试者人数超过了1,000，研究跨度达10年以上，9项研究中一共有8项都取得了具有统计显著性的结果。难道说第六感真的存在吗？这些研究能够令人信服吗？

虽然目前为止，本书已经介绍了很多优秀的统计实验，这些实验既蕴含着研究者的卓越智慧和精心设计，又体现出了研究者对统计工具的局限性和潜在风险的清楚认知，但你要知道，现实情况不会一直那么美好。现在，我们就来看看，当统计学被滥用时会发生什么。达里尔·贝姆的故事我们稍后再讲。

如今，人们之所以格外关注统计实验的质量，是因为科学界之前曾出现过一场举世震惊的丑闻事件，该事件被认为是科学界可重复性危机（reproducibility crisis）的罪魁祸首。

可重复性危机

第10章中我们曾提到，约翰·约安尼季斯曾于2005年发表过这样一个令人瞠目的观点：

大多数已发表的研究结论都是错的。

之后有越来越多的研究者认为，那些已发表的科学论文的确有很多都不可靠。科学家们无法复现同行的研究实验，这意味着那些原始结论根本没有它们表现出来的那样可信。

这种现象最初主要集中在医学和生物学领域，后来又逐渐蔓延到了心理学以及其他社会科学当中

，尽管我们并不清楚弄虚作假的论文的真实比例。

虽然约翰·约安尼季斯做出如此判断的根据是某个理论模型，但我们也可以通过实际操作去验证这一说法，即以同样的方法去复现过往的实验，看看能否取得类似的实验结果。“可重复性计划”是一个重要的合作项目，合作者们以更大的样本规模对100项心理研究进行了重复实验，因此理论上来说，如果这些研究结论为真，那该项目能够以更高的检验效能去识别这些真实效应。最终合作者们发现，虽然有97%的原始研究取得了具有统计显著性的结果，但

其中只有36%能在重复实验中得到复现。

可悲的是，各媒体在报道这一结论时，经常会认为这意味着有63%的具有“统计显著性”的科学结论实际为假——他们还会落入“严格按照统计显著性去判断实验结论是否可靠”的陷阱。美国著名统计学家、博主安德鲁·格尔曼曾指出，“具有统计显著性”与“不具有统计显著性”之间的差异本身就不具有统计显著性。事实上，

只有23%的原始实验与重复实验之间的差异具有统计显著性

，我们在估计弄虚作假的论文的比例时，使用这一数字似乎更为恰当一些。

与其用“统计显著性”去判断“科学发现”的可靠程度，我们还不如把注意力放在实验效应的大小上

。可重复性计划发现，虽然平均来看，

重复实验效应的方向和原始实验相同，但其大小却只有原始实验的一半。

这反映出了科学文献中长期存在的一个重要偏差：

只要某项研究的效应足够“大”，那么哪怕结果带有一定的运气成分，它也更有可能被发表在重要期刊之上。

如果用均值回归现象来类比，这种现象或许可以被称为“零假设回归”——被夸大的原始实验效应，会朝着零假设的方向下滑。

可重复性危机是一个相当复杂的问题，其根源在于研究人员面临的科研压力过大——他们必须想方设法做出“科学发现”，然后将其发表在著名期刊上，但这一切都取决于他们能否获取具有统计显著性的研究结果。我们不能单独去怪罪某个机构或某个人。另外，之前在讨论假设检验时我们也曾提到，就算统计实验的每一步都完美无瑕，其结果和结论也不能保证为真，也就是说，会有相当一部分具有统计显著性的结果实际上为假阳性（见图10-5）。现在的问题在于，大多数统计实验根本和“完美”两个字沾不上边。

PPDAC分析流程中的每个阶段都有可能会出现严重的统计问题。比如在一开始的“提出问题”阶段，我们就可能会设定一个无法用现有信息解答的问题，例如，如果我们想研究“为什么过去的十年当中，英国少女怀孕率出现了大幅下降”，那当前数据就无法给出解释。

第二个阶段，即“做出规划”阶段，也可能会出现以下这些问题：

倾向于选择方便廉价的样本，而不是具有代表性的样本，比如选前民意调查中的电话调查。

调查时使用引导性问题或误导性问题，比如“您认为网络购物大约可以节省多少钱？”

没有设定恰当的对比，比如只通过志愿者的情况来评估顺势疗法的效果。

设定的样本规模过小，检验效能过低，这意味着如果备择假设为真，那我们能够正确将其检测出来的概率过低。

未能正确判断数据的干扰因素，没有进行盲法试验，等等。

正如费希尔那句名言所说的一样：“

实验完成后再去咨询统计学家的意见，就相当于患者死亡后再给他们体检

。此时我们唯一能做的，或许就是告诉你实验的死因。

”

在“收集数据”阶段，最常见的问题包括回复率太低、有人中途退出研究项目、招募进度比预期慢很多、难以快速对所有数据编码，等等。所有这些可预见的问题都可以通过小规模试点试验的方法来提前解决。

“分析数据”阶段最容易出问题的地方，就是“不小心犯了错”。虽然我们都有可能在编码、制表过程中犯错，但这些错误的后果很难和下面这些案例“相提并论”。

著名经济学家卡门·莱因哈特与肯尼思·罗戈夫曾于2010年合作发表了一篇论文，该论文对“人们对经济紧缩政策的态度”产生了很大影响。然而后来一名博士生偶然发现，这两个人的论文不小心遗漏了五个国家的数据分析，而这仅仅是因为一个小小的电子表格错误。

全球投资公司安盛罗森堡的一名程序员曾因敲错代码，导致某个统计模型计算出来的风险系数过低，大约只有实际值的万分之一，公司客户因此损失了2.17亿美元。2011年，美国证券交易委员会以“未能及时向投资者报告模型错误”为名让安盛罗森堡进行等额赔偿，同时额外开出了2,500万美元的罚款，这导致公司一共损失了2.42亿美元。

另外，有时虽然计算结果完全正确，但使用的统计模型却存在问题。例如：

开展“整群随机对照试验”时，错误地按照个体随机对照试验分析数据。整群随机对照试验指的是将一整群人（比如某个全科诊所的所有病人）同时分配到某一组别当中。

分别在基准状态、干预状态测试两个组别的数据，如果一组人在两种状态下的差异达到了统计显著性，另一组人则没有，就得出结论认为两组人之间存在差异。正确的做法是，对两组之间的差异进行统计检验——这在统计学中又被称为“交互作用检验”。

将“不具有统计显著性”误解为“实验没有产生任何效应”。例如在第10章提到的酒精与死亡风险的研究中，年龄在50~64岁之间、每周饮酒15~20个酒精单位的男性，死亡风险会显著降低；而那些饮酒稍多或稍少一些的男性，死亡风险的降幅与0之间不存在显著差异。虽然论文声称，这些群体的饮酒结果存在重要区别，但从置信区间来看，这些区别完全可以忽略不计。再次提醒大家，“具有统计显著性的结果”与“不具有统计显著性的结果”之间的差异，不一定具有统计显著性。

在“得出结论”这一步骤，最明目张胆的做法就是对实验结果进行多次显著性检验，但只报告最具有统计显著性的那次结果

，并借此强调实验结论的可靠性。

我们已经在前文中看到，这种做法能够极大增加发现具有统计显著性的P值的机会，就连“死鱼复生”都不是问题。这相当于电视台在播放足球比赛时，只转播某个球队的进球镜头，但不转播失球镜头：这种选择性报道不可能让我们获得真实且全面的信息。

如此一来，我们很难分清实验设计的失误到底是因为研究人员能力有所欠缺，还是因为研究者在故意误导大家。更令人忧心的是，这种现象并不少见。在美国甚至有人因为“利用子集分析，选择性报道具有统计显著性的实验结果”而被刑事定罪。

斯科特·哈科宁曾担任美国制药公司InterMune首席执行官，这家公司曾为研究“特发性肺纤维化”新药的疗效而开展了一项临床试验。试验结果表明，该药物的整体疗效并不显著，但在轻度至中度的患者（子集）中，死亡风险的降幅却很显著。斯科特·哈科宁据此向投资者发布了一份新闻稿，报道了该研究成果，并表示自己相信这项研究能够带来巨大回报。尽管他并没有说任何谎话，只是选择性报道了部分事实，但陪审团还是于2009年认定他犯有电信诈骗罪，理由是他有欺诈投资者的意图。政府原本的诉求是判处他10年监禁，以及2万美元罚款，但法庭最终判处他6个月的软禁，以及3年缓刑。后来的临床试验发现，该药物对这部分子集患者不存在任何疗效。

统计实验中的不端行为可能是有意的，也可能是无意的。为了说明科学界同行评议和审稿制度的严重缺陷，“德国饮食与健康研究所”的约翰内斯·博安农曾故意设计了一项有问题的实验。该实验中，受试者被随机分成3组，各组人员分别按照标准饮食、低碳水饮食、低碳水饮食外加巧克力的要求进餐。他们在三周的时间里接受了一系列的测试，研究结果表明，巧克力组的体重降幅比低碳水组的降幅高出10%，其P值为0.04。这份具有统计显著性的研究结果被投递给一家期刊，结果该期刊认为这篇论文是一篇“极其优秀的稿件”，并向研究者回复说，只要支付600欧元的出版费，“它就可以在我们出版社的顶级期刊上发表出来”。意料之中的是，该研究一经发表便引起了众多媒体的争相报道，甚至有媒体写出了“巧克力可以加快减肥进度”这样的标题。

令媒体没想到的是，这项研究从头到尾都是一场骗局。“约翰内斯·博安农”的真名是约翰·博安农；他本来的职业也不是科学家，而是记者；所谓的“德国饮食与健康研究所”根本不存在，该研究唯一真实的东西就是数据——这些数据未经任何篡改或捏造。但问题是，每组中的受试者只有5名；统计显著性检验进行了很多次；论文只报道了具有统计显著性的结果。

媒体报道后，论文作者立即承认了作假行为，并说出了自己的真实目的。然而，并非所有统计作假都是为了揭露同行评议制度的缺陷。

蓄意欺诈

故意作假的现象确实存在，只不过大家觉得这种现象应当相对少见。一项匿名的调查研究发现，

大约有2%的科学家承认自己曾经伪造过数据

，但美国国家科学基金会、美国科研诚信办公室处理过的“故意作假”案件却相当之少，完全不符合调查结果，哪怕2%已经是被低估的数值了。

用统计学方法去辨别统计作假行为，听上去好像也很合理。宾夕法尼亚大学的心理学家尤里·西蒙松曾对某些随机试验的统计量进行了深入研究，结果发现这些本应带有很强随机性的统计量，实际上却表现出了极为夸张的相似性或差异性。例如他注意到，某篇论文中引用的三个标准差都是25.11，但这三个标准差实际上来自不同的小组（每组均为15人）。尤里·西蒙松设法找到了原始数据，并利用数据模拟证明三个标准差完全一样的概率微乎其微——后来该研究项目的负责人主动辞职了。

西里尔·伯特是一名来自英国的心理学家，因对智商遗传性的研究而闻名于世。然而在其去世之后，人们开始怀疑他的研究涉嫌作假，因为人们发现，尽管研究涉及的双胞胎儿童数量在不断增加，但各双胞胎智商的相关系数却一直没有什么变化（每对双胞胎都会在不同的环境中长大）：1943年的相关系数为0.770，1955年为0.771，1966年仍然为0.771。虽然人们怀疑数据有假，但他死后所有的研究记录都被烧毁了，其数据是否经过伪造至今仍存有争议。支持他的人认为，这些数字肯定是不小心写错了，他应该不会做出如此明目张胆的作假行为。

如果统计研究只涉及无心过错、有意作假，那问题倒也好解决，尽管这些问题本质上确实很严重。比如，我们可以提高教育质量，仔细检查数据，重复多次实验，公开研究数据，等等，最后一章我们还会详细讨论该问题。但除此之外，我们还面临一个更严峻、更困难的问题，有些人认为这一问题才是可重复性危机的核心原因。

可疑学术行为

就算数据完全真实，实验分析恰当合理，统计量和P值的计算准确无误，

如果我们不知道研究人员得出结论的具体过程，也很难正确理解实验结果的含义

。

我们已经看到了研究人员选择性报告具有统计显著性的结果所带来的种种问题，但更重要的是，在整个研究过程当中，研究人员有时会有意识或无意识地根据数据的反馈结果做出各种细微的“改进措施”，比如对实验设计、停止收集数据的时间、排除哪些数据、对哪些因素进行分层分析、重点关注哪些组别与结果、如何对连续变量分组、如何处理缺失数据等诸多细节的改动。尤里·西蒙松将这些决策称为“研究者自由度”，而安德鲁·格尔曼则以更为诗意的方式将其称为“小径分岔的花园”。所有这些改动都有可能会提高“获得具有统计显著性的实验结果”的概率，所以都属于“可疑学术行为”的范畴。

因此，我们有必要将

探索性研究

（exploratory studies）

和验证性研究

（confirmatory studies）

区分开来

。顾名思义，探索性研究的调查方式较为灵活，通常以探索更多可行性、提出更多假设为目的，而后续那些为了检验假设可靠性的研究就是验证性研究。在探索性研究中，我们可以根据需要适当调整实验细节，但验证性研究应当严格按照预先规划好的、最好是公开透明的方案逐步进行。虽然这两种研究都可以用P值来衡量证据对结论的支持程度，但二者应当明确区分开来，并以完全不同的方式加以解释。

那些想方设法去获取具有统计显著性结果的行为，通常又被称为“P值操纵”。

P值操纵最简单的思路就是进行多次检验，但只报告具有统计显著性的结果。

不过除此之外，研究者们还可以通过很多更“巧妙”的方法来行使所谓的“研究者自由度”。

听披头士的歌曲《当我64岁时》，能让人返老还童？

大多数人都会觉得这绝无可能。但是尤里·西蒙松和他的同事一起，在一些“统计小伎俩”的帮助下，得出了一个具有统计显著性的阳性结果。

该实验找来了一群宾夕法尼亚大学的本科生，这些学生被随机分成几组，分别收听披头士乐队的《当我64岁时》、Mr. Scruff的《克林巴》，以及Wiggles的《烫手山芋》。听完之后，学生们需要回答自己的出生日期、个人感受，以及其他一些奇奇怪怪的问题。

尤里·西蒙松和他的同事一起，用他们能想到的各种技巧和方法去反复分析数据，并不断招募新的受试者，直到他们发现某个具有统计显著性的相关性结论为止。受试人数达到34之后，在受试者年龄和他们收听的音乐之间没有显著关系的情况下，仅通过《当我64岁时》和《克林巴》两首歌的对比，研究人员就得到了P值

当然，他们只报告了具有统计显著性的分析结果，而没有提到他们对实验做出的诸多调整、使用的各种技巧，以及对实验结果的选择性报道——直到论文结尾处，他们才将真相说了出来。

这类学术不端行为如今被统称为“根据结果构建假设”，即在确定结果的情况下提出假设。

学术不端行为有多普遍？

2012年，一项针对2,155名美国心理学家的调查显示，只有2%的人承认自己伪造过数据。但一份包含10项可疑学术行为的调查问卷表明：

35%的人表示自己有过“虽然实验结论中提到这是一项意外发现，但其实在实验开始前我们就预料到了该结果”的行为；

58%的人表示自己有过“一边收集数据，一边进行显著性检验。当出现具有统计显著性的结果时，立即停止数据收集”的行为；

67%的人表示自己有过“没有公开全部实验结果”的行为；

94%的人承认，在列出来的10项可疑学术行为中，至少有1项符合自身情况。

令人遗憾的是，这些人普遍认为以上行为相当合理——毕竟谁都想报告一个新奇有趣的、出人意料的发现。

这种现象的症结就在于，探索性研究和验证性研究的界限过于模糊。

包括“根据结果构建假设”在内的诸多行为，在探索性研究中其实都不存在太大问题，毕竟探索性研究的目的就是发现更多想法，提出更多假设，以供其他人验证。但在以验证假设为目的的验证性研究当中，这些行为应该被严格禁止。

科学结论的可靠性遭到破坏

不管统计工作的结果是好是坏，我们都有必要将结论传达给大众（包括专业人士与非专业人士）。并非只有科学家能够基于统计证据做出结论。政府、政客、慈善机构、其他非政府机构都想通过数据和科学来吸引大众的注意力，以便为自己的主观观点提供一些坚实的“客观”依据。随着科技的发展，如今人们已经可以通过线上、线下等多种渠道，快速地从各种来源中获取统计结论，但确保统计结论严谨可靠的措施却少之又少。

图12-1高度概括了我们接触、了解统计结论的全过程。该图始于数据的原创者，之后经“各种机构”流向媒体和宣传部门，最后经记者、编辑等人传播到每个人的手中。

其中的每一步都有可能会产生误解或曲解，进而导致部分信息被过滤掉。

▷

图12-1统计数据及结论的传播流程

统计数据及结论从源头流向个人的流程。每一阶段都会出于学术不端行为、选择性报道、缺乏完整信息、夸大研究结论等原因导致部分信息被过滤掉。

科学论文存在的一些问题

第一次过滤出现在研究人员发表统计工作的结果时——很多研究根本没有被发表的机会，理由要么是“研究结果不够新奇有趣”，要么是“不符合研究机构定下的目标”。制药公司尤其容易出现这种现象，很多制药公司都因“隐瞒部分不符合公司利益的研究结果”遭受各种批判。由此导致的结果是，很多有价值的数据从此被尘封在档案柜里；遗留下来的数据总是会更倾向于支持研究结论，我们或许永远都无法知道那些被精心隐藏起来的真相是什么。

由于那些著名期刊更喜欢发表新奇有趣的研究结论，因此研究者存在故意夸大统计显著性的动机，这种倾向会变得更加严重。

新闻机构存在的问题

科学资讯流传到新闻机构之后，新闻机构为了吸引眼球所做出的各种决策可能会引发更多问题。前面我们曾提到过，某新闻机构在报道“社会经济地位与脑瘤风险的研究结果”时，居然拟出了“上大学会增加患脑瘤的风险”这样夸张的标题。喜欢夸大其词的并非只有新闻机构：一项研究发现，2011年英国各所大学发布的462篇新闻稿中：

40% 夸大了相关建议；

33% 夸大了因果关系；

36% 夸大了动物研究对人类的影响；

新闻报道中所出现的夸大内容大多都可以追溯至新闻稿。

同一调查小组随后又对主要生物医学期刊中的534篇新闻稿进行了调查，并发现了一些稍微令人感到心安的结果：21%的新闻稿夸大了论文中的因果关系或建议，但媒体在进一步传播时并没有继续夸大相关内容。

第1章我们曾介绍过“框架效应”—叙述方式会影响读者对数据的理解，比如“90%不含脂肪”比“10%含脂肪”听起来会更好一些。再比如，一项很有价值却稍显枯燥的研究发现，10%的人口携带有一种可以预防高血压的基因，但该结论在传播时被改写为“每十个人中就有九个人携带一种会增加高血压风险的基因”，在负面框架效应的作用下，这一资讯立即引发了全球各地新闻机构的争相报道。

媒体存在的问题

科学结论、统计数据的低劣报道，往往会归罪于文章的记者，但事实上，这很大程度上是因为新闻稿和科学论文中的内容本身就有一定问题，以及编辑为文章起的标题往往会带有框架效应：大多数读者并不知道，

决定文章标题的往往并不是撰稿人，而是报社的编辑

。

编辑起标题时必然会以能否吸引读者为标准。

媒体最常出现的问题并不是颠倒是非，而是对“事实”加以修饰或夸大

：这些事实或许在原理上不存在任何问题，但经过媒体的“可疑解读”之后，可能会产生很强的误导性。下面这份清单列举了媒体在报道统计结论时经常使用的一些“添油加醋”的手段。对于那些靠阅读量、收听量、点击量等流量吃饭的专业媒体人来说，这些“可疑行为”似乎已经变成了一种合理行为。

1.尽量选取一些不符合常识的内容。

2.只注重流量，不注重质量。

3.在报道时隐去结论的不确定性。

4.隐去实验背景，不提供对照视角，比如只报道短期效应，不报道长期效应。

5.实验结论只涉及相关性，报道时将其修改为因果性。

6.夸大研究结果的相关性和重要程度。

7.声称该实验结论可以支持某项政策。

8.根据文章目的使用相应的框架效应—想要安抚人心，就使用正面框架效应；想要调动情绪，就使用负面框架效应。

9.完全忽视其他存在利益冲突的观点。

10.使用花里胡哨却没什么实际内容的图表。

11.只报道相对风险，不报道绝对风险。

最后一条做法极为常见。我们曾在第1章中提到，“吃培根会增加肠癌风险”那篇报道为了增加阅读量，在文章中使用了相对风险，而非绝对风险。经验丰富的记者都知道，相对风险（媒体一般会将其描述为“这样做会增加风险”，但不指出具体增加多少）更容易吸引读者的目光，能让结论显得更为震撼。事实上，在生物医学等领域，相对风险的正规表述方式应当为优势比、比率比（rate ratio）、风险比（hazard ratio），只不过这种枯燥的数字无益于阅读量的提高。

《沉迷电视节目会害死你》这篇文章源自一项流行病调查研究，该研究通过分层分析发现，与每晚看电视时长不足2.5小时的人群相比，那些每晚看电视时长超过5小时的人患致命性肺栓塞的风险更高，其相对风险系数大约为2.5。不过，高危人群的绝对发病率其实并不高，每年只有13/158000的人左右，这意味着如果你每晚都看5个小时的电视，那么预计连续看12 000年才会患上致命性肺栓塞。如此看来，这种风险好像也没那么吓人。

这个标题完全就是为了点击量而起的，而且不得不承认的是，标题确实起得很成功—就连我自己都想点进去看看怎么回事。既然大多数人都喜欢新奇、刺激的事物，那媒体在报道统计结论时喜欢添油加醋、夸大其词不就变成一件很普遍的事情了吗？下一章中，我们会讨论一下该问题应如何解决，但在此之前我们先来看看达里尔·贝姆是如何得出“某些人可以预测未来”这种荒谬结论的。

达里尔·贝姆非常清楚自己的研究结论根本不合常理，但值得肯定的是，他鼓励大家进行重复实验，并提供了实验所需的各种材料。然而，当其他研究人员接受挑战，真的去重复实验时（当然都没能复现他的实验结果），当初发表达里尔·贝姆那篇论文的期刊却拒绝发表这些复现失败的研究论文。

那么，达里尔·贝姆到底是如何得到这种耸人听闻的结论的呢？真相是，为了取得理想中的数据，他曾多次调整实验设计，并突出强调个别组别的结果，例如在研究预测能力时，他只会报告在色情图片实验中取得的阳性结果，而不会报告在非色情图片实验中取得的阴性结果。达里尔·贝姆曾公开承认：“实验展开之后，如果没有取得什么进展，我会立即修改一些细节，然后重新开始实验。”有些修改会被写进论文，剩下的那些则没有。安德鲁·格尔曼指出：

达里尔·贝姆的结论以P值为判断基准，而P值表示的是假设不成立的情况下，出现当前这种数据的概率。但达里尔·贝姆没能说清楚，假设不成立的情况下，他的分析方法是否会和当前一样。事实上，他一共进行了9项实验，但每个实验的分析方法都各不相同。

达里尔·贝姆是一个非常典型的例子—有些研究人员使用了过多的研究者自由度。但另一方面，达里尔·贝姆也为心理学甚至整个科学的发展做出了重要贡献：他在2011年发表的那篇论文促使全体科学家开始认真反思科学论文的可靠性，以及这种论文充斥于整个科研环境的原因。更夸张的是，居然有人认为达里尔·贝姆是在效仿前面那几个例子，故意制造一些反面案例，以引起大家对心理学结论的薄弱性的注意。

统计的艺术：为什么科学结论大多是错的？

相似文章