基思·斯坦诺维奇：这才是心理学（六·上）

2023-03-10心理学教材来源:百合文库

Chapter 6 让一切置于控制之下：聪明汉斯的故事
这一章开始前，咱们先来做一个小测验。噢，别担心，不是考你前几章所学的内容。问题其实很简单，是有关现实世界中常见的物体运动方面的知识，问题只有三个。
首先，你需要一张纸，想象如下场景：一个人拿着一根细绳在他的头顶上绕圈，绳子的另一端系着一个球。画一个圆来代表从上方俯瞰这个球的运动轨迹。在这个圈的一处画一个点，然后用一条线把这个点和此圆的圆心连接起来。这条线就代表那根细绳，那个点就代表特定时刻的球。想象在某一旋转瞬间，细绳断了。你的第一项任务是用笔画出这个球飞出后的运行轨迹。
第二个问题，假设你是一个轰炸机的飞行员，现在正以每小时500英里的速度在20000英尺（约6096米）的高空飞向目标。为了简单起见，假设没有空气阻力，问题是：什么地方是投掷炸弹的最佳位置，是在到达目标地点之前，还是目标的正上方，或者是在你经过目标之后？无论你选择的是目标之前、目标正上方，还是飞越了目标之后，都请你指出投放点与目标的具体距离。
最后，想象你正拿着一把来复枪从肩膀高度处开火。假设没有空气阻力，且步枪与地面是平行的。如果子弹从与枪相同的高度落地需要1.5秒钟的时间，那么假设你现在由枪管中射出一发子弹，初速度是每秒2000英尺（约609.6米），那么子弹落地需要多长时间？
答案——对了，还有答案这回事儿。答案会在本章的后面揭晓。但在此之前，为了便于理解掌握这些运动方面的知识与心理学有什么关系，我们需要先深入地探讨实验逻辑的本质，这些实验逻辑经常被科学家们所使用。在本章，我们将要讨论实验控制和操纵的一些原理。
斯诺与霍乱
在前一章我们讲到，约瑟夫·戈德伯格对糙皮病的研究在一定程度上是受“糙皮病是不会传染的”这种预感的指引。但是比戈德伯格早70年，约翰·斯诺（John Snow）在对霍乱起因的研究过程中则将病因放在相反的猜想上，但同样获得了成功（Johnson, 2007；Tufte, 1977）。早在19世纪50年代的伦敦，人们对不断暴发的霍乱提出了许多理论，并且彼此争论不休。很多医生认为霍乱病人呼出的气体会将此疾病传染给别人，此理论被称为“秽气理论”。但斯诺却提出，该疾病是通过被病人排泄物污染的供水系统传播出去的。
斯诺开始着手验证他的理论。幸运的是，当时伦敦有许多不同的供水源，每个供水源给不同的地区供水，所以不同供水系统受感染的程度不同，霍乱的发生率应该因供水源受污染程度的不同而存在差别。但是斯诺发现，这种比较会出现严重的选择性偏差（请回想一下第5章的讨论）。在伦敦，不同地区的贫富差距非常大，因此，供水系统和各地区患病率之间的任何相关都会受到其他能够影响健康的、与该地区的经济发展水平相关的变量的影响，如饮食、压力、工作危机或生活质量。简而言之，获得虚假相关的可能性很大，这和第5章所讨论的糙皮病和污水的关系类似。但是斯诺非常机敏地注意到了一种已经出现过的特殊条件，并利用这一点解决了问题。
在伦敦的一个市区，碰巧有两家自来水公司对同一个社区供水，但从供水布局上来说是杂乱无章、毫无规划的。在某条街道上，一部分住宅是由其中一家自来水公司供水，一部分是由另外一家自来水公司负责供水，这种情况发生的原因是由于最初两家公司存在竞争。甚至有这样的情况，一栋房子由一家公司供水，而与它毗邻的房子却是由另一家公司供水。因此斯诺找到了几个由两家公司分别供水的家庭，并且这些家庭的社会经济地位基本相同，或至少是非常接近的。如果两家自来水公司都受到污染，那么这种选择仍旧是没有任何意义的，因为这样斯诺就不能发现水污染与霍乱的发病率有什么关系了。所幸的是，这种情况并没有发生，这两家公司的水并未同时受到污染。
在一波霍乱流行过后，兰姆博斯（Lambeth）公司为了避免水污染，将公司迁到泰晤士河的上游，而南沃克—沃克斯霍尔（Southwark & Vauxhall）公司却仍然固守在下游。因此，兰姆博斯公司的水系统受污染的可能性比南沃克—沃克斯霍尔公司要小得多。斯诺通过化学检验也证明了这一点。剩下的工作就是统计由两家不同公司供水的家庭的霍乱发病率：兰姆博斯公司供水的每10000个家庭里有37人死亡，南沃克—沃克斯霍尔公司供水的每10000个家庭里有315人死亡。
在这一章我们要讨论的是，斯诺和戈德伯格的故事是如何体现科学思维的逻辑性的。如果不能理解这种逻辑性，科学家们的所作所为看上去就会显得很神秘、怪异或是荒唐透顶。
比较、控制和操纵
尽管市面上关于科学方法论的书已经汗牛充栋，但是对于从未做过实验的外行人士来说，这些书可能都如同浮云一般，因为外行人只想知道一个大概，并不想搞清楚实验设计的所有复杂细节。科学思维最重要的特点很容易掌握，那就是科学思维所基于的理念是比较、控制和操纵。要想获得对一个现象更加深入的了解，科学家就要比较世界上存在的各种情况。没有这种比较，我们所观察到的都是一些孤立的事件，并且对这些孤立的观察结果也解释不清，就像我们第4章所讨论的见证叙述和个案研究一样。
科学家通过比较在不同条件（但是有控制的）下得到的结果，可以排除一些错误的解释，并证实正确的解释。实验设计的基本目的是分离变量。当成功分离出一个变量，实验的结果就能排除大量之前提出作为解释的其他理论。科学家们通过两种方法尽可能地排除不正确的理论：要么是在实验条件下直接进行控制；要么在自然情境下进行观察，以便比较各种可能的解释。
后一种情形在霍乱这个例子中得到了很好的诠释。斯诺并不是简单地随意选择两家自来水公司，他清楚自来水公司可能给不同地区供水，并且这些地区的社会经济水平会有很大差异，这种社会经济水平的差异很有可能会影响人们的健康水平。仅仅观察不同地区霍乱的发病率，难以避免“同时存在许多不同解释”的问题。斯诺清楚地知道，科学的不断发展需要尽量减少对同一个问题的各种不同解释（请回想一下第2章所讨论的可证伪性），因此他不断寻找并且最终找到一种比较方式，此方式可以排除一大堆解释，这类解释都是与健康有关的社会经济地位方面的因素。
斯诺幸运地找到了一种自然情境，这种情境使得他能够排除其他的可能性。这种在自然情况下产生的“比较”条件并不多见。让科学家坐在那里等待这类情况发生是十分荒谬的。事实上正相反，很多科学家都试图以一种区分各种不同假设的方式来重构世界。为实现这一目的，他们必须操纵被认为是诱因的变量（在斯诺的实验里是被污染的供水系统），然后在保持其他所有相关变量不变的情况下，观察是否会有不同的结果（霍乱的发病率）。被操纵的变量称为自变量，随着自变量变化而变化的变量称为因变量。
因此，一个好的实验设计应该是这样的：科学家能够操纵他感兴趣的变量，并对其他可能影响实验的无关变量进行控制。需要注意的是，斯诺并没有这么做。他不可能操纵供水系统的污染程度，但是他找到了这样一种条件，即供水系统受污染的程度是不同的，并且与社会经济水平有关的其他变量侥幸得到了控制。可是这种自然发生的情境不仅很少见，而且也不如直接的实验操纵那么具有说服力。
约瑟夫·戈德伯格就是直接操纵变量，他假设这个变量就是引起某种特别现象的原因。戈德伯格不仅对与糙皮病相关的变量进行观察和记录，他还在一系列研究中直接操纵了其他两个变量。回想一下，他安排了低蛋白饮食的囚犯组来诱发糙皮病，同时安排吞食糙皮病患者排泄物的志愿者，其中还包括他妻子和他自己。因此，戈德伯格不仅观察了自然发生的情境，还创设了特殊条件组，从而排除一系列其他可能性并获得实验结果，这种推论要比斯诺的方法更具说服力。这也正是为什么科学家要试图操纵一个变量并保持其他所有的变量不变的原因：为了排除其他的可能性。
随机分配与操纵共同定义了真实验
我们这里并不是说斯诺的方法毫无可取之处。但科学家们的确愿意更为直接地操纵实验变量，因为直接操纵变量能够产生更具说服力的推论。细想斯诺的两组被试：一组由兰姆博斯公司供水，另一组由南沃克—沃克斯霍尔公司供水。由于处在同一个地区，可能保证了两组被试的社会地位几乎相同。
但是类似斯诺这类实验设计的缺陷是，它是由被试决定自己属于哪一个组的。因为他们早在几年前已与两家自来水公司签订了供水合同。我们还必须考虑为什么一些人与这家公司签约，而另外一些人与那家公司签约。是不是一家公司比另外一家公司的口碑好？是由于这家的价钱比较便宜，还是广告说这家的水有很好的药用价值？我们不得而知。关键的问题是，这些人选择其中一家公司是不是因为该公司做广告说他们的产品质量优于另外一家，特别是对人的健康有益处？而或许这些因素才是低发病率的真正原因。这是有可能的。
类似斯诺这样的实验设计就无法排除那些更为微妙的虚假相关，这类虚假相关不像其他与社会经济地位有关的相关那样容易被看出来。这就是科学家倾向于直接操纵他们感兴趣的变量的原因。当操纵变量与一种叫做随机分配的程序（在随机分配中被试不能决定自己进入哪种实验条件，而是被随机分配到某一个实验组）相结合时，科学家们就能够排除那些可以归因为被试本身特征的解释了。随机分配确保被试在对比实验条件下的所有变量基本保持一致，随着样本数量的增加，它还能平衡掉一些偶然因素。这是因为被试的分配是由不带偏见的随机方法实施的，而不是由某个人的选择决定的。请注意这里的随机分配与随机样本不是一回事，这两者的区别我们将会在第7章进行讨论。
随机分配是一种将被试分配到实验组和控制组的方法，以保证每个被试有同样的几率被分到其中一个组。掷硬币就是一种决定某一被试分到哪一组的手段。实际实验中往往采用电脑生成的随机数字表。通过使用随机分配，研究者在研究之前就试图平衡两组的所有行为变量和生理变量，甚至是那些研究者没有进行专门测量或考虑到的变量。
随机分配的效果如何，取决于实验中被试的数量。也许你会认为被试越多越好，也就是说，分配到实验组和控制组的被试的数量越多，两组间除了自变量以外的其他所有变量就越接近。但幸运的是，对于研究者来说，其实每组只需要一个相当少的人数（例如20~25人），随机分配就可以起到很好的效果。
使用随机分配能有效避免由于分组方式所导致的系统误差。这两组被试在所有变量上均得到匹配，但即使存在一定程度的不匹配，随机分配也消除了实验组或控制组之间的偏差。如果我们了解一下“重复”这个概念，对于随机分配如何去除系统误差这个问题就比较好理解了，所谓的重复是指在各种环境下重复一个实验，看还能否得到同样的实验结果。
设想一下，一个发展心理学家想要做一个关于早期丰富体验对学前儿童的影响的实验，在日托期间，随机分配到实验组的儿童每天接触心理学家设计的大量丰富活动，随机分配到控制组的儿童在同样的时间里只是参加一些比较传统的游戏活动。因变量是儿童上学一年后的期末成绩，通过成绩考察实验组儿童的表现是否优于控制组儿童。
像这样的实验就会用到随机分配，以确保两组在实验之初，所有能够影响因变量的无关变量都基本保持一致。这些无关变量有时被称为干扰变量。这个实验中的干扰变量可能会是儿童的智力测验成绩和他们的家庭环境。随机分配将会在大体上使两组间在这些变量上保持平衡。但也有例外，尤其当被试人数很少时，两组仍然有可能存在差异。例如，如果随机分配之后，实验组儿童的智力测验的成绩是105.6, 控制组的是101.9（尽管恰当地使用了随机分配，这种差异还是有可能发生），我们就会担心实验组的学业成就的任何变化缘于该组儿童的智力测验成绩高，而不是由于他们经受了丰富的体验。这里就能看出重复验证的重要性了。后续研究进行随机分配之后，两组仍然可能存在智商差异，但是随机分配程序避免了系统误差，这就能够保证这种差异不会总是出现在实验组。
事实上，无系统误差这一点所确保的是，在一定数量的类似研究中，智商差异出现在实验组和出现在控制组的概率是相等的。在第8章中，我们将会讨论如何使用这种多重的实验来提高结论的聚合效度。
因此，随机分配程序有两个优点。一个是在任何实验中，样本的数量越大，随机分配越能平衡两组所有其他的无关变量。而即使在一些匹配得不是特别好的实验里，由于随机分配克服了系统误差，仍然可以让我们得出令人信服的结论——只要研究可以被重复。这是因为，经过一系列这样的实验，两组间混淆变量造成的差异就会被平衡。
控制组的重要性
科学研究中不乏由于缺乏真实验的完全控制而得出错误结论的例子。罗斯和尼斯贝特（Ross & Nisbett, 1991）提到一种多年前非常流行的治疗肝硬化的疗法——门腔静脉分流术的医疗发现。1966年人们开始对此疗法进行大量研究，并且发现了一种引起人们兴趣的现象。在96.9%的不包含控制组的研究中，医生判断这种治疗方法的效果至少在中等程度以上。在有控制组但没有使用随机分配的研究中（因此不属于真实验设计），86.7%的研究显示同样的结论。但是，在有随机分配的控制组的研究中，只有25%的研究显示同样的结论。因此在今天，这种特殊治疗方法被认为是无效的，但在当时，由于没有进行完全的实验控制，治疗效果被夸大了。罗斯和尼斯贝特（1991）指出：“没有使用较为正式的实验程序所获得的积极效果，要么是‘安慰剂效应’的产物，要么是由于没有使用随机分配而产生的偏差。
”（p.207）罗斯和尼斯贝特还继续探讨了“当没有使用随机分配的时候，选择性偏差是如何产生虚假相关的”这一问题。例如，如果一些病人被选作某种治疗方法的研究被试，他们可能会努力做一名好的参与者，或者他们拥有家庭的支持、积极的态度或者他们的家人对其病情更为关心，这些都可能影响实验组与控制组的差别，而这与治疗方法的效果没有任何关系。
在下结论之前，必须获得“比较信息”，这种思维倾向并不是与生俱来的，这就是为什么所有科学研究都要经过训练。这些训练包括强调控制组的重要性的研究方法课程。控制组和实验组很像，只不过缺少一种重要因素的影响。
控制组的这种“非鲜明性”很难让人发现它的重要性。心理学家们做了大量的研究来说明人们为什么忽视重要的比较（控制组）信息。例如，在一个研究范式中（Stanovich, 2010），我们给被试呈现一个2×2的实验数据矩阵，如表6-1所示。
表6-1
接受治疗好转：200 没有好转：75
未接受治疗好转：50 没有好转：15
表6-1中的数字代表每种情况的人数。具体来说，200人在接受了治疗后表现出病情好转，75人接受治疗但没有任何好转，50人没有接受治疗但仍有好转，15人没有接受治疗也没有任何好转。研究者让看过这一矩阵的被试指出治疗是否有效，很多被试认为测试中的治疗方法是有效的，相当多的被试甚至认为治疗是很有效的。这是因为他们首先关注的是200人接受了治疗且好转的那一组。其次，他们关注这样一个事实，即接受治疗且好转的人数（200）要远远多于没有好转的人数（75）。
事实上，这个实验所检测的疗法是完全无效的。为了理解为什么这个疗法是无效的，有必要关注一下表示没有接受治疗的控制组（没有接受特殊疗法的组）的两格数据。我们可以看出，控制组的65人中有50个人，即76.9%的人即使没有接受特殊治疗还是有所好转。这与275人中200人（72.7%）接受治疗且有所好转形成了对比。因此，控制组中病情好转者的比例实际上更大，这说明这种疗法是完全没有效果的。只关注实验组的结果而忽视控制组的结果，会诱使许多人认为这种疗法有效。简而言之，它很容易让人们忽略这一事实，即当我们对治疗效果进行解释时，控制组的结果是背景信息中极为关键的一环。
不幸的是，我们的媒体经常干的事情，就是将人们的注意力从比较性信息的必要性上移开。心理学教授彼得·格雷（Peter Gray, 2008）谈到在《时代》（Times）杂志上一篇题为《离婚的持久性伤害》的文章，文章列举了很多历史上的案例，报道了许多父母离婚的人。当然，在缺乏非离异家庭个体的控制组时，我们不能从这里得出任何结论。我们怎么知道离异家庭的个体更可能表现出这些消极的结果呢？只有一个匹配的控制组才能回答这个问题。
除了这类例子，社会学和不同的应用学科在评估证据时，也开始越来越重视比较性信息的必要性。这里列举医学领域近期还在进行中的一个研究进展（Gawande, 2010；Redberg, 2011）。神经学家罗伯特·伯顿（Burton, 2008）描述了医学采取的路径——从对人造成伤害的直觉知识，到建立在比较研究所获得的有用知识上的治疗方法。“多年来，我常常感到惊讶，为什么许多聪明、训练有素的医生会进行一些不必要的外科手术，而且这些手术未经验证，又有危险。在医学实践的核心里存在一个巨大的矛盾：我们从经验中学习，但是如果没有经过足够的实验，我们就无法知道我们对一个特定治疗结果的解释是否正确……但是，当一名好医生就需要坚持最佳的医学证据，即使它和你的个人经验相矛盾。我们既需要区分直觉和可检验的知识，也要区分预感和经过实证检验的证据。
”（pp.160—161）
其他实践领域中的直觉性“预感”也越来越多地被置于控制对比研究中，以进行检验。例如，信用卡公司经常寄出信件，提供可选择的条款，判断哪个条款对客户最有吸引力（Ayres, 2007）。例如，一组随机分配的家庭会收到一个利率、年费和奖励计划的组合。另一组随机分配的家庭会收到另一个不同的利率、年费和奖励计划的组合。如果两组的接受率上有差异，那么公司就会发现哪个组合更好（从吸引更多客户的角度）。重点在于，信用卡公司无法获悉其现行的条款是否“起作用”（例如，是否吸引了尽可能多的客户），除非他们进行一些实验，将可选择的条款进行比较。
不仅在商业方面，政府部门也开始使用控制实验来探寻如何进行政策优化。美国住房和城市发展部进行了一个实验，叫做“向机遇迁居实验”（Ayres, 2007）。对一组随机分配的低收入家庭给予住房代金券（可以用在任何地方）；给予另一组随机分配的低收入家庭的代金券只能用在低贫困（例如中产阶级）地区。这样做的目的是了解当低收入家庭的周围不是其他低收入家庭时，在结果变量（教育成果、犯罪行为、健康状况，等等）上是否有差异。这种类型的研究被称为“现场实验”——变量的操控是在非实验室条件下进行的。另一个政府赞助的现场实验是墨西哥教育、健康和营养改善项目（Ayres, 2007）。这个项目包括有条件地将钱转移给贫困家庭。当母亲接受产前检查时，她们就可以得到现金。她们的孩子入学并通过了营养检查，也可以得到现金。
政府在506个村庄进行了现场实验，以验证这个项目的功效。半数的村庄参与了这一计划，而另一半没有。这使得政府能够检验该项目的成本效率。两年后，对这些村庄的成果进行检查，例如教育成就、营养和健康水平。如果没有控制组，政府就无从得知在没有该计划的情况下，教育和健康会是什么样的水平。
国际援助组织也致力于有操纵变量的研究（真实验）来找出“什么起了作用”（Banerjee & Duflo, 2009）。作家尼古拉斯·克里斯托夫（Nicholas Kristoff, 2009）论述了援助组织的问题，他们经常进行自我评估并最终声称他们做的所有事情都起了作用，而这是不现实的。这种路线方法意味着钱将会花错地方。为了更有效地利用援助资金——即拯救更多的生命——判断哪个项目比其他项目更有效是非常重要的。克里斯托夫描述了麻省理工学院的扶贫行动实验室是怎样设计研究的，为了找到哪个项目是最有效的，研究至少是合适的真实验，随机在一些地方进行援助计划而在其他地方不进行。
有时公众很难理解，他们想要的无非是有效地利用纳税人的钱帮助大多数人，为什么必须要进行实验去追逐其他东西。例如，纽约市尝试对其公共项目之一——“家园”（Homebase）进行实验测试，这一项目旨在防止人们流离失所（Buckley, 2010）。符合项目（包括工作培训、咨询和其他援助）条件的人（必须是拖欠房租而且有被赶出去的风险）远多于项目服务所能覆盖的人。因此，纽约市做了合乎逻辑的事，就是去测试项目的功效：他们随即分配了一些人加入这个项目（直到2300万美金花完），另一些相同数目的人则不进入这一项目。这个设计让纽约市弄清了2300万美金花出去之后有多少人从流离失所中被拯救了回来。无论结果是什么，答案都会让纽约市更好地分配资金，如果在这个水平的支出下被拯救的人太少，那么或许资金应该被用于其他方面。
相反地，如果大量的人免于流离失所，考虑到无家可归者的社会和经济成本，这个项目应当增加和扩大。无论结果如何，纽约市的民众都得到了更好的服务。
不幸的是，许多纽约的民众和组织并不这样看。他们对“实验”这个鲜活的词语作出了情绪化的反应，并且反对这项旨在让城市更合理地运用资金的对照研究。他们认为这些无家可归者被当作了豚鼠或小白鼠。这些批评者忽略的是，没有人因为实验而得不到服务。无论人群是否被随机分配，都会有相同数量的人接受这个项目的帮助。唯一的不同是通过从控制组收集信息，而不是简单地忽略掉不在项目中的人，纽约市将可以判定这个项目是否起作用！
在这个例子中，对现场实验的误解相当常见。人们似乎不理解在进行现场试验对真实场景中社会援助的作用，我们可以通过什么方法最有效地来使民众得到最大化的帮助。就像国际援助专家艾舍尔·杜夫罗（Esther Duflo）说的：“它看起来并不像是世界观的巨大革新，但是大多数不是经济学家的人无法理解。他们不能理解预算限制。”（Parker, 2010, p.87）我们当我们读到这里的时候，很容易察觉到杜夫罗话语中包含了些许的沮丧。杜夫罗正在应对我们已经在这本书上论述很多次的事情——对科学家来说显而易见的事情却被外行人完全误解。对杜夫罗来说，在额定的援助预算下，从给定项目中得到服务的人数是一个特定的值。在相同的预算下，另一个更有效的项目能够帮助更多的人。唯一能够断定一个项目是否更有效的方法是进行真正的实验。
或许重构能够对人们有所帮助。杜夫罗的一位对贫困国家进行援助实验的同事说，经常有人对她说：“你不应该拿人做实验。”她回复道：“好吧，那你就别想知道项目是否有效——那不是实验吗？”（p.87）她在这个问题上回答得相当正确。现行状态——检验它的功效的项目本身也可以被叫作实验，只不过设计得很糟糕！不进行真正实验而运行项目也是一种实验，只不过是没有适当控制的实验！也就是说，这是一种没有控制组的情况！它也是“拿人做实验”！这种重构可能帮助人们消解对寻找什么能够最大限度地帮助人们的客观方法的愚蠢的抵制。
聪明汉斯——神马的故事
用实验控制来排除某种现象的各种其他解释是很有必要的。这种必要性可以通过分析行为科学中一个非常著名的故事来说明。故事的主人公叫聪明汉斯（Clever Hans）——一匹会算术的马。100多年前，一名德国教师向大家展示了一匹马，它的名字叫聪明汉斯，它好像知道如何算术。训练员无论给汉斯出加法、减法还是乘法题，汉斯都能用它的蹄子敲出答案，并且它的回答完全正确。
许多人对于聪明汉斯的表现都感到惊讶和迷惑。难道这匹马真的证明人们低估了这个物种的实际能力吗？人们无疑会有这样的疑问。对汉斯特殊能力的有力见证被德国媒体广泛报道。柏林的一家报社记者写道：“这匹会思考的马将会使科学家对许多问题作出长时间的思考。”（Fernald, 1984, p. 30）
这个预言后来被证明是正确的——尽管与记者所期望的有所不同。一组“专家”对汉斯进行了观察，并且证明了它的能力。因此，每个人对此都感到很困惑。这个困惑一直困扰着人们，因为这个现象总是被孤立地观察到，也没有进行任何的控制。但这个谜团很快被一位叫奥斯卡·芬斯特（Oskar Pfungst）的心理学家解开了，他对汉斯的能力进行了系统的研究（Spitz, 1997）。
芬斯特继承了实验设计的优良传统，系统地对动物表演的环境进行操纵，创设了一种“人为”情境（见第7章），这种情境可以用来检验关于马的表现的各种不同说法。在一系列小心谨慎的测试之后，芬斯特发现，这匹马的确具有一种特殊能力，但不是计算能力。事实上，这匹马更像是一位行为科学家，而不是数学家。你看，汉斯是一个非常细心的人类行为的观察者，当它正在敲出答案的时候，它会观察训练员或者出题者的头部。当汉斯接近答案的时候，训练员会下意识地稍微歪一下他的头，然后汉斯就会停下来。芬斯特发现这匹马对视觉线索极其敏感，它能察觉头部的细微动作。于是芬斯特想出了另外一个方法来测试马的能力：就是让不知道答案的提问者向这匹马提问，或者让提问者在马的视线范围以外呈现问题，而在这些情况下，汉斯就失去了它的“数学能力”。
汉斯的例子很好地揭示了仔细区分“对现象的描述”和“对现象的解释”是何等重要。这匹马能够正确敲出训练员呈现给它的数学问题的答案，这是毋庸置疑的，训练员也没有撒谎，而且许多观察者也都证明了这匹马能够做到这一点。问题出现在下一步：即推论这匹马能敲出正确答案是因为它具有数学能力。推断马具有数学能力只是这一现象的一种“假设的解释”。从“马能敲出正确答案”就得出“马具有数学能力”的结论是不符合逻辑的。别忘了，马具有数学能力只是针对马的表现的诸多解释中的一种，而这种解释是可以通过实证方法来检验的。当放在这样一种实验情境下，这个解释就被证伪了。
在芬斯特涉足此事之前，那些见过这匹马的专家们都犯了一个根本性的错误：他们没有想到，对于马的表现还可能存在其他的解释。这些专家认为，只要证明训练员没有撒谎，并且这匹马真的能敲出正确答案，就能够推论出这匹马具有数学能力。然而，芬斯特想得更科学一些，他意识到这只不过是众多可能性中的一种，有必要设立控制条件来区分这些可能性。于是芬斯特设计了一个情境，让训练员站在隔板的后面把问题呈现给这匹马，通过这种方式，芬斯特就可以对两种可能性进行区分：是这匹马真的具有数学能力，还是它能对视觉线索作出反应？如果这匹马真的具有数学能力，让训练员站在隔板后面就不会对马的表现产生任何影响。而如果这匹马是对视觉线索作出反应，那么就会影响马的表现。当后者出现的时候，芬斯特就能够排除“这匹马具有数学能力”这种错误的解释（Splitz, 1997）。
这里可以同第3章中讨论过的节省原则联系起来，所谓的节省原则就是说，当两种理论拥有同样的解释效力时，我们倾向于选择那个比较简单的理论（涉及较少的概念和概念之间的关系）。此处有两种理论，一种认为这匹马具有数学能力，另一种则认为这匹马是在辨别行为线索，这两种理论在节省原则上的差异是很大的。后者不需要对先前任何心理学和大脑方面的理论作出大幅度调整，它只需要我们将“马对行为线索具有敏感性”的看法稍加调整即可（现在已经广为人知）。而前一种认为马真的能学习算术的理论，则需要我们修改进化论、认知科学、比较心理学和脑科学中的很多概念。这可是相当麻烦的，因为它与其他这些科学缺乏一致性，因此如果它是真的，就需要我们更改这些科学中的很多概念才行（我们将会在第8章讨论所谓的关联原则）。
20世纪90年代的聪明汉斯
聪明汉斯的故事只是一个历史案例，很多年来，在研究方法课上，这个例子都被用来说明实验控制的必要性。没有人认为聪明汉斯的例子会再次出现，但却真的出现了。在20世纪90年代初，全世界的研究者们都在惊恐中观望，就像用慢镜头的方式观察一场车祸一样，眼看着现代版的聪明汉斯的悲剧又一次展现在他们眼前。
自闭症是一种严重的发展性障碍，其表现是社交缺陷、语言发展的滞后及异常，以及活动和兴趣范围狭窄等（Baron-Cohen, 2005）。许多自闭症患儿从外表看起来都很正常，只是极度缺乏与人的交流，这让家长们很难接受。因此，20世纪80年代末期和90年代初期，在澳大利亚有人发明了一种技术，能让自闭的孩子从不说话到自由交流，很难想象这些自闭症患儿的家长们听到这个消息时该是多么激动。这种能让自闭症患者与人交流的技术被称为“辅助沟通疗法”，被一些很有知名度的媒体，如《60分钟》（60 Minutes）、《大观》（Parade）杂志和《华盛顿邮报》（Washington Post）等拿来大肆宣扬（见Lilienfeld et al., 2010；Offit, 2008；Twachtman-Cullen, 1997），据此技术的发明者称，自闭症患者以及其他因发展不良导致言语缺失的儿童，只要把手和胳膊放在这台善解人意的“辅助器”上，就可以在其辅助下，在键盘上敲出相当有文采的句子来。
自闭的孩子从之前有限的语言行为到能够交流表达，这种惊人的表现无疑给沮丧的家长们带来了无限希望。这个发明者还宣称，这种技术对于那些有严重智力障碍的失语儿童也同样有效。
尽管家长们的激动心情是可以理解的，但专业人员的轻信盲从就让人不能原谅了。更为糟糕的是，在没有进行控制实验的研究之前，这些媒体节目就开始向抱有无限期望的家长们大肆宣扬这种辅助沟通疗法多么有效。要是这些专业人员在实验控制原则方面受过哪怕一丁点儿训练，他们就能立刻看出这不过是“聪明汉斯”事件的翻版。那些辅助器可以说是一个永远关注孩子成功的、富有同情心的“人”，在辅助过程中有许多机会有意或无意地指导孩子触碰键盘上的按键。另外一项观察发现，孩子们有时即使不看键盘也能打出复杂的信息，这说明辅助器给了孩子某种暗示。甚至连没学过字母的孩子也能用英语创作出优美的散文。例如，据说一个小孩可以敲出“我是一个奴隶还是自由人？我是身陷囹圄还是被看做友好而理性的精灵？”（Offit, 2008, p.7）。
许多有控制的研究报告称，他们通过适当的实验控制检验了这种辅助沟通疗法。每项研究都明确地说明了同样一件事：自闭症患儿的表现依赖于辅助器发出的不易被觉察的提示（Jacobson, Foxx, & Mulick, 2004；Offit, 2008；Spitz, 1997；Wegner, Fuller, & Sparrow, 2003）。在这些研究中使用的控制方法与聪明汉斯的经典案例是相似的。研究人员设置了一种实验情境，给孩子和辅助器各自呈现一个物体的图案，但是他们彼此看不到呈现给对方的图案是什么。当孩子和辅助器看到的是相同图案的时候，孩子能正确地打出图案的名字；但是当孩子和辅助器看到的图案不同时，孩子打出的是辅助器看到的图案的名字，而不是孩子自己看到的那个图案。
因此，答案是由辅助器而不是孩子决定的。
实验结论是，辅助沟通疗法只不过是一种“聪明汉斯”现象，绝非治疗方法上的重大突破，也没有给研究人员带来任何欣喜。但悲剧后面紧跟着更大的悲剧。在一些治疗中心，有当事人在接受辅助器帮助的沟通过程中，讲出过去他们曾受到父亲或母亲的性虐待（Offit, 2008）。于是这些孩子们被迫从家里搬出来，直到这场指控被证明是毫无根据之后，孩子们才被接回来。
由于这些研究结果，专家的意见终于穿透媒体的喧闹浮出水面。重要的是，大家越发认识到，这些缺乏实证基础的疗法并非无害（哦，它有作用，那么它要是没有作用呢？），将未经证实的疗法投入使用是要付出代价的。
俄亥俄州立大学儿科及心理学教授詹姆斯·姆里克（见Mulick, Jacobson, & Kobe, 1993）指出了这种教育手段风行一时所付出的代价：
如果没有对辅助沟通疗法的大力宣传，我们可能就会把更多的人力和金钱用于发展基于更有实证基础的、更可行的长远策略，来解决困扰儿童的这一问题。辅助沟通疗法的支持者为研究和专业文献所带来的理论上的混乱，对能力缺陷及其成因方面知识的积累造成了极大的损害……将辅助沟通疗法与其他成功治愈残疾人的非语言交流系统混为一谈，会使真正有效的方法也失去公众的支持……根据我们的经验，残疾人能够成为他们家庭和社区里有价值的成员，他们无需求助于神奇的治疗方法。他们可以寻求现有的有效帮助，这种帮助是有科学意义的。受过科学训练且富有同情心的专业人员的努力胜过所有流行的治疗方法，而且始终如此。治疗的进步和对于治疗的理解是建立在严格的训练、精确的科学标准以及对各种治疗理论的客观证明之上的。（pp. 278-279）
上述这个例子再次证明，仅仅相信见证叙述或者认为流行的治疗方法和伪科学无害，最终会带来危害（见第4章）。由此，我们还能发现，当我们想要正确解释某种行为的时候，实验控制和操纵是不可替代的。
这里需要再次强调一下节省原则。自闭症儿童严重的语言障碍居然能够通过一种“神奇子弹”式（见第9章）的干预方法得到治愈，而这种干预方法推翻了几十年来关于自闭症儿童的认知、神经心理和脑特征的研究成果（Baron-Cohen, 2005；Oberman & Ramachandran, 2007；Rajendran & Mitchell, 2007；Tager-Flusberg, 2007；Wellman, Fang, & Peterson, 2001）。这需要我们修改很多关于认知和神经科学方面已取得的知识。辅助沟通疗法的现状表明，它与其他科学研究成果没有关联性和一致性（见第8章）。
最后，辅助沟通疗法说明了早先聪明的汉斯案例中论述的事情：谨慎地区分描述现象和解释现象的重要性。“辅助沟通”这一术语不是对辅助器和孩子之间所发生的一切的中性描述。相反，它假定了一个理论结果——沟通实际上已经发生了并且是在辅助器的帮助下提升了。但这就是需要被要证明的事情。我们所知的是孩子在敲键。或许如果最初被说成是“意想不到的敲击”，那么事情就会被更理性地处理。需要判断的是“意想不到的敲击”是不是真正的沟通。如果草率地用理论（这就代表了沟通）来给一个现象（按键敲击）加上标签，对实际操作者来说，意识到需要更进一步的调查研究去判定理论能否被证实可能就变得更加困难。
不仅仅是心理学，其他领域也与草率地用理论来对现象进行标签化的问题作斗争。法律系统还在用“婴儿颤栗综合征”这一术语，实际上美国儿科协会已经建议舍弃此用语。这一问题酷似我们论述过的聪明汉斯和辅助沟通的例子。“婴儿颤栗综合征”这一术语是一个理论，有头部创伤的孩子为什么会有这种外显症状。而这一现象是头部创伤自身的特征。创伤的精确描述是通过我们拥有的任何理论来解释创伤是怎样发生的。但今天我们已经知道曾经标准化的术语是误导，法律系统仍在慢慢经历这种术语变革（Tuerkheimer, 2010）。
交通安全工程师也感觉交通“事故”（accident）这个词带有太多的理论了。事故这个词意味着随机性、不可预测性和运气——纯粹的偶然事件。安全工程师非常清楚汽车交通事故的风险和许多非随机性和可预测的行为之间存在很强的统计学关系。工程师想到像圣路易红雀队投手乔希·汉考克（Josh Hancock）的例子，他租用的越野车与一个停在高速公路上的打着双闪的卡车相撞（Vanderbilt, 2008）。但我们想到汉考克超速（一个巨大的风险因素）、酒精摄入量超过法律限制的两倍（一个巨大的风险因素）、在撞车时正在打电话（一个巨大的风险因素），那么我们把这次撞车说成随机的和不可预测的就大错特错了。他刚刚两天前还和一辆越野车相撞（Vanderbilt, 2008）。把它称为“事故”传递了一种随机性和不可预测性的理论，但是当肆意不计后果的特定行为在这个案例中出现时，随机性和不可预测性似乎并不正确。
对事件的描述应当是——汽车相撞。作为一种理论，事故看起来并不正确。

学科拟人物理功×化学受

学渣坐在学霸的鸡叭上写车文轩

碧蓝航线的圣路易斯被上