噪声定义为对相同问题进行判断的过程中产生的不必要的变异。
噪声的一个普遍特性:可以在对目标或偏差一无所知的情况下,识别并测量噪声。只需对同一问题进行多次判断。
在充满噪声的系统中,错误不会相互抵消,只会累加。
包括专业判断在内的判断介于两者之间:一端是事实或计算问题,另一端是品位或意见问题。因此,不同主体的判断必然存在一定程度的分歧。
“选择性注意”(selective attention)和“选择性回忆”(selective recall)是人与人之间判断差异性的源头之一。
“非正式”的思考能够让你快速做出判断,但它也有可能产生差异性
个体内的信度(within-person reliability):单一判断者的噪声。
个体间的信度(between-person reliability):不同判断者之间的噪声
预测性判断无法验证,例如预测概率的事件并未发生,不能说明预测不对。Vs. “评估性判断”(evaluative judgment),例如定罪或结果评价,并没有一个真正的正确值。
两种评估判断品质的方法:一种是比较判断的结果,另一种是比较判断过程的品质。
测量总体误差使用“均方误差”(Mean Squared Error,MSE),即个体误差平方的平均值。关键特征:相比于小的误差,平方给大的误差赋予了更大的权重。
单次测量中的误差分解为两个部分:偏差(平均误差)和残留的“噪声误差”。
均方误差可以简单表示为偏差和噪声的平方和。
减少噪声和减少相同数量的偏差对均方误差的影响是相同的。
减少噪声可以使偏差更加清晰明了。
人们对小的误差高度敏感,但对两个大的误差之间的差异不敏感。
误差方程不适用于评估性判断,因为不存在真实值。此外即使可以确定评估性判断中的误差,其代价也不太可能与它们的平方成正比。
误差分解为偏差和系统噪声。系统噪声分解为水平噪声和模式噪声。模式噪声分解为稳定的模式噪声和情境噪声。
“水平误差”(level errors):与公正无关。反映了不同人在背景、生活阅历、政治倾向、偏见等特征上的差异。
“模式误差”(pattern errors):在有些案件上,他们比自己量刑的平均水平严格;但在其他案件上,他们则表现得要宽容。
模式噪声的统计术语是“法官×案件的交互作用”。模式噪声和水平噪声对系统噪声的贡献几乎相同。
情境噪声:转瞬即逝的因素所导致的变异,区别于个体间的稳定变异。情绪、疲劳、天气、顺序效应等。情境噪声通常影响最小。
群体智慧效应,它是指对人们的独立判断进行平均会提高判断的准确性。对多个独立判断或测量进行平均会产生一个新的判断,虽然这一判断不一定会比个体判断产生更少的偏差,但它会产生更少的噪声。
“自我重复抽样法”(dialectical bootstrapping)。两个即刻、连续进行的辩证性评估在判断准确度上的获益,是听取他人意见时的一半。
创造一个“内部群体”。要么隔一段时间再做出第二次判断,要么质疑自己的第一次判断,从另一个角度来看待问题。
拥有良好情绪的人更容易受到偏差的影响。
不好的天气与记忆力的增强有一定的相关性;当天气炎热时,司法审判会更严厉。
当一个人在思考一起案件的时候,此前一起案件的决策就成了一个潜在的参照点。做出一系列决策的专业人士,倾向于恢复某种形式的平衡:在连续朝着同一方向做出一系列决策之后,他们更有可能朝着相反的方向做出决策。
群体的结果很容易被操纵,因为流行程度会自我强化。
“信息级联”
“少数先行者的随机差异”会对整个群体产生颠覆性的影响。
独立做出判断是发挥群体智慧的前提条件,如果人们不是自己做出判断,而是依赖于其他人,那么群体并不会更明智。
社会影响降低了群体多样性,但并没有减少群体的误差。
信息不是导致群体成员互相影响的唯一原因,社会压力也是很重要的因素。
群体极化(group polarization):人们在互相交流时,往往会提出比原有倾向更极端的观点。
“诊断性判断”(clinical judgment)。在此过程中,你会考虑相关信息,或许再快速计算一下,然后利用直觉做出判断。
“多元回归”(multiple regression),它是对各种预测因素的平均值进行加权后获得预测分数的方法。多元回归是一个“机械性预测”(mechanical prediction)的例子。
机械性预测最关键的特征是:它的预测规则适用于所有情况。每个预测因素都有特定的权重,这个权重不会因个案的不同而发生变化。
诊断性判断反映了一种普遍性的直觉,即相同的差异在一种情况下可能无关紧要,在另一种情况下却可能非常重要。
你会不由自主地设想她们两人不同的成功途径。凭借这些看似合理的诊断性推测,你针对两人的情况,对不同的预测因素赋予了不同的权重,而简单模型不存在这样的问题。
“效度错觉”(illusion of validity):我们无法区分预测性任务的两个不同阶段:对当前证据的评估阶段和对实际结果的预测阶段。评估两名候选人所需要的大部分信息你都是知道的,但要想预测未来,就存在很大的不确定性。
当我们发明并应用一些复杂规则来做判断或对某些案例有了不同于其他案例的见解时,即当我们做出了无法用简单的加权求和模型去简化的判断时,我们会自我感觉更加良好。
很多细节都是无用的,复杂性和丰富性并不会使预测更准确。
复杂规则通常只会给你带来效度错觉,这实际上会降低你的判断品质。也就是说,少数复杂规则是有效的,但大多数是无效的。
用模型代替人类的判断意味着两件事:消除了人类的复杂规则,消除了噪声。判断模型比判断更有效这一强有力的发现说明:从人类判断的复杂规则中获得的好处(如果存在的话)不足以补偿噪声所带来的损失。你可能会认为自己比一般人更擅长思考、更有洞察力,但实际上只是你的噪声更多而已。
为什么我们以为复杂的规则更有效,实际上它们却损害了判断的准确性呢?一方面,人们发明的许多复杂规则并不正确;另一方面,即使复杂规则在原则上是有效的,它们也不可避免地仅适用于少数能被观察到的情况。
测量误差会不可避免地削弱预测的有效性,一些小概率事件尤其可能被忽略,复杂模型的优势很快就会被测量误差所掩盖。
机械地遵守简单规则(马丁・于和昆塞尔称其为“无意识的一致性”(mindless consistency))可以显著提高针对困难问题所做判断的品质,这一事实说明了噪声对诊断性预测的巨大影响。
均等权重的公式定义为“非最适线性模型(improper linear model)。其准确性与合适的回归模型差不多,且远胜于诊断性判断。
均等权重模型之所以表现出色,是因为它不容易受样本中偶然因素的影响。
社会科学研究中通常使用小样本,以致所谓的最佳权重的优势消失殆尽。
将两个或多个相关预测因素组合后,预测效果相比于单个预测因素并不会好多少。因为在现实生活中,预测因素几乎总是相关的,所以这一统计事实支持使用包含少量预测因素的简约模型进行预测。
所有这些任务中,简约模型的表现都与复杂回归模型一样好,只不过它通常不如机器学习模型的表现好。
其中一个原因就是,机器学习模型能够发现人类所无法想象的各种“断腿”情况。
机器学习算法在变量组合中发现了一些会被线性模型遗漏的重要信息。算法能对风险最高的被告进行归类,就证明它有能力找到很容易被其他模型忽略的模式。换句话说,数据中的某些模式尽管很少见,却非常准确地预测出了高风险人群。
个性化的模式和情境噪声的结合会极大地影响人类判断的品质,因为简单的规则和无噪声是提高决策品质的关键。当数据足够丰富时,我们可以用复杂的人工智能技术找出有效的模式,并使其预测力远超简单模型。
“做出判断的内部信号”(internal signal of judgment completion),本质特征在于:一致感是判断经验的一部分。内部信号是一种自我管理的奖励,是一个人努力做出判断并最终完成判断后的奖励。它是一种令人满意的情感体验,也是一种令人愉悦的一致感,它使我们感觉我们所考虑的证据和做出的判断是正确的。
内部信号很重要,但具有误导性,因为内部信号往往会被理解为一种信念而不是感觉。这种“感觉正确”的情感经验伪装成了我们对判断有效性所持的信心――我知道该判断是正确的,即使我不知道为什么。
人们经常错误地将自信水平这一主观指标当成预测有效性的指标。
平均而言,人类判断的预测相关系数为0.28(PC=59%)。
“客观无知”(objective ignorance)
不确定性(未知之事)和不完备信息(可知但不知之事)都将使完美预测变得不可能。这些未知信息并非源于判断中的偏差或噪声,而是源于任务本身的客观特征。这种由于重要信息缺失而产生的客观无知严重限制了人们判断的准确性。不确定性是关于世界和未来的,噪声是本应相同的判断中出现的变异。
只要算法还不够完美,人类的判断就不会被取代。而且在许多领域中,客观无知决定了算法不可能达到完美。
统计学术语通常会误导读者,“显著”则是最具误导性的说法之一。当一项发现被描述为“显著”时,我们不应该下结论说这一结果的效应很强,它仅仅说明这项发现不大可能只是随机的结果。当样本量足够大时,相关性可能非常“显著”,但仍微不足道。
理解就是描述因果关系,预测能力就是衡量这一因果关系是否成立的指标。相关系数用于衡量预测准确性,有多少因果关系是我们可以解释的。
一旦已经发生了,因果思维就会让我们觉得它完全可以解释,甚至可被预测。
正是因为事件已经发生了,你才能明白它发生的原因。
当你以这种方式解释那些“意料之外,但情理之中”的结果时,你最终会得到一个有意义的解释。这就是我们所谓的“理解”了故事,这也解释了为什么现实在事后看起来是可预测的,因为该事件在发生时便解释了它发生的原因,于是我们产生了一种错觉,认为它是可以预测的。
因果思维避免耗费不必要的心力,同时保留了发现异常事件时所需的警惕性。
与因果思维不同,统计思维通常是费力的,它需要的注意力资源只有系统2思维(缓慢而审慎的思维模式)发挥作用时才能满足。除了基础水平外,统计思维还需要经过专门的培训才能掌握。这种思维方式基于整体的信息,将个别案例视为更大类别中的一个实例。
依赖单一案例进行因果思维是预测误差的重要来源,采用统计思维,也称为外部视角(outside view),是避免这些误差的方法之一。当你采用外部视角时,你会把该学生或甘巴迪想象成一群相似案例中的一员。你会用统计思维来看待这个群体,而不是用因果思维去分析具体的案例。
偏好因果思维会使人们忽略噪声这一误差来源,因为噪声从根本上说是一个统计学概念。
心理偏差:用一个问题代替另一个问题会导致源于可预见性心理假设的误差。
许多人相同的偏差会导致统计偏差。但是,通常人们的偏差彼此不同,这时心理偏差就会导致系统噪声。
谬误:相似性判断代替概率判断,用相似性替代了可能性。
忽略基准概率偏差(base-rate neglect)
“可得性启发式”(availability heuristic):用例证在脑海中出现的难易程度来替代频率判断。
结论偏差或者预判:在判断过程初期就对某个特定结论有了一种倾向性。我们让自己头脑中的快速、依赖直觉的系统1思维给出结论,然后,要么绕过收集和整合信息的过程直接得出结论,要么转而动员系统2思维进行审慎性思考,找到支持我们预判结论的论据。这时证据就是有选择性且失真的:由于证实性偏差和期望偏差,倾向于有选择地收集和解释证据,以支持那个我们已经相信或希望成真的结论。
结论偏差的一个更精妙的例子是锚定效应(anchoring effect),它是指一个任意数字对人们的定量判断产生的影响。
过度一致性(excessive coherence)偏差:我们能迅速形成一致性印象,但要想改变一致性印象,过程却很缓慢。放大初始印象的效果并减少矛盾信息的影响。
证实偏差:有预判时,忽略跟预判相冲突的信息。即光环效应(halo effect)。
我们总是难以抗拒地做出与证据相匹配的预测,尽管这种预测从统计学上看很荒谬。
描述这种预测误差的一个术语叫作“非回归性”(nonregressive),因为它们没有考虑到“均值回归”(regression to the mean)这一统计现象。
人们在同一维度上对不同刺激赋予不同类别标签的能力有一个限度:大约是7个标签。这是快速的系统1思维的一种通用工具,也是许多直觉性判断的核心,但它是很粗糙的。
基本归因偏差:人们通常会将责任或功劳归因于行动者。事实上,将这些结果解释为运气或客观环境所致或许更合适。
噪声审查:多个人会对同一个问题做出判断。噪声是这些判断之间的变异。
好的判断取决于你的经验、思维能力,以及你的思考方式
尊重型专家”(respect-expert):专家的判断的价值无法被准确评估。
推行自动加入制度的意图是克服惰性、拖延和乐观偏差。
统计学上讲,减少噪声可以避免许多错误,但你可能永远也不会知道到底是避免了哪些错误。
司法科学证实性偏差:信息排序是最大的噪声。
指纹鉴定:假阳性率约为0.17%。
线性序列揭露”(linear sequential unmasking):通过对信息进行排序来限制过早地使用直觉。
平均值包含更多信息,它受测量次数的影响,而中位数只受顺序的影响。
平均值法能够保证减少噪声,减少的量就是(1-判断总数平方根的倒数)。如果你对100个判断取平均值,那么将减少90%的噪声,如果你对400个判断取平均值,则可以减少95%的噪声。
平均值法不能减少偏差,对总体误差的影响取决于偏差和噪声的比例。
汇总预测的一种方法是利用“预测市场”(prediction markets),个体就各种可能的结果下注。
德尔菲法(Delphi Method)。是包括多轮信息反馈的过程:参与者向组织者提交评估(或投票),并匿名。新一轮中,参与者给出自己评估的理由,并对其他人给出的理由做出回应,仍然匿名。这一过程鼓励估计值趋同(有时要求新的判断值落在前一轮判断分布的特定范围内,从而迫使估计值趋同)
超级预测者:
布赖尔分数会对准确的校准(平均水平上是正确的)和准确的辨析度(表明立场区分不同的预测)打出高分。真正的优势不是数学天赋,而是能够轻松自如地应用分析思维和概率思维。
会问并试图回答一系列辅助问题,而不是给出一种直觉或整体的预感。
擅长从外部视角看问题,非常关心基准概率。
两种决策卫生策略的价值:甄选(超级预测者都超级棒)和汇总(预测者组成团队进行合作时表现更好)
医疗水平的进步往往是通过消除判断也就是将判断转变为计算来实现的。
指南成功地减少了噪声,因为它在预先定义好的维度上将一个复杂的决策分解成了许多简单的子判断。
结构化是一种限制光环效应的手段,它通常可以将一个人在不同维度上的评估限制在一个小范围内。
排序同时减少了模式噪声和水平噪声。强制排名的主要目的在于减少噪声。
面试官往往无意识地青睐那些与他们有相似的文化背景或共同之处的候选人,涉及的因素包括性别、种族和教育背景。
在传统面试中,面试官可以自由地将面试引向他们认为合适的方向。他们很可能会问一些能证实第一印象的问题。
信息汇总为整体判断:使用判断(诊断性汇总)还是公式(机械性汇总)来汇总信息?后者更好。
3个原则来定义结构化的复杂判断:分解、独立性和推迟整体性判断(delayed holistic judgment)。
结构化面试挑选出更优候选人的概率为65%~69%,明显高于非结构化面试56%~61%的概率。而现实中往往 “错觉的持续”
一些规则看起来很愚蠢,甚至无情,但它们的存在基于一个充分的理由:可以减少噪声,或许也能减少偏差。
人们常常认为,“追求正义”就是要禁止采用任何死板、机械性的解决方案,因而只能允许使用甚至不得不强制使用存在一定噪声的解决问题的过程和方法。
许多人坚持进行个别化听证,摆脱他们所谓的规则暴政,从而获得一种被区别对待和被尊重的感觉。如果申诉的机会会造成更多不公正、更高代价,那就不值得了。
减少噪声的成本:由于消除了噪声,它们可能比人类的判断包含更稳定的偏差。
规则具有明确的边界,因此人们可能会绕过规则去实行一些严格意义上说不违反规则但会造成相同或类似危害的行为。
关键在于:我们需要明确有多大的可乘之机,以及有多少噪声。
少量的不确定性(以噪声的形式表现出来)会增加威慑力。想要知道一个存在噪声的系统能否产生威慑力,我们首先需要知道,潜在的违法者是风险规避者还是风险爱好者。
有噪声的系统可能对保持士气有好处,但这并不是因为它包含噪声,而是因为它允许人们根据自己的意愿做出决定。
公司负责人应该明白,如果公司有严格的制度和规则,就应存在质疑和重新思考这些规则的程序,而不是通过自由裁量权来破坏这些规则。
规则旨在消除实施者的自由裁量权,而标准则会授予实施者一定的自由裁量权。凡是规则,都要严格减少噪声。那些标准的制定者实际上将决策权转交给了他人,他们让渡了权力。
这个选择仅取决于两个因素:决策成本和误差成本。
算法是规则,而不是标准。
posted by Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36
分类(READING) 浏览(2318)