@袁园
大家晚上好,我是今天的主持人袁园,欢迎大家来到人民大学明德讲坛第二十五期,同时本期也是服务器艺术人工智能哲学论坛第十三期。今天我们探讨的主题是因果性与因果模型,我们有幸邀请到哲学、艺术、统计以及高能物理领域的专家学者展开今天的讨论。接下来让我们有请中国人民大学统计学院生物统计与流行病学讲师、北京大学数学科学博士 李伟老师,中国科学院高能物理研究所粒子天体物理中心主任、中国科学院大学教授 张双南老师,中国人民大学哲学院特聘教授 朱锐老师。
各位老师晚上好,非常荣幸能跟各位老师从不同的角度来探讨今天的主题——因果性与因果模型。因果是独立于人的客观事实,还是受限于人所感兴趣的、观察中的客观事实?爱因斯坦认为信息传播不能超过光速,否则违反因果律,那么为什么要坚持因果律?科学因果模型目前主要有两种,分别是珀尔(Judea Pearl)的结构因果模型和鲁宾(Donald Rubin)的潜在因果模型,他们彼此的优劣何在?
因果律是物理主义的基石,如何从因果概念上来分析和评价物理主义的命题?我们先请张双南老师展开分享。张老师有请。
物理进程中的因果
@张双南
好,谢谢袁老师。首先感谢主办方邀请我参加今天晚上这个论坛。
结合前面袁老师所讲,因果性确实是物理主义的基石。我们做科学研究,其背后都有因果性的支撑,否则我们研究发现的规律会很难理解。那么,是不是所有科学研究的现象、所有的科学发现都服从确定性和因果性?我今天就从自己做天文学研究的角度来谈一下这件事情,我今天要和大家讨论的主题是“科学方法:确定性和可证伪性(这是我们在科学研究中比较强调的)——不确定性和因果性的关系。
首先我们看一下2020年的诺贝尔物理学奖。在我们领域里面通常会说,这一年的诺贝尔物理学奖授给了黑洞的研究,但是我们看一看它的颁奖词。颁奖词讲了两句话。第一句话,罗杰·彭罗斯(Roger Penrose)(图上最左边的科学家),因为他发现黑洞形成是广义相对论的一个可靠预言,获得了2020年诺贝尔物理学奖的一半。第二句话,莱茵哈特·根策尔(Reinhard Genzel)和安德烈娅·盖兹(Andrea Ghez)发现了银河系中心的超大质量致密物体,所以诺贝尔奖的另一半颁给了这两个人。
展开全文
换句话说,我们平常会讲2020年的诺奖授予了黑洞的研究,但是颁奖词是说可靠地预言黑洞形成和发现超大质量致密物体,这个地方并没有说发现黑洞,这就变成了一个非常有趣的问题。
他们发现的银河系中心的那个家伙到底是不是黑洞?我们看一看天文观测的结果。我不详细讲具体的情况。这个图上正中心这个地方指的是黑洞,这个圈指的是黑洞的视界。那他们利用什么样的观测来发现银河系中心的这个家伙呢?他们精确地测量了恒星的轨道,根据轨道的性质可以推算出中心天体的质量。那么根据质量推算出来是400万倍的太阳质量,那我们就可以知道黑洞的视界的大小。
而离这个恒星最近的位置距离黑洞中心实际上还有1400倍的史瓦西半径(这个图不太符合比例)。换句话说,恒星其实离这个黑洞的视界还有一段距离。所以仅仅从这个观测结果来看,并不一定能说明那个家伙就是黑洞。但我们还有其他的观测,比如说,射电望远镜对银河系中心天体的测量发现,它的最小尺度是黑洞视界史瓦西半径的两倍。
根据我们所了解的天文和物理的理论(主要是广义相对论的理论),要想解释银河系中心这个东西,黑洞是我们已知的最可靠的解释。换句话说,我们从各个角度来看,这个天体都符合它是黑洞的预言。然而,为何诺奖委员会只说他们发现了一个致密物体,而没有说发现了黑洞,而且即便如此也还是颁给他们诺贝尔物理学奖?这就涉及到科学方法很重要的一个方面。
我借这个机会非常简要地回顾一下科学方法的三次飞跃。我自己总结了目前的科学方法经历过三次飞跃,我把它们分别叫做:希腊科学:从形而上学到实在精确的科学;科学革命:从观察思辨的科学到实验科学;现代科学:从证实的科学到证伪的科学。
我简单介绍一下希腊科学,我把它叫做“从形而上学到实在精确的科学”。
我们今天认为,科学研究是从亚里士多德起逐渐形成体系,古希腊科学在亚里士多德时期达到一个高峰,产生了形而上学的理念。这个理念最重要的一部分就是开始追问自然规律,通过观察自然来理解自然现象背后的本质。换句话说,亚里士多德非常坚持目的论,也就是坚持因果性。但即使是从原则上来讲,已经认识到了因果性,也就是规律的重要性。但在亚里士多德那个时候,主要还是在哲学层面来观察和思考自然,亚里士多德本人并不注重对发现的规律的验证和应用。
到了希腊化时期,科学开始分科,研究具体的和不同类别的“实在”现象,不再像古希腊科学那样只是研究形而上学,所以这个时候产生了很多技术应用。
在希腊化时代,对宇宙运行规律(当时主要是指太阳系内行星运行的规律)的研究步入了精确科学时代,不但重视对科学规律的验证,而且开始基于发现的规律进行预言。既然能够做出预言,就说明在这个时候因果性在他们的思想里是占据统治地位的,他们认为自然界是有因果性的。
到了科学革命的时期,我把它总结为“从观察思辨的科学到实验科学”。曾获诺贝尔物理学奖的粒子物理学家、理论物理学家温伯格说,“柏拉图认为自然科学应依靠纯粹的推理得到,这一不切实际的古老目标成为科学进步之路上的阻碍,因为自然科学的进步只能基于认真观察后的仔细分析。”(这是柏拉图时代的思想,我们今天讲某个人非常柏拉图,就是指他尊崇纯粹的推理。)到了亚里士多德时期,这一点就有了重要的进步。
亚里士多德的物理学通过观察自然来得到科学的规律,但是亚里士多德反对做实验,认为实验改变了自然,得到的不是关于自然的规律,这个理念主导或者说是阻碍了科学发展2000年。
这个情况到了伽利略的时代,也就是我们称之为科学革命的时代,这才开始有了根本性的变化。伽利略建立了实验科学的方法,实验科学才开始得到系统的发展和应用。所以我把科学革命这个时期的科学方法总结为,从观察思辨的科学到实验科学。
那么我们简单回顾一下,从亚里士多德开始,一直到科学革命时期,现代科学是如何建立起来的。我以天文学为例非常简单的做一下回顾。前面讲了,亚里士多德主张观察,根据观察,他建立了地心说,但是他并不注重对地心说的检验。到了希腊化时代,托勒密等天文学家发现,亚里士多德的地心说和观测结果不符,于是他们建立了本轮说,给太阳系内每个天体加上了一个轮子。这样,每个天体在绕着地球运动的同时,也绕着它们的轮子在做运动。
哥白尼基于简洁为美的审美认识,觉得托勒密的学说过于复杂,所以他建立了日心说,把宇宙的中心(那个时候当然认为宇宙就是太阳系)放到了太阳上,这样太阳系内的所有天体都绕着太阳运动。但是他仍然在做柏拉图那个时候给出的作业,就是天体只能做匀速圆周运动,这是亚里士多德、托勒密到哥白尼都采用的。天体只能做匀速圆周运动,因为这种运动被柏拉图认为是最美的运动。所以在哥白尼的日心说里面,所有的天体都绕着太阳做匀速圆周运动,但是日心说和天文观察的结果并不非常相符。这个时候,开普勒发现太阳系内的天体真正的运行要遵循椭圆运动的轨道,根据观察和数据的拟合,他总结出开普勒三定律。但是开普勒并不能理解开普勒三定律背后的原理到底是什么。虽然这个时候开普勒三定律能够描述天体的运动,但是因果关系并不清楚。
之后, 1609年伽利略发明了天文望远镜,对天体进行了详细的观测,证实了日心说,并精确地验证了开普勒三定律,从根本上推翻了地心说。但是伽利略在这个时候也不理解天体运动背后的道理到底是什么,换句话说,这个“因”始终没有找到。最后,这个“因”到了牛顿的时代终于被找到。牛顿作为一个集大成者,把前人的学说结合起来,再加上他自己的一些创新,提出了牛顿力学三定律和万有引力定律,(当然牛顿对科学还有很多其他的贡献),建立了现代科学。
我们可以看到从亚里士多德一直到牛顿,所有的这些学者在建立学说的过程中,都坚定地相信确定性和因果性,始终在寻找这个“因”,因此建立了现代科学。
现代科学的方法到今天又有了非常重大的变化,我把它总结为“从证实的科学到证伪的科学”。这个科学方法的奠基人是卡尔·波普,是我们科学界非常推崇的科学哲学家。他主张放弃传统的归纳法,主张使用经验证伪的科学方法原则。简单来讲,他认为科学理论永远不能被证明是正确的,这是科学研究的不确定性,但是这并不意味着科学规律的不确定。我们今天常常说科学也是不确定的。但到底哪不确定,其实是我们研究过程的不确定性,我们研究的手段的不确定性,这并不是科学规律本身的不确定性。
卡尔·波普认为,尽管科学理论永远不能被证明是正确的,但是科学理论能够被证伪。只要我们没有找到终极的科学理论,那么这个科学理论就应该在某些方面能够被证实是不正确的,就是说能够被证伪。这是科学本身的因果性。因为如果它是一个科学理论,它做出一些预言,那么就明显存在因果性。如果这个预言和观测对不上,换句话说,从因推出的果和我们的观测或者实验结果对不上,我们就认为科学理论在这个地方是有问题的,是需要改进的。所以,我们科学界对卡尔·波普的可证伪性原则推崇到了一个程度,以至于我们认为不具备可证伪性的学说,就不是科学。它当然可以是很好的学术研究、可以是很好的学问,但不是科学。我们非常相信证伪,换句话说,我们非常相信因果性,我们非常相信科学规律本身的确定性。
这就回到了我开始的时候讲的,诺奖委员会为什么不说银河系中心的那个家伙是黑洞,但是给了这组研究者诺贝尔物理学奖。因为证实也是很有意义的,证实可以增加对原有理论的信心,尽管不能证明该理论是正确的。换句话说,我们对银河系中心那个家伙的所有的观测结果都和广义相对论理论所预言的黑洞是一致的。这些观测结果增加了我们信心。这些观测结果如此清晰,如此有说服力,让我们觉得广义相对论理论看来是非常好的理论,但是不能证明这个理论是正确的。
诺奖委员会显然是坚定的波普主义者,即使我们的理论和黑洞理论是一致的,诺奖委员会认为我们仍然没有证明黑洞理论是正确的,因为根据波普的理解,不能证明这个理论是正确的。那么证伪的意义在哪里呢?如果我们将来有证据表明银河系中心的家伙不是黑洞,那它的意义将更大。这样我们就能够改进广义相对论理论,那么说不定在改进理论的过程中又会出现若干诺贝尔物理学奖。所以,诺奖委员会作为坚定的波普主义者,即使是给了那两个天文学家诺贝尔物理学奖,仍然没有在颁奖词里面说那个家伙是黑洞。
我们看一看爱因斯坦对确定性,还有因果性是怎么看的。爱因斯坦认为,量子力学的不确定性有问题。前不久是世界量子日(4月14日),我给高山书院录了一段短视频,我们在这里简单说一下量子的不确定性是什么意思。我们知道氢原子里面有一个质子和一个电子,那么它的电子到底在哪里?这是一个问题。量子力学理论的计算结果告诉我们,我们只能给出可能性,我们只能说电子可能在什么地方,我们永远不能够事先知道这个电子到底在哪里。那么计算结果是这样,实测的结果是什么样的?实测的结果和计算结果是一样的,这是实际测量到的不同时刻的电子在氢原子里面的位置,我们把它叫做电子云。换句话说,它有可能在外面,有可能在里面,有可能在不同的地方,但是我们没有办法知道任意时刻电子到底在哪里。
爱因斯坦对于量子力学的这个性质深表不满。爱因斯坦说这不科学,上帝不会扔骰子。但玻尔反驳爱因斯坦,玻尔说,“你怎么知道上帝不会这么干?爱因斯坦请不要教上帝怎么做”,因为实际上我们的计算结果和测量结果是一致的,即使是我们不知道任意一个时刻氢原子里面电子在哪,但是我们知道它出现的几率,这足够我们使用了,而且和我们的实验结果是一致的。
在这里我调侃了一下爱因斯坦,我说,“爱老师看来这个局面不是太有利”。尽管爱因斯坦认为世界应该是确定的,应该是可预测的,但是在量子的水平上看来,我们就是没有办法做精确的预测。
爱因斯坦表示不服,爱因斯坦说,“那就让你们量子纠缠”。量子纠缠是爱因斯坦为了反驳量子力学而提出来的概念,他也给出了量子纠缠的公式。根据量子力学的方程,爱因斯坦推断出,遥远距离的两个粒子处于同一个量子态的话,它们就有量子纠缠,而且他们之间的互动是瞬时的。不管两个粒子相距多远,只要一个粒子动,另外一个粒子在远方立刻就动,他们之间不需要任何时间来传递信号。这违反光通过光速来传递信号最高的速度限制,爱因斯坦把量子纠缠称作“遥远距离的诡异互动”,难道这还不违反因果性吗?
我们再看一段视频,是我和张薇老师我们演示“量子纠缠”。大家看到刚才视频上的最后一部分,我和张薇老师在相距非常远的地方同时做了某一个动作,事先我们没有沟通,这就是量子纠缠。量子纠缠是爱因斯坦用来反驳量子力学时提出的理论,那么量子纠缠现象到底存不存在?
我们国家的墨子号量子科学实验卫星已经证实了量子纠缠的存在,当然在这之前就已经有相关的实验,只不过墨子号的实验更加确定无疑地证明了这一点。地面站通过“墨子号”卫星发出处于纠缠状态的两个光子,它们中的一个粒子在一个地方发生改变,在另外一个地方的另一个粒子立刻就改变,尽管这两个地方相距超过1200公里。前不久还有一个“墨子号”的新闻,研究团队从一个地方到另外一个地方传输了一个量子态,结果显示这也是瞬时传输的。既然我们已经观测到了量子纠缠现象,它是不是违反因果性?爱因斯坦认为它是违反因果性的。
最后我们再看一下去年(2021年)的诺贝尔物理学奖,也和因果性非常有关系。这一次获得诺奖的有三位科学家,最左边这两个科学家获奖是因为“研究地球气候的物理建模量化可变性并可靠的预测全球变暖”,而最右边的科学家获奖是因为“发现了从原子到行星尺度的物理系统中无序和涨落的相互关联”,这一部分就是我们通常所讲的混沌效应。混沌效应的最简单的例子就是我们通常所说的蝴蝶效应——一只美丽的蝴蝶挥舞翅膀,会引起远方的大规模风暴,这是不是违反因果性?我的分享就到这里,谢谢。
@袁园
好,谢谢张老师。借着张老师刚才谈的这一点,我们引出了一个重要的问题,就是“上帝到底掷不掷骰子”。我想这个问题跟李伟老师接下来要分享的内容有关,因为他是数学系统计学领域的博士。上帝掷不掷骰子的问题决定了对因果的两种完全不同的理解。如果说上帝掷骰子,那就是统计学上面的因果。如果说上帝不掷骰子,那就是决定论上的因果,这是两种完全不同的对因果的解释。
所以刚才张老师抛出来这个问题,我想交由李老师来回答,有请李老师。
因果推断的三个层级
@李伟
我感觉这个问题很“玄学”。上帝掷不掷骰子这个问题很难回答,但是我可以先分享一下我要讲的内容。
因为我从本科一直到博士一直是数学背景,所以我今天就从统计学的视角跟大家分享。我是北京大学数学系的博士,2020年加入中国人民大学统计学院,目前是生物统计系的讲师。我主要从事的方向是统计学中的因果推断。很感谢主办方的邀请,让我能跟大家分享我在因果推断这个方向的一些理解和认识。主要包括两部分,一部分是因果效应的评估问题,另外一部分是怎么进行反事实的推断。
首先我们先认识一下因果推断的三个层级,或者说因果推断的三个阶梯。这个概念是图灵奖获得者珀尔跟他的同事麦肯齐(Dana Mackenzie)在2019年写的一本书中提到的。
这个图片是一个梯子,包括第一层级、第二层级、一直到第三层级。
最低的第一层级是相关(association),它主要的目的是做预测,就是基于你看到(seeing)的事实和现象去预测将来的事情。比如说在新冠时期,可能我们观察到一个现象:打疫苗越多的地方或时期,疫情越严重。这里我们观察的就是两个变量,一个是接种疫苗的频繁程度,一个是疫情的严重性。这是我们观测的两个变量,这两个变量之间有显著的正相关。这个层级就是最低层级。我们现实中关注的变量之间的关系,很多情况下体现的都是这种相关性。
梯子再往上走的话会到第二层级干预(intervention),我要实施一些行为,做一些干预措施,或者做个决策。这就是doing的部分。比如说,如果打了疫苗,疫情会减轻吗?也就是说,实施干预之后如果产生了影响,就说明打疫苗对疫情是有因果关系的。改变一个行为,会对另外一个行为产生影响,这就体现出因果性了。也就是说,第二层级是有因果性的。
第三层级是在想象(imagining)层面,涉及到反事实(Counterfactuals)的问题。比如说,张三他在没打疫苗的情况下得了新冠,现在我们想象一下,假如当初他打了疫苗,现在是不是就不患新冠了?所以这是一个反事实的、想象的层面。
这就是Pearl所提的因果推断的三个层级,从低到高,逐次递进,从相关性到干预,再到并非现实中所发生的、想象的反事实。
我们先看看第一层级,就是预测这个层级。比如100多年前,高尔顿(F Galton)研究了父母身高和子女身高之间的关系,提出了“(向均值)回归”的概念。他提的这个概念用到了我们数理统计中的线性回归模型,用于刻画两个变量之间的关系。我们知道父母身高和子女身高有很明显的正相关。一般父母身高高,子女的身高也高,但是这不一定是物理机制。也就是说不是父母身高高,子女身高就一定会高。它们之间存在很强的相关性,但是不知道是否存在因果性。至少在高尔顿那个年代是用相关性去刻画这种关系的。后来皮尔森(K Pearson)又提出了相关系数。我们后面很多研究的统计方法或者理论,大多都是基于相关关系的,这是第一层级。
我们再来看看第二层级,就是因果干预这个层级。在2000年和2008年获诺贝尔经济学奖的赫克曼(Heckman)提出了三个政策评价问题:
第一个问题:评价历史上出现的干预对结果的影响。比如,北京市实行了住房限购,对房价的影响有多大?历史上可能出现过类似的干预。我们现在要再实行这项政策的话,对房价的影响到底有多大?
第二个问题:预测在一个环境中曾执行过的干预将在其他环境中的影响。比如说在大城市,我们实行了住房限购这个政策,发现这一政策大大降低了房价。如果在中小城市实施的话,对房价的影响又是多大?这评价的是在一个环境中曾执行过的干预,将在其他环境中的影响。
第三个问题(也是最具有挑战性的问题):预测历史上从来没有经历过的干预,它们在各个环境中的影响。比如说征收土地使用税,提供公租房,将来会有什么效果和后果。历史上可能没有过这样的干预,那你怎么去评价这样的干预或者说评价这样一个因果问题。这其实是很有挑战性的。
这是我们讲的第二层级,也就是因果干预的层级。
我们刚刚认识到了,第一层级关注的是相关关系,第二层级关注的是因果关系。第一层级与第二层级它们之间是有区别的,换句话说因果与相关是两个不同的重要的概念。
第一点,没有因果关系,根据观测数据我们可能会看出其存在相关性。有一个赫克曼提出的例子,小学生的阅读能力与鞋的尺寸有强的相关性。一般情况下,小学生比较小的时候阅读能力可能比较弱,鞋的尺寸也比较小。随着他们逐渐长大,鞋的尺寸变大了,阅读理解能力也提升了,所以这两个变量之间有强的相关性的,但是它显然没有因果关系。想看有没有因果关系,我得对它施加干预,看看另外一个变量会不会发生变化。比如人为改变鞋的尺寸,显然不会提高学生的阅读能力。从这个角度就可以判断有没有因果关系。因此,我们想要判断因果关系,至少得能施加干预。刚刚主持人提了一个问题:上帝到底会不会掷骰子?我觉得这很玄学。因为我们没办法去做实验,所以我很难回答这样一个问题。
第二点,有因果关系也可能表现出没有相关关系。比如打太极拳能健身长寿,我们知道这显然有因果性的。打太极拳强身健体,总归会对你的寿命有一些帮助。但是我们观测两类人群的寿命,打太极拳人和不打太极拳人的寿命。我们会发现这两组人的寿命几乎没有差异,也就是说寿命似乎跟打太极拳没有相关关系。为什么这里有因果关系反而没有相关关系?是因为打太极拳的人,可能本身体弱多病的就比较多,这些人打拳后才能与健康人一样长寿。所以即便因果关系存在,你观测出来的数据可能并没有表现出相关关系。
这是第一层级相关关系与第二层级因果关系之间的一些不同。
在这一阶段我先跟大家简单介绍这三个层级,以及第一层级与第二层级之间的区别。后面我再跟大家分享第二层级因果干预这一块,也就是具体怎样从定量角度评价一个变量对另外一个变量的因果作用,而这就回到了我们论坛所要讨论的主题之一,两个因果模型的框架,一个是珀尔的图模型的框架,另外一个是鲁宾的潜在因果模型的框架。我会分别介绍这两个模型,以及怎么在他们各自的模型框架内评估因果作用。最后我再讲第三层级反事实推断。我先分享到这儿。
@袁园
谢谢李老师。“上帝掷不掷骰子”的问题仍然是悬而未决。根据传统物理学,爱因斯坦的立场是上帝不掷骰子,不掷骰子意味着这里的因果是决定论上的因果。而量子力学表明上帝掷骰子,那么这里的因果就是统计学上的因果,我想把这个问题接着抛给朱锐老师。
不可观察的因果
@朱锐
首先非常感谢两位老师的精彩分享,说实话我是没有办法回答、也没有资格回答上帝是不是掷骰子的问题。但是今天我可以从哲学角度来思考一下因果的概念,后面我会给出我对这个问题的回答,尽管我觉得我的回答不一定具参考价值。
我今天大概会讲4-5个问题(其中第5个问题是脑机接口的案例,可能不会提到)。
第一个问题:在什么意义上,因果是不可观察的?第二个问题:因果律是否存在(实际上就是刚才张老师所提出的问题)?第三个问题:因果的客观性问题。第四个问题:什么是物理主义。
我先讲第一个问题——在什么意义上,因果即使是事实,也是不可观察的事实?这实际上是休谟的经典提法。他在1739年《人性论》这部著作中提出了关于因果的三个主要命题。
第一点,他认为因果推理是知识的核心,因果推理是所有推理的核心。这就是刚才张老师所说的,因果是科学的基本规律。从这一点来看,休谟完全同意牛顿以来的科学的基本观点。第二点,休谟强调因果观念是人类理解世界及指导自己行为的基本法则。休谟把因果观念看作是宇宙的水泥(cement of the universe),也就是说至少对我们来说,宇宙是靠因果规律串起来的。第三点,也是我想进一步阐释的一点——对因果真实性的怀疑,这点基本上是站在玻尔的一边,而不是爱因斯坦这边。
在休谟看来,因果基本上是人类根据观察经验,再通过想象把事物联系起来的一种习惯性的假设。他认为,经验所提供的证据只涉及对象之间的恒常连接(constant conjunction),包括对象之间的类似性以及接近关系,这种接近关系指时空接近(continuity)。
休谟强调了因果的二重性特质。我们不能说因果是纯粹的观念,因果不是我们凭空捏造出来的。实际上我们是靠经验来认识因果的。但他又强调,因果也不是一个纯粹的事实。休谟的一个主要的论点就是,我们无法观察到真正的因果事实,我们能够观察到的只有事件与事件之间的恒常连接。他借用的是典型牛顿力学的例子,一个球撞另外一个球,然后运动被迁移到第二个球上。我们意识到第一个球的运动导致第二个球运动,但这是不是真正的因果关系,是不是第一个球引发了某种力进而引发了第二个球运动,这些我们都没法观察。所以休谟强调,因果基本上是一种mental construction,它不是纯粹的客观事实,而是观察中的客观事实。
他强调因果推理具有三个层次,在某种意义上可以看成是前面讲到的Pearl所提出的层级性的更原始的版本。
第一个层级是说,我们观察到的具有A性质的事件a与具有B性质的事件b处于先后与连续的关系R之中。
第二个层级是说,我们通过不断的观察形成一种习惯,我们推断所有与a类似的与所有与b类似的都处于同样的关系R之中。也就是说,只要是跟a相似的事件,就是具有A性质的事件,与所有的具有B性质的类似于b的事件,也都应该处于这种有先后与连续的关系中。
第三个层级是休谟所说的,我们所得到因果律的归纳类比结论。他说,A与B的“连接”(想象中的连接,united in imagination),就是所有具有A性质的东西都会导致具有B性质的。注意一下,在这里a和b都已经撤离,剩下的只是一种一般性的关系。所以这就是因果律了,它具有一般性,而不仅是局限于个别的a事件或b事件。在休谟看来,从推理上来说,从1到2到3的思维过程并不能被严格证明,也不是一种演绎的关系,它最多是一种归纳的信念。所以,在休谟看来,正由于因果律是人类知识的基石,而这个基石本身带有一种猜测,它是一种mental construction,所以人类的知识可能会陷入怀疑主义的阴影中。
而正是因为这一点,后面的20世纪的哲学家和数学家不再那么依赖因果律。罗素就认为,科学不需要用因果,科学仅仅是一种相关性(correlation),他只追求数学上描述性的相关性关系,他认为这可以用函数去代替因果。汉斯·赖欣巴哈(Hans Reichenbach)认为因果律实际上只是概率规律的一个特例,而概率统计的一个基本的信条就是去因果化、关联非因果(correlation is not causation)。在我看来,这种相对古典的休谟主义对因果律的怀疑,基本上是得到当代因果模型理论家证实的。比如说,唐纳德·鲁宾在2015年和吉多·因本斯(Guido Imbens)合著的书中,也强调因果分析只能来自于比较观察和未观察数据,而不能只来自于观察数据。
在批评罗德悖论(the Lord paradox)时,鲁宾就强调,在进行因果分析的时候,我们不能只看处理标识(treatment indicator)和观察变量,而必须在观察变量和观察不到的潜在变量之间做比较。
在鲁宾看来,这种观察和未观察变量之间的比较,也就是基于现有数据和目前没有数据的比较,可以呈现两种形式。一是可以比较同一单元在不同时间段的值,或者比较同一时间段不同单元之间的值。然而这种比较,它假设不同时间段的同一单元是相同的,对人而言就是假设人格同一性,你在不同的时间比较的是同一个人,实际上这是很有问题的,或者至少只是一种假设。第二个,同样的道理,为了支持因果推理,你必须假设这种不同单元之间存在足够的相似性。这正是休谟所提出的因果必然性遭遇的问题,相似性并不能支持知识所需要、或者科学所需要的必然性。用统计学的说法就是,相似性无法排除混淆变量或者其他隐含变量的存在。
珀尔在2016年 Cause Inference in Statistics 这本书中谈到反事实推理的时候,也强调了因果推理与未观察数据的联系。但是与鲁宾不同,他认为 未观察数据只能靠反事实推理来获得。他用开车回家走小路要花一个小时作为例子。他说如果我没有走这个小路,而是走了高速,是不是会节省时间?但是在做因果推理的时候,我们只能比较同一个时间、同一个珀尔、同时在两条不同路线上开车,才能够真正回答走高速是不是能节省时间的问题。这实际上是不可能的事。如果换成其他人,他们的开车习惯可能会不同;而让珀尔在不同时间段去开车,这样也不行,所以所得到的数据严格来说都不能被用来回答是否能够节省时间的因果问题。
珀尔认为,他能够用反事实推理的方法来回答前面所说的看起来不能回答的问题,这种办法运用了我们已有的因果知识结构。
他给了一个例子,比如说某一个特定的个体是u,倘若他受教育的程度是x(可以把它看成是一个常数),那么他的工资应该是多少?珀尔认为他之所以能够回答这个问题,是因为我们已经在某种意义上知道,受教育的程度和工资之间存在某种因果联系,然后我们就靠这种已知的因果联系去推断,一个特定的个体如果受到更高的教育,他的工资是不是比他现在得的会更高一些。
实际上在我看来,这个问题回避了前面所说的因果推理不确定性的问题,因为珀尔并没有说明这个先验的因果知识是怎么来的,当然他作为一个计算机科学家,不需要解决这个问题,但是这个问题依然存在,也就是说我们怎么样去判断一个反事实推理的推断。在我看来,哲学上的各种可能世界的理论,总的来说都无法超越休谟所提出的相似性假设。
我总结一下我前面所说的主要观点。因果事实是不是事实我们不知道,我们应该相信它是有事实根据的,因为它不是一个凭空想象的东西。但是如果它是事实,它从根本上是没法观察到的。而这种无法观察的因果事实,它不是一般意义上的无法观察,比如受仪器或其他物理观察限制或是观察会改变事实,而是像鲁宾和珀尔自己强调的,是一种逻辑上的不可被观察。这是否构成一个根本性的因果性难题,还有待继续研究。总之,这是因果性的第一个问题,我就先讲到这。
@袁园
好,谢谢朱锐老师把休谟的因果问题抛出来。但我觉得我们还需要进一步讨论这个问题。刚才朱锐老师也谈到,休谟的因果问题包含两个核心。一是时间上的序列,一个对象先于另外一个对象;二是我们从一个先于另外一个的现象,得到因果关系,这介于观念和事实之间。客观上,确实是一个先于另外一个,但是我们把这样一种恒常的一个先于另外一个的关系,认为是因果关系,这也包含了心理上的投射。这就把休谟的因果问题的难题抛了出来。我接着把问题抛回给张老师。
@张双南
首先我觉得刚才两位老师讲的非常精彩。相关性不等于因果性,我觉得大家都普遍认可,因为相关可能是由别的因素来决定的。相关是一个事实,但并不表明因果,中间可能有另外一个变量决定了它们之间的相关。比如说,a和b之间相关,但并不是a决定了b,可能是中间有个c既控制了a也控制了b。我们没有找到c,而这个c是关键的。
前面讲的上帝是不是扔骰子这个问题,从根本上来讲并没有解决。在物理界也有另外一派的观点(这里就涉及到刚才两个老师讲的隐变量的问题),这一派学者认为,有另外一个我们不知道的变量或者函数,决定了氢原子里电子到底在哪里。我们没有找到一个控制的因素,所以我们没有办法预测它的电子在哪里。这个观点之所以现在不占统治的地位,是因为随机概率描述和我们所有观察到的结果是一致的,而且基于波函数的理论得到的量子纠缠现象也确实被观察到了。而这些都不支持隐变量。但隐变量这个学说时至今日也没有消失,还有人在努力要把它找出来。
我觉得,从物理的角度来讲,还是有人想坚持牛顿那个时候最原始的绝对决定论观点。他们认为我们之所以决定不了,是因为我们了解的还不够。但是,不用绝对的决定论,就用概率的角度来描述我们的量子世界,原则上也是一种可预测性,因为我们即使不能预言氢原子里电子在什么时候处于何种位置,我们也可以预言它的分布,这个分布是可以精确测量的,且测量结果和理论预测一致。
我们知道,量子科技在我们现在的科技中占主导地位,基于这个理论建立的技术都非常可靠。换句话说,它的可预测性没有问题,只是我们不能够精确预测电子什么时候在哪的问题,这是量子世界的不确定性。但这个不确定不意味着我们不能预测量子世界最终的统计行为。所以它并不违反刚才袁老师讲的统计意义上的因果性。我们觉得从某种意义上讲,它并不阻碍我们对物理规律的研究。因为规律本身就表明它的因果性,否则就没有规律这么一个概念了。
在统计意义上的规律也是规律,根据这个规律,我们也可以做非常严格的预测。比如说,预测测量100次会有多少次出现没有问题的结果,只不过到底第七十三次测量是什么,第五十次测量是什么,我们不能够知道。我就做这一点简要的回应。
-Sofia Varano -
@袁园
好,谢谢张老师。但是我们可能还需要对这个问题进一步理清。就是说因果性作为因果律,是一个普遍的必然性定律,还是一个统计学上的因果律?我想这是完全不同的,在本体论上就存在根本差异。我想把这个问题再交给李老师来回应。
因果干预
@李伟
感谢张老师刚刚的一些评论,我基本同意。因为张老师提到了隐变量的一些问题。那么这个问题其实跟我接下来要分享的东西十分相关,所以我还是接着继续分享我后面的内容。我接下来想跟大家分享第二层级——因果干预这个层级,我们应该怎样通过定量的方法衡量一个变量对另外一个变量的因果作用或者因果效应。
第一个科学家就是我们这里讲珀尔,也就是刚刚朱老师提到了珀尔的因果图模型。珀尔是一个计算机科学家,11年获得计算机的图灵奖,他提出了我们要用因果网络去确定因果关系。具体来讲,它的因果关系可以表示为这种有向无环图(DAG),有向表示是有方向的;无环实际上是表示没有网络或环结构的。你不能用一个变量指向另外一个变量,然后反过来用这个变量再指回原来的变量,这样的话就会形成一个环,所以他提的因果网络就是这样一个有向无环图。在一个有向无环图当中,有向箭头上游的变量,也就是指出去的变量,被称为父亲节点;下游的变量我们称之为是后代,就是父亲的后代。假如要记我们所关心的这若干种变量,我们用x来表示,就是x1到xp总共是p个变量,那么对应到图上面就是p个节点。
我们有两种观点去看待,一种是有向无环图:我们将这个图看成概率论中所表示的条件独立性的模型。什么条件独立性?就是这些变量之间的条件独立关系。在给定什么变量集合的时候,某两个变量之间是条件独立的,这是一个条件独立性的模型。在第二种观点中,我们直接把因果网络看成一个数据的生成机制。换句话说就是我们或者张老师提到的这种物理机制,即你的变量跟变量之间是怎么产生相互影响的,谁决定了谁的这种生成的机制。
本质上这两种观点是一样的,就是在第一种观点下,比如说我们看中条件独立性,实际上是说给定DAG中某个节点的父亲节点之后,这个节点与他所有的非后代都是独立的。所以我们根据全概率公式和条件独立性,DAG中变量的联合分布就可以被分解,即分解为每一个节点xi给定它的负节点之后的条件概率,然后相乘,所以它就表示成这种条件独立性。有了条件独立性,联合分布就可以写成一系列的乘积。
我们看一个例子,比如说我们关心的变量就是5个,x1到x5,这样就是一个DAG,这些箭头就表示这种因果关系,比如x1指向x2,我们就认为x2导致了x2。比如说刚刚提到了父亲节点这个概念,x1因为没有箭头指向他,所以它的父亲节点是空的。因为它作为老祖宗,是最古老的。而x2是x1的后代,所以反过来讲,x1就是x2的负节点。有了这样一个图之后,我们就可以基于第一种观点,把联合分布写成一系列条件概率的乘积。比如我们看x1的时候,因为它没有父亲节点,所以就是它自身x2的时候,它的负节点是x1,是条件的x1。这样一次都可以写下来。
第二种观点是表示数据的生成机制,即x1、x2、x5这几个变量是怎么生成的?或者说是由什么导致的?由于没有任何变量指向x1,所以我们认为x1的生成有一个外生变量xm1,也就是朱老师分享的PPT当中提到的u。每一个变量自身都有一个外生的或者噪音变量ε或者u。所以我们看x2数据生成的时候,除了有真正的原因x1导致之外,还有一个外生的噪音变量ε2去影响它,所以我们这样就可以给予因果图,我们把它的数据生成机制给它用这个形式给描述出来。
那么这个f是什么?是指一种关系,即x1怎么导致x2?我们用这样一个函数去刻画,这就是珀尔所提的DAG或者说因果图模型,那么DAG中的箭头似乎表示了某种因果关系,但是如果我们要在DAG上引入因果的概念,其实你还需要引进一个珀尔所提的do算子,do的意思,我们可以把它理解成一个干预,这就是我讲的第二层,你要做干预,你要进施加某项措施,没有干预的概念,很多时候我们是没有办法谈因果关系的。
所以在我的观念里边,我认为上帝全知基本上很玄幻的。实际中你是谈不了这个东西的,因为你没办法去做这样的干预,所以很多时候没办法从这个问题去谈因果关系。我们讲的do(xi)等于xi’的操作,就是将DAG中指向xi的有向边全部切断,也就是把它的生成机制直接破坏。因为我是直接给它一个外部的干预,直接将他干预成xi’,所以将xi的取值固定为常数xi’之后,我们就可以得到新的DAG联合分布,我们把它记成do xi = xi’,我们得到了x的联合分布,也就是新的干预之后新的DAG联合分布。
根据do算子,我们就可以去定量地定义一个因果作用,比如说我们想研究一个二值变量,1和0。在流行病学,二值变量是非常常见的,比如我们讲的吃药和不吃药对这个病的康复作用,或者是研究某个新药跟旧药对某个疾病的影响。
我们关注的是一个二值的变量z对y的定义因果作用,我们给它定义为,我对do z=1,我强制让你吃药,我看你的结果会是什么样。然后我再比较,对同一个人,我强制不让你吃药,再看结果会是什么样。这对应的是两种潜在状态。其实这个东西跟我后边要讲的鲁宾潜在结果模型是对应的,它们都强调了这种干预,这两种干预可能是反事实的,就是他真正吃药不吃药没有关系,反正这个是我要做的干预,来比较吃药和不吃药的结果。
这个干预实际上就是科学实验里的控制变量法。如果把其他的变量都控制住,只改变这一个变量,看对这个系统或者说对每个变量产生的影响。所以这是从定义上讲,它出来的应该就是因果的东西。当然这里讲的是平均情况,针对整个群体(我刚刚讲的可能是针对某个人)施加干预,给另外一个干预造成了平均的差异。这就是定义的平均因果作用——如何利用珀尔所提的多算子去定义这些东西。
我们再看一下这个图,如果我们做了外部干预,X2等于x2,我把X2变量给它干预成x2这个状态。根据干预的定义,指向它的边就给切断了;就是说你对它做干预影响,它的机制就破坏掉了,所以这条边就不存在了。那么基于这个图我们再去写这种变量的生成机制。x1等于f(ε1),X2此时就应该是等于x2,也就是do(X2=x2),因为它没有了这条边,已经给它施加了外部干预。那么X3、X4、X5是不变化的,还是跟之前的保持一致。
所以在这种情况下,我们的联合分布也要相应发生变化,这个地方就变成了一个示性函数,因为它是一个外部干预,X2=x2,所以只变成一个示性函数,其他的部分还是不发生变化。这就是在珀尔的代表下所提的基于do算子所定义的因果作用和分布。
珀尔后面又提出了两个评价因果作用的准则,一个是前门准则,一个是后门准则。如果整个DAG的结构是已知的,也就是变量之间的关系,因果关系是知道的,并且所有的变量都可观测,那么我们就可以根据上面do算子的公式,算出任意变量之间的因果作用。
在绝大多数的实际问题当中,我们既不知道整个DAG的结构,也不能将所有的变量点观测到,因此仅仅是有上面的公式是不够的,所以珀尔就提出了后门准则和前门准则。这两个准则的意义在于什么?某些研究当中其实DAG中某些变量不可观测,我们依然可以从观测数据中估计出某些因果作用,所以我们就简单看一下这两个准则分别是什么?
第一个图就是后门准则,假如我们关心的是变量x对变量y的因果作用,那么这样一个变量z就满足这里所说的后门准则,这个变量z是什么?就是既影响了x又影响了y,也就是张老师提到的相关非因果可能有一个变量同时指向了这个变量。而它们俩之间的相关性可能是由z导致的。即便它们这条边不存在,即x不指向y。那么满足这个图的我们就认为,这样的z是满足后门准则的变量。
什么是前门准则?我们同样还是关心x对y的因果作用。然后z是可观测得到的,u是不可观测的。也就是如果我们关心的两个可观测的变量x和y,他们受一个不可观测的隐变量的影响,这个时候你再去评级,看x、y这两个变量之间的关系,你就只能得到相关性,而得不到因果性,因为它受一个未知的变量影响。
在这种情况下怎么办?珀尔说如果我观测到这样一个z,满足x到x指向z,z指向y,也就是z是x到y这个方向上路径上的一个变量。然后未观测到的u又不指向z。如果它满足这样一个图,我们就认为这个z是满足了前门准则的变量。
那么以上是珀尔所提的因果图,还有前后门准则,那么我们接下来讲一个因果图的应用,这个应用其实可以用来解释我们这种经典的辛普森悖论。我们看这样一个简单例子,现在有两种治疗方案,一种用某种药物治疗,另外一种是用安慰剂,然后分别在男性、女性群体上都做了实验。男性群体上发现他的治疗的结果,也就是有100个人,总共有50个人康复了。在安慰剂这个群,在安慰剂这一组下面发现男性群体有500个人,然后发现有150个人是康复的。所以只看男性这个群体,你会发现治疗还是比安慰剂更有作用的,因为前者的康复率大概是1/2,而后者显然是不到1/2。女性群体上也是类似,女性群体上治疗总女性群体中500人,然后治疗康复的有50人,没有一个通过安慰剂康复。所以无论从男性的角度,还是从女性的角度发现治疗比起安慰剂来说,它都是有好处的,都是有帮助的。
但是如果你把他们联合起来,从整体上去看,比如说男性和女性加起来总共是600个人,然后发现只有100个人是好的。安慰剂这边也是600个人,安慰剂这组有150个人病好了。所以从综合上去看,似乎安慰剂比治疗作用更大。给予这样一组数据,得到的结论看起来是有矛盾的。如果你分开看似乎治疗是有帮助的,但是你合在一起看治疗又没用,你应该相信什么样的结论?在这里我们应该相信分开的结果,说看的结果也就是分层的结果,治疗对男性和女性都有好处,但是总体上没好处。在这个例子当中,我们的结论应该是治疗是有用的,为什么要得到这样一个结论?我们之后会从因果图的角度去解释我们为什么要得到这样一个结论。
再看下面这个例子,同样的数据,还是治疗和安慰剂,但是我们第三个变量不是性别的,而是血压、高血压和低血压。在高血压分开来看,发现治疗是有用的,低血压也是治疗有用的,总和却是安慰剂有用的,治疗没用。在这个问题下,我们的结论是治疗没有用。这看起来是不是有点奇怪,同样的数据却得到两组不同的结论。我们怎么去解释这个问题?相同的数据得到不同的结论,这个原因在于光有这些数据,我们是得不到可靠结论的。我们需要额外的因果机制信息,而这些因果机制信息是可以用因果图来表示的。
在第一个例子当中,性别被认为是一个混淆变量或混杂变量:因为性别这个变量可能会影响你的治疗方案,但治疗方案不会反过来去影响性别(因为性别是天生的)。所以我们只能认为性别会影响治疗方案,然后性别也会影响下你的康复程度。这样一个箭头或者说这样一个因果图,恰好符合了刚刚讲到的后门准则。根据珀尔的后门准则理论,我们需要对它做调整,才可以得到治疗对康复的因果作用,因为性别阻断了治疗到康复的后门路径。我们需要看调整之后的估计量调整分层,所以我们需要相信分层的结论。
但是在第二个例子当中,我们认为你的治疗可能会影响血压,从而导致康复。也就是说治疗会降低血压,然后降低血压再导致康复。所以在这个意义上来讲,治疗对血压这种影响,就不是反向指的,那这个就不符合我们的后门路径准则。因为后门路径指的是需要反向指的。所以治疗康复之间的后门路径,实际上是被空集阻隔的,而不是被血压阻断的,因此我们不需要去调整。如果此时我们用血压进行调整的话,那么得到的实际上是治疗到康复的直接作用,也就是你直接把这条边给切断,你只有这一条边,这就失去了我们关注的治疗对血压的总作用。无论你是直接过来的,还是经过血压过来的。我们此时是不应该去调整的,而应该相信总和的结论,这个时候我们的治疗是没用的。
当然这个是我们假设的因果机制信息,在一些情况下可能方向还是相反。所以我想强调的一个点就是,虽然你有这样的数据,但如果你没有额外的因果机制信息,你得到的结论可能也不是那么可靠。这样的因果机制信息怎么得到?一部分是基于经验(张老师、朱老师他们可能都提到了),即我们可能需要一些先验的东西,另外一部分你也可以基于数据去学习DAG,这就是因果推断的另外一个很大的方向。如何基于观测数据去学习一个因果网络,当然你需要做一些假设才能学到,这又是一个很困难的、很有挑战性的问题,但是我觉得还是很有意义的一个问题。
其实也有一些关于因果图的批评,就是现实的问题是否能用一个有向无环图表示?因为无环图表示的是没有反馈的变量影响另外一个变量,它不能反过来去影响。但是在一些生物或者化学问题当中,很多变量之间都有反馈机制,这个变量影响另外一个变量,它这个变量又反过来去影响自身变量,所以DAG可能就不适用了。它是一种简化的模型,在复杂系统中可能并不完全适用。
那珀尔引入了do算子,其实就是干预。珀尔认为干预就是从系统之外人为控制某些变量。但是这也依赖于一个假定,就是你干预某些变量并不会引起DAG中其他结构的变化。你在一些情况下可能也会违背。因为在一些化学实验当中,比如升高温度,可能会导致其他变量之间的因果方向就发生了变化。本来是x指向y的,你升高温度之后可能y就指向x了,珀尔的因果图可能就不再适用了。它要求只干预这个变量,而不能引起其他结构的变化。在实际工作中,我们很难得到一个完整的DAG,往往你可能基于一些专家知识,基于一些先验信息才能得到这样的DAG,所以用于阐述变量之间因果关系或者数据生成机制,使DAG的应用受到巨大阻碍。要从观测数据学习DAG结构确实是一个很有趣并且重要的问题。以上就是对因果图的基本介绍、因果图的一些应用以及因果图的一些批评。
接下来我再谈一下唐纳德·鲁宾的潜在结果模型。刚刚朱老师也提到了,我再给大家简单介绍一下。假设xi表示个体接受处理与否,我们给它取成0,y表示个体a的结果变量。这个其实最早其实是统计学家内曼(Jerzy Neyman)在一些农业试验当中提的概念,但他没有明确说这是一个潜在结果。它的形式化还是鲁宾提的。就是个体i在暴露Xi等于小x的情况下,它的潜在结果可以表示为yxi。比如x取1,就是一个潜在结果,它假设就是说如果个体i暴露成x等于1,当x表示吸烟时,就表示它可能的患肺癌的情况。再一个就是因为小x取两个值,所以如果他不吸烟,那他可能的患肺癌的情况又是什么样。所以每一个个体,如果暴露存在两个值,潜在结果其实也是有两个的。
珀尔在他的书中论述了鲁宾的因果模型和珀尔因果模型其实是等价的。但是等价性存在一个前提:首先,我得先承认珀尔有一个DAG,之后就说明这两个结果是等价的。因为你的大x就是一个干预。如果干预大x等于小x,y的系统结构也就发生了一些变化,去看我干预X小x可能的潜在结果是什么样的?
但是珀尔的这套理论能成立,它事先得有一个DAG结构。你要说等价性也不是完全等价。在DAG的基础上,我可以认为它是等价的。但这个潜在结果并不依赖于这个DAG结构。他不需要那样的DAG结构,这就是等价性。我们知道它在某种情况可以是等价的,并且它可以去衡量因果作用。
比如说我们用潜在结果去定义个体的因果作用,也就是第i个体,它的因果作用怎么定义?如果我把它的暴露干预成1,它的潜在结果是什么样?如果我把它暴露干预成0,它的潜在结果又是什么样?然后对它做一个差,似乎就衡量了暴露对这个结果的影响。这其实就是一个控制变量。为什么其他变量能控制住?是因为个体潜在的结果,y1i和y0i都是第i个人的潜在结果,而这两个潜在的结果唯一的差别就是这里的x,一个取1,一个取0,其他的变量都控制的是完全一样,无论是时间还是空间都是一样的。
在现实的世界当中,其实我们往往是不能进行随机化试验的,尤其我们讲的一些很多的观测性的实验,这种去医院看病的电子病历记录,不可能是被随机化试验的。我们接触的往往是一些观察性的研究。另外一个不能进行随机化试验的原因是有存在伦理限制。比如说你想研究吸烟与肺癌的关系,你就不能做随机化试验;因为你如果要做随机化试验,你需要通过强制让一批人吸烟,强制让另外一批人不吸烟,这就是违反伦理的,你不可能让强制让某些人去吸烟的。所以研究这些变量之间的关系,往往是通过一些观察性研究才能做到。
在观察性研究中,会涉及到刚刚讨论的相关因果的问题。一个核心的东西就是混杂因素或者混淆变量或者混杂变量。比如说吸烟和肺癌这个关系,可能某些基因既影响了吸烟,又影响了癌症。如果这个基因变量没有被观测到,只有吸烟和癌症这两个变量。基于这两个变量你是没办法评价它们之间的因果关系,所以我们需要去合理控制这些混杂因素。
如果这个混杂因素是可观测的,我们就有办法。在确定混杂因素z之后,我们需要一个可忽略性假定,简单来讲是你观测的混杂因素在所有的混杂因素的情况下,我们就可以利用一些方法,比如这种标准化的方法,(标准化的方法其实是跟珀尔的后门准则等价),然后还有一些其他的消除混杂偏移的方法,比如尼格里加权、倾向性得分、回归模型、双稳健估计,这些方法都是一些消除观测混杂偏移的方法。
还有一些情况,混杂因素可能根本就观测不到。这一种是很常见的,你收集的变量再多,可能也存在一些观测不到的混杂因素。这个时候我们就需要借助于工具变量的方法。这个工具变量我想大家可能了解一些,因为2021年的诺贝尔经济学奖其实就授予了发现工具变量的三个经济学家,吉多·因本斯(Guido Imbens),乔舒亚·安格里斯特(Joshua Angrist),戴维·卡德(David Card)。
实际中我们很难确定所有混杂因素,并观测它们,所以我们需要借助一个工具变量。什么是一个工具变量呢?假如我们还是研究原因对结果y的影响,我们有一个未观测的u。工具变量s实际上要满足一些条件,比如s要跟x不独立,s要跟u是独立的,还有s不能直接影响y。满足这三个关系的,我们就称为这样的变量是工具变量s。实际应用过程中,工具变量s其实并不好找,当然在有一些例子当中还是会存在这样的工具变量。有了这样的工具变量之后,我们再结合两个线性模型,比如说y服从这样一个线性模型,x服从这个线性模型,x和y之间的关系β就可以借助工具变量给它估出来,这就是消除了不可观测的混杂因素的工具变量方法。
我们再简单看一个实例:美国评价越南战争兵役对个人收入水平的影响。实际上就是安格里斯特讲的,老兵是否由于长期的服兵役已经影响了收入,简单来说是比较老兵与普通老百姓的收入。但比较老兵和普通老百姓,他们的收入差别这样做是有问题的,会有偏差。因为有些人他可能更会服兵役,比如说就业机会少的人。所以美国二战征兵的时候,他是用生日随机摇号。生日的随机摇号实际上就是一个可靠的工具变量,因为生日随机摇号肯定会影响服兵役的情况,也就是第一个假定是成立的。这种随机摇号给我们观测不到的混杂因素肯定是没有关系的,因为它是随机的摇号。y是收入,随机摇号跟收入一般也不会有直接影响。所以它是一个很合适的工具变量。基于这样一个工具变量,通过这么一个简单的式子,我们就可以去评价服兵役对收入的影响。这就是消除未观测混杂变量的工具变量的一个方法,还有一个工具变量的实例,由于时间关系我就不多说了,就简单总结一下珀尔和鲁宾两个因果框架之间的联系和区别。
图模型和潜在结果,我认为是两种互补的推测虚拟事实的方法。因为图模型是更直观的,它很容易让我们直观地思考,但是潜在结果这个模型更精确的,它不依赖于这些图模型去刻画这种变量之间关系,实际上是更精确的一种数学语言,做计算机的这些科学家更容易喜欢图模型。从我个人的经验来讲,我一般是从大脑中先去思考变量之间的图模型有什么关系。脑补出这个关系之后,我再从鲁宾的潜在结果定量地形式化,所以我是结合着使用的。两种互补的推测虚拟事实的方法都可以用来计算干预一个变量对结果的影响,但是图模型用的是do算子。因果作用的估计方法有相同之处也有区别。图模型主要基于后门准则和前门准则。基于潜在结果模型的方法有很多,比如这种标准化的方法,其实跟图模型的后门准则是一样的,等价的。衍生出来逆概率加权的方法,结果变量回归的方法,双文件估计的方法,以及调整未观测混杂变电的工具变量方法等等,还有一些其他的方法,我这里就不一一列举了。这个阶段我就先分享到这。
@袁园
谢谢李老师,你讲的太专业了,但我得把讨论拉回到普通观众的视角,我也分享一下内容,并对刚才李老师讲到的其中两点做一个回应。第一个是谈到隐变量,我想谈隐藏,第二个是关于干预,我更是从艺术的视角来去看。
首先刚才李老师也讲到了赫拉克利特,人不能同两次踏入同一条河流,我想引用他的另外一句话:“自然爱隐藏”。我推荐一本书,蒂莫西·莫顿的《现实主义的魔法:物本体论和因果性》。我为什么要推荐这本书?因为物导向的本体论,它把因果关系认为是一种审美的维度,很有意思。应该怎么理解这一点? 自然爱隐藏,也就是我们要抵制所谓的可见的、可言说的现实。然后我们要让不可言说的事物,爱隐藏的事物作为一个审美的维度去呈现。
这里莫顿提到,你在这种上万年甚至更长时间的岩洞中看到这些结晶体,它可能是像绘画一样的图案,也有可能像雕塑一样的形态。当然,你通过物理层面的因果关系解释它很容易。但是当你把它看成是一个审美维度会存在一些不同,审美的维度就是因果的维度。反之也是这样, 因果的维度就是审美的维度,因果是一种审美的现象。
我想从另外一方面谈因果,如果把它看成一个决定论的、本体论的,我更觉得它是一个压迫的、无法反抗的东西。但是我们为什么要谈因果关系?为什么要谈因果模型?我们谈它的真正价值是什么?刚才张老师讲到物理的维度,莫顿在这个书当中也有从物理的维度去讲,他说你想象一下,来自于宇宙之初的引力波穿过你的身体,你会发现我们通常所认知的物理维度就跟审美的维度关联起来了,它不是对立的。我恰恰想说的因果关系是把看上去毫无关联的事物,引入审美维度的时候,它们就彼此联系了。我们的世界观就是我们如何去理解因果关系,同时这一点又关联到刚才李老师讲到的干预,我们有什么样对因果关系的认识,我们就会对现实采取什么样的干预活动,这个是我特别想要强调的。
我引用法国诗人吕西安·迪卡斯(他对超现实主义有特别大的影响)在马尔波罗之歌当中经典的一句:美,就像一架缝纫机和一把雨伞在解剖台上的偶然相遇。缝纫机和雨伞看上去是毫无关联的。这两者怎么能够在解剖台上偶然相遇?而我们为什么就不能将其视为审美维度的因果关系呢?
我们再来看曼雷在1920年的一个作品(图片上是70年代的复制品),这个作品的名字就叫做迪卡斯,就是我们刚才谈的诗人迪卡斯之谜。曼雷包裹了一个可能是缝纫机的东西,但是因为被包裹起来了,所以你不知道里头到底是什么。
达利也有专门的缝纫机和雨伞在一起的艺术作品,超现实主义整个流派的艺术家都受到了迪卡斯的影响。
直到70年代仍然有艺术家在标题引用解剖台上缝纫机和雨伞的相遇。安迪·沃霍尔和杜尚在下国际象棋,它是因果关系吗?当然,但是它更是审美维度的因果关系。
回到隐藏,艺术家克里斯托,这是在他去世之后才执行的方案:被包裹的凯旋门。没有人见过被包裹的凯旋门,我们已然认识的日常之物被重新包裹起来,这意味着什么?意味着要求我们对隐藏事物的关注。
所以我最后用一个我在之前讲座当中用到的案例,大家看到在这个展厅的空间当中是一个巨大的混凝土,而且它还是旋转的,它符合我们的物理学上面的因果关系吗?当然不符合,但它有你不知道的因果关系存在,凭借你已有的感官经验和因果关系的认知,完全无法解释一个如此巨大的混凝土怎么能够没有任何支撑地悬浮在空中并且旋转。通过这些艺术案例,我想强调的是审美中隐藏的因果关系。接下来有请朱老师。
因果律
@朱锐
两位老师讲得非常精彩。接下来我就快一点。我前面讲过因果事实是一种基于观察与未观察数据之间的比较,它本身就包含着一种未观察的因素。
下面我讲因果律:因果律到底是否存在?前面提到休谟的第三个因果律,是从前面两个观察之中,通过归纳、类比、推理所得到的一种信念。实际上这里涉及到怎么样去表达因果(至少这个问题在哲学上还是有争论的)。我把因果表征分为两类:一个叫因果效应,一个叫事件因果。
效应因果表征就是说一个事件的性质是a of A导致b of B,然后关键是后面——in virtue of是根据a具有大写A的性质导致b具有大写B的性质。美国哲学家金在权(Jaegwon Kim)是效应因果的代表人物,效应因果指a所具有的某种性质导致b具有某种性质,也就是说这种因果具有结构性。
与之相反的是事件因果,或者叫做brute causation,我把它直观地翻译成“粗暴因果”。粗暴因果是没有结构的,它就是一个纯粹的事件,就是事件e,然后导致另外一个事件e。这一观点的代表人物就是唐纳德·戴维森(Donald Davidson)。
刚才张老师也提到了,所有的科学,包括概率统计,在谈到因果或者因果律的时候,实际上都属于 “效应因果论”,也就是“结构因果论”。以随机控制为前提进行各种因果分析,基本上都属于这种效应。把因果关系项看成具有结构性的事件,在概率上体现为变量赋值,即“X=x”“Y=y”分别为两个事件。珀尔在2016年书中对“事件”的定义就是,事件就是变量赋值。而变量X和Y之间的因果关系是靠“X等于x”时,能否真正导致“Y等于y”来判定的。这里面大写的X和Y实际上就相当于休谟的事件a和b,或者是“X等于x”“Y等于y”相当于“A”或“B”,而x和y这个值实际上就相当于休谟的A、B性质。
也就是说,事件(变量)之间的因果关系靠事件的性质(也就是变量的赋值)来确定。而因果律之所以存在,是因为性质,而不是事件之间的关系。也就是说因果律所连接的关系项本质上不是事件,而是休谟的As and Bs性质之间的关系。
这种效应因果论背后所具备的因果律在哲学上叫做“因果律”(capacity of causation),任何一个因果关系或者因果事件后面都有因果律做支撑。这是一种普遍的哲学和科学的理解,包括戴维森也如此认为。尽管我个人觉得戴维森不应该是这种态度,但这不是今天要讨论的问题。
但是“凡是因果事件,其背后必然有因果律”这种理解,实际上它不是一种本体论假设的。打个比方说,如果世界是由没有确定性质的事件(即粗暴事件)构成的,或者事件之间的关系并不能还原为事件性质之间的关系,那么:
第一点就是,粗暴因果可以不以关联为前提,也就是causation without correlation。前面李老师已经提过这个道理,causation并不必然体现为correlation。从粗暴因果论的角度来说,事件与事件性质属于不同的本体论范畴,我们不能通过“X=x导致Y=y”,来判定“X导致Y”是因为“X=x,Y=y”。举个简单的例子,设想在因果相关的两个变量X和Y之间,每次“X=x导致Y=y”,都会反过来会导致X引起Y的阈值修正,在神经科学上就是神经适应(Hebbian Learning),就是“结果会反过来影响原因”。下一次X引起Y的时候,它的阈值往往会降低。也就是说在非线性的动力系统之中,因果分析的效应是值得怀疑的。海森堡甚至认为因果分析在这种复杂系统中是无效的。
第二点,从因果到因果律,本质是一种相似性假设或者相似性分析。而这种相似性分析本质上就是一种性质分析。因为我们必须根据事情的性质去判断它们的相似性。而古德曼正说过,相似性本质上是以人的观察兴趣为前提的,任何事都和任何事相似,只要你不断地改变它的参数或者framework。因果律强调的是充要条件:有某一个性质,会导致另一个事件有另一个性质。而粗暴因果是不谈充要条件的,它没有普遍性。
这就涉及到因果的客观性问题。因果是客观事实,是我们观察时得到的一个结论,是绝对客观的,还是说它是一种审美呢?——袁园老师刚才说得非常漂亮,它就是一种审美意识——我个人觉得因果是一种休谟主义的观点,即它至少是一种观察事实。
这从随机的角度来说,在概率分析上,随机就强调随机性。鲁宾是这样定义“随机”的含义的:第一,样本的赋值是概率的,probabilistic;第二,是个别的,individual;第三,是无混淆变量或者是没有混杂因子,unconfounded。实际上,随机在统计学上是认知论的概念,目的是排除人为因素和偏见,以及保证样本的客观性(即没有隐含变量)和代表性(即符合正态分布)。随机控制的确是人类克服偏见、前见,实现客观性的基本法则。然而我们同时也应该认识到,随机控制只是方法论的客观性,本身并不能保证其结论是客观事实。
我从哲学概念上说一说粗暴因果。如果我们承认粗暴因果这种不带有普遍意义的、因果意义上的因果关系存在的话,那么粗暴因果就很有可能被随机性控制分析所掩盖。
第一,人脑本身就是一个不符合正态分布的信息系统,它不是一个随机系统,因为神经元或者神经元的集合把自己的活动限制在一个极小的范围内——这就是生命科学上所说的生命自制封闭性原则,而人类认知活动本身也遵守自由能最小化原则。简单来说就是人脑,还有人本身的生命体所遵守的活动规则是有固定模式的,不符合真正的随机系统。
第二,玻尔强调反事实推理所针对的总是特定个体的行为,而粗暴因果很有可能是群体行为(所谓的mass effect)。比方说打游戏机或者是小孩在看黄色录像所导致的犯罪,可能无法用统计规律来显示;相反,如果我们把统计规律当成是客观事实本身,而不是用来克服人类偏见的客观性方法,统计规律就可以被用来掩盖或者否定可能真实存在的事件因果。某一个体看黄色录像可能确实导致了某种犯罪行为,但是在统计上可能找不出这种关联或者因果。
我稍微总结一下。第一,因果是客观事实,还是人类所观察到的客观事实?我觉得当一个事实在原则上无法被观察,或者至少是某些方面没法被观察,而且因果分析从根本上依赖于人的兴趣和假设,那么我倾向于认为因果是后者。
第二,因果是否必然蕴含因果律?我觉得只有在效应因果的前提假设下,也就是因果本质上是性质或者赋值因果,才可能谈因果的充要条件以及类型意义上的相互关联。相反,如果不假设效应因果这种结构性的因果关系,而只谈事件或者粗暴因果,那么因果就不必然蕴含因果律。
基于前面所说的,我可以简单回答一下物理主义的两个命题。一般来说,物理主义在哲学上分为两个命题:封闭性命题和开发性命题,它们都跟因果意义直接相关。
封闭命题就是因果总是、也只是物理事件之间的因果。也就是说,物理事件是封闭的,不会有非物理的、外在的灵魂或者上帝的干预,它总是物理事件之间的因果。排他命题就是不存在过度因果、过度决定(所谓的overdetermination),即不存在两个或两个以上的充分原因,当然除了个别情形以外。排他命题有一定的模糊性,我觉得,第一个就是说封闭性命题看起来没有太大问题,即使因果不蕴含因果律。所以封闭命题还是比较安全的。但是排他性命题不仅仅假设因果律是存在(充要条件),而且本质上也依赖于效应因果或者结构因果的假设。
如果我们严格区分事件与事件性质,不把二者混同起来,那么排他性命题就应该被否定。在这里我可以用戴维森的——因为戴维森强调这种粗暴因果(crude causation),他从粗暴因果得出异常一元论,可以被看成是对排他命题的否定。
物理性质P与心理性质M属于不同类型的范畴,彼此之间不存在异质规律(heteronomic laws),也就是不存在这种心灵到物理的规律。第二,同一个事件既可以是物理事件p,也可以是心理事件m,也就是殊型同一性。我们在谈心理事件的时候,它肯定同时也是一个物理事件,所以p可以等同于m,或者是所有的m终究是一个物理事件。第三,M1可以导致M2,P1也可以导致P2。M1和M2,P1和P2之间的因果关系,是属于人类描述的选择,也就是更接近于袁园老师所说,是一种审美趣味的选择。
这是我所画的戴维森的因果观念,就上面M到M的因果跟下面P到P的因果,是可以都存在的,但是作为一个事件的m和p之间可以是殊型的等同关系。然后p作为一个性质,又可以被分解为不同的p1和p’的这种析取或者合取关系。
邱老师在上一期因果讨论中有一个非常好的比喻,我引用一下:他说我们人类碰见问题,就像碰见问题的孩子找妈妈一样,当我们碰见还不能完全观察、不便观察的现象的时候,总是回过头来找因果关系,把所有不明白之处都归咎于因果关系,不断地找因果关系,就跟小孩子叫妈妈一样“妈妈、妈妈、妈妈……”,最终妈妈不是万能的。我们可能用因果关系把许多本质性的问题给淹没了,所以把一切归结为因果关系,并不是一件好事。
然后回到休谟。休谟认为:一,因果性是人类通用心智的核心;二,因果不是也不能被还原为关联或者恒常连接;三,也就是怀疑主义的一个挑战——如果因果问题不能解决,人类知识的可能性问题也就无法解决。
案例我就不说了。今天很荣幸请到张老师,我想问一下张老师——因为我总觉得物理学很神秘——比如贝尔不等式的问题。贝尔不等式是可以被看成是对爱因斯坦因果假设、隐形变量假设的一个归谬推理(reductio)。贝尔不等式的不成立,实际上是证明了物理学上的实在性问题(即事实是否独立于观察),和区域性问题(即信息传递能否超过光速),这两个假设。但实在性假设、区域性假设,都可能是错的。
所谓区域性我的理解就是因果,就是有没有超距离的、瞬时间的因果关系,不存在爱因斯坦-波多尔斯基-罗森佯谬中所假设的隐含变量(这个事实是否可以理解为因果区域性的否定),而隐含变量的存在本身就在逻辑上导致因果关系的否定,这似乎是统计学和和物理学上的一个共同认知。这是我想请教李老师和张老师。
@袁园
谢谢朱锐老师,然后有请张老师来回应我们刚才这一轮的讨论。张老师有请。
@张双南
好的,非常感谢。刚才三位老师都发表了非常精彩的的观点。尽管李伟老师的比较学术化,但我听的很过瘾。我们物理圈或者天文圈是比较硬核地做实验、做观察的,虽然我们不用这些语言,但实际上 我们的研究方法是一模一样的。排除非因果的关系,我们用的是同样的办法,比如说探究到底有没有隐藏的、控制变量的东西。我们的做法就是做实验的时候非常小心,保证一次实验里面只有有限的实验条件改变,最好只改变一个条件,然后看结果是什么。然后不断地改变条件,最终会找到某一个条件的改变对结果的影响是最大的。这样我们就认为找到了背后隐藏的关系了,或者就算是找到了“因”。
“干预”其实也是一样的道理。我们在实验系统里人为地改变条件或者做一些预测,实际上也是一种干预手段。我们基于某个模型做预测,然后去检验预测的结果,看看预测的结果和你预言的是否一致,这就是玻尔的可证伪性的问题。
如果你的预测是一个科学理论的话,那就应该能做出预言。你的预言和实验结果如果不一致,就说明你的实验是有问题的;如果一致,我们对你这个理论的信心增强了——但并不证明你这个理论就是对的。但是如果你的预言和实验结果不一样,你就需要修改这个理论。
隔行如隔山,主要是语言不一样。刚才李老师讲的那一套语言我们不太用,但我们做统计推断时用的公式是一样的。我不知道是经济学家、物理学家还是统计学家先搞的这个东西,比如说费希尔的理论,我们用的也很多,所以这个交流我觉得还是非常有意思的。
-Sofia Varano -
我特别想回应一下刚才袁老师讲的审美和因果性的关系。袁老师讲隐藏是审美的一个维度,因果就是一种审美现象,实际上我对这个问题非常感兴趣。
我想反过来问一个问题:审美本身有没有因果性的问题?换句话说, 审美背后有没有共同的规律,有没有什么共同的“因”决定了我们审美的结果?这个问题提出来很容易,实际上却非常复杂,比如说我们知道不同的人有不同的审美观,而且有不同种类的审美理论,这就告诉我们审美现象其实非常非常复杂。
我在中国科学院大学开了一门课,专门来对所有的审美理论做批判,就是用科学方法来证伪。比如说有一种审美理论说对称美,那么我就举出不对称为美的例子,那就说明对称不是美的“因”。这样的例子非常多,我就不在这里详细讲。我在课上讲几十个审美理论,每一个我都能找到证伪的例子,来说明这些审美理论所给的并不是“因”。那么“因”到底是什么?今天我不展开讲。
针对袁园老师讲的隐藏问题,我个人的观点认为艺术是对生活的审美创造,而这个创造过程其实就是把隐含的内容放到艺术作品里面去。那么审美就是把隐藏给发掘出来。当然,这个艺术家放进去的是a,但审美的人发现的是b,可能不一样,不同的人发现也不一样。对艺术作品可以是这样,对自然的美常常也是这样,所以不同的人发现的、品味到的美(隐藏的东西)不一样,审美具有不唯一性。
其实有时候艺术家可能也不知道自己隐藏(在艺术品里)的东西是什么,但他总要放进点什么东西,否则就不能成为一个艺术品。科学是什么?我认为科学是对自然的审美发现。换句话说,就是发现那些隐藏,这是我对于艺术、审美和科学的理解。而审美的过程是什么呢?跟朱锐老师的研究其实是有一点关联的,我认为就是个人的价值观和见识遇到了审美对象之后在大脑里面产生的一种反应——是美、是丑或者是平庸,这就是我们会得到的审美结论。
因为人的审美是观念,简单来讲就是价值观和见识与审美对象相遇时在大脑里的结果。那么到底要满足什么样的价值观、满足什么样的见识,我们才会得到这个美的结论?我当然有我自己的看法(但这不一定对)。首先我认为每个人的价值观是不一样的,所以我们要对审美对象做价值判断:它是否符合我们的价值观;第二,要从见识的角度来看审美对象的稀缺性。也就是说,和我们见识相比,审美对象的某种特质是我们非常少见的。那么 审美对象既符合我们的价值观,又有见识上的稀缺性,我们便会得到美的结论。
我的看法和神经美学的一些研究能非常好的契合,某种层面上我是从那边总结出来的。我用简单的6个字来描述——“没缺陷,不常见”。也就是从我们价值观的角度判断这个审美对象是否有缺陷,如果没有就ok;然后从见识的角度判断是不是不常见的,如果是,我们就能够得到“美”的结论。所以这是我对刚才袁老师那一段非常精彩的演讲的一点评论。
-Sofia Varano -
另外,我们刚才没太讲混沌效应和因果律的关系。刚才朱锐老师的PPT里面提了一句,但是没有说太多,那么我想说一下。我先回应一下朱锐老师刚才讲的贝尔不等式的这件事情。不错,我前面讲的就是隐变量,贝尔不等式主要就是用来说明这件事情的。
但现在的结果表明是不支持隐变量。因为现在测量的量子纠缠的距离,(我刚开始讲的潘建伟院士的那个实验)已经超过上千公里了,你可以测量发生量子纠缠的时候,粒子的变化,比如说在德令哈市和云南做测量,在云南做测量时,在德令哈的量子态就发生变化了。我们可以一同记录下这两件事情发生的时间,然后再计算一下从德令哈传信息到云南所需要的时间,就可以发现这个时间是远远不够的。换句话说,这两件事情的发生好像违反了爱因斯坦所要求的——信息传递不能超过光速这个条件。但是我们今天又不认为它违反,因为这两者之间没有传递有效的信息。在德令哈测量之前,测量结果是不可预测的,因为它是量子状态,在云南是不可能知道我的测量结果的。最终我们是通过事后的比对才知道这件事情是同时发生的,比如云南发个微信告诉德令哈,我测量的结果量子态是这样的,德令哈说我看看我的,是那样子。这个果然是同时发生的。而真实的信息传递还是低于光速的,所以,从这个角度来讲,爱因斯坦既是对的又是错的:对在爱因斯坦要求的因果性没有违反;错在纠缠这个现象确实是发生了。
所以我们觉得量子纠缠效应确实非常奇妙,它是一个量子力学基本规律所预言的现象。爱因斯坦曾经认为如果出现的话就违反因果律,而爱因斯坦坚信因果律必须得成立。但测量了之后的话发现,因果律还没有违反。所以从这个角度来讲,这个效应也没有违反因果律,原因就在于测量之前你是不知道这个结果的,必须在测量之后、两者进行通讯才能够知道结果。
刚才朱老师谈到混沌现象,从方程的角度来讲就是高度非线性的现象。你把方程写出来,这个方程按照牛顿的决定论,求出来的解就是唯一的,那么给定边界条件求出来解,不就可以预测这个效应了吗?其实不是这样,至于原因,我们现在当然也理解了。这个原因就在于方程高度的非线性会导致在方程产生作用的时候,对初始条件/边界条件/参数高度敏感,而我们是没有办法精确地知道所有的边界条件或初始条件,所以我们就没有办法精确地预言这个方程所给出来的后果。方程的解对于初始条件又是高度的敏感,所以它是非线性的。
-Dan Matutina -
其实这并不是新的现象,在实验室里做过电子学电路的时候都知道,电子学电路做得不好的时候,它会震荡。这个震荡就是高度非线性的结果,震荡的效果是不可预测的。在会议室里面,我们有时候声音没弄好就会得到正反馈,正反馈之后发现声音越来越尖,这是同样的效应,这个效应其实并不是很罕见的效应。那么我们实验室里怎么做呢?加阻尼就可以。所以从理解规律的角度上来讲,一旦知道了它对哪些初始条件非常的敏感,对哪些参数非常的敏感,那么我们是可以把这样高度不稳定的、非线性的、不可预测的系统,变得可以控制、可以稳定。
自然现象就没有办法了。这就是我们今天仍然不能做长期天气预报的原因,毕竟这些条件我们自己是控制不了的。我们既控制不了,又没办法精确地知道。所以,即使是用最大型的计算机,把尽可能多的条件放到里面去计算,尽可能地想把不可预测性降低,我们仍然无法做精确的长期天气预报。短期天气预报可以做得比较精确,因为这个时候非线性的效应放大的还没有那么厉害,做长期的就做不到了。未来还是有可能做到的,毕竟我们理解了这些方程、理解了非线性在哪之后,就可以想办法尽可能地把计算精度、边界条件和初始条件掌握得更好一些,比如卫星的观测、云图的测量等,测量进行精确一点,这样就可以改进,本来是混沌效应,不可预测,现在变得可预测。所以我认为从这个角度来讲,非线性系统也并非真的违反了因果性,只是在某种程度上超出了我们现在的计算能力而已,或者超出了我们现在所掌握的细节而已。
这是不是说,如果精确的我们都掌握了的话,就完全能够预示这些行为了——从宏观的角度来讲我觉得是可以的,但在量子的程度上来讲,我们现在认为原子内部本质上是随机的,但是统计上又是可预测的。所以从这些微观和宏观的角度来讲,我们还不觉得因果性和因果律受到了根本的挑战,只不过说并不是原来牛顿时代所讲的绝对的、简单的、线性的决定论。事情变得复杂了,但是了解它的复杂性,了解它的不可预测性,也正是我们把不可预测的、看来没有因果的东西变得可预测、变得有因果性的这么一个中间的步骤。所以我认为还是有希望的。这是我对这几件事情的观点,谢谢。
@袁园
谢谢张老师。
我也回应一下您刚才说的审美的问题。我是在幻觉层面上说因果关系是一种审美。我所持的本体论是我认为物本身是不可还原的,是个秘密。因果关系是物和物之间的相互作用。我们可以像刚才讲休谟的因果问题一样,把相互作用的关系,用各种因果关系的理论去解释。通常的因果关系理论是一种解密,就是解开加密的东西。但是我想强调的是,因果关系恰恰就是那个秘密。我想去强调的是它加密的魔法,而不是解密本身。当我们把因果关系本身理解成一个幻觉时,审美也是一个幻觉。
作为审美的幻觉跟因果关系的幻觉的区别,就在于我们现在所认为的因果关系的理论不认为自己是幻觉,但实际上它是一个伪装的幻觉。大家都知道艺术是虚构的,所以艺术作为幻觉是不伪装的。而现实当中的各种因果关系是伪装,它会伪装自己不是幻觉,这恰恰是我觉得很有意思的地方。当然这里涉及到本体论的立场,我认为物是不可还原的,所以这也就意味着它就是个秘密。而关于这个秘密我更在意的不是解密,而是秘密本身。我要杀死的因果关系恰恰就是在这个意义上所讲的伪装幻觉。
接下来,我想把主题引向反事实推理,就刚才李伟老师讲到的那个部分,因为那是我最感兴趣的部分,也是艺术家最感兴趣的部分。为什么最感兴趣?我也分享一下屏幕,因为我想把它带到关于反事实推理的讨论上来。
我们讲反事实推理的一个句式,就是“如果……那么……”。我们把这个时间维度带进来,就能理解艺术家之所以特别在意反事实推理,因为它是一个能回到过去的未来。就是说我对这个现实是不满的,我回到过去去想象,如果过去怎么样,未来会怎么样。所以实际上是一种思想实验,看上去是回到过去,但是它意在未来。
大家看到的这个是艺术家做的实验。艺术家设计了各种各样的反事实游戏,这是其中一个。假设二战的时候,我们艺术家组成了一个幽灵军队,然后潜入到了军队当中,会怎么样?我们可能会摁下一个结束战争的按钮——这个就是“如果……那么……”。所以你看电影里头有这种如果穿越回去,然后把希特勒杀掉会怎么样的故事。
我就借一个中国艺术家的案例, 孙原的(《一万两——宴汝德之计》。现场有一个像雕塑一样的基座,上面是一个不锈钢框架的透明玻璃箱。在密闭的玻璃空间里充满着白色气体,即使观众凑近看,也根本看不见璃璃箱中到底有什么。
而这个作品关联的叙事是什么呢?在甲午战争最后阶段,北洋水师败局已定,当时有两个美国人被推荐给提督丁汝昌,化学师宴汝德(John Wilde)是其中之一。他说我可以让北洋水师的战舰隐身,靠近日本的敌舰却不被看到,然后便可以击沉敌舰,若事成之后付给宴汝德美金万元作为酬劳。但当时从香港运输所需原材料的船在中途沉了,宴汝德之计并未被实施,也根本没有施展这个“隐形魔法”。宴汝德之计和不可见、隐藏有关。而孙原的作品是关于时间穿越实施宴汝德之计的实验,如果孙原穿越时空回去,那么会发生什么?这个密闭的玻璃箱成为一个时间旅行的空间,如果把宴汝德没有提供给丁汝昌的计谋送过去,那么从甲午战争到现在的整个历史格局是否会被改变?这个作品是艺术家孙原和科学家苏萌的合作,苏萌为孙原关于时空穿越在理论上的支持,这就是非常典型的艺术家反事实推理的作品。
接下来的这个图其实跟我们今天讲的没有特别大的关系,但是我想把它强行建立起关系。这个图来自于一个学者关于秘密的美学,这个秘密的美学是基于雅克·朗西埃的可感性分配思想。我们看到最左边A栏是已知的已知,最右边D栏是未知的未知, B栏是未知的已知,就是被我们忽视掉的、我们曾经知道现在却遗忘了的;C栏是已知的未知,就是现在知道那些曾经不知道的。科学就是不断地去解决那些曾经不知道的问题。
当我说因果关系是作为美学维度的时候,它一方面要介入未知的已知,用因果关系去介入那些我们曾经知道但是被我们忽略了的事情。另外一方面,我们可能就像反事实的推理,我们要去介入完全未知的未知,这种未知的未知就是我们回到过去的未来,通过所谓反事实的思想实验去想象未知的未知。
最后这个图我就分享一下,这个图也是艺术家画的图,但是很有意思。我把这张图关联到张老师最开始讲的黑洞,黑洞是处在绝对视域,我们根本不可见。最上面的大世界代表的就是在我看来因果关系的真正意义,是让我们在这种不可见的绝对视域当中去漫游,是它是一种没有视界的观看。最后,我把反事实推理命题再交李老师。
反事实推理
@李伟
几位老师讲得非常精彩,我就再花点时间给大家分享一下因果推断的第三层级。
在分享之前,我还是想回应一下朱锐老师提到的贝尔不等式,隐变量是否等价于因果否定?我的结论是:在一些情况下它是等价的,但是在另外一情况下它并不等价。比如说你研究x对y的因果作用,有一个隐变量U指向了x和y,也就是U同时影响xy。如果你观测到的变量只有x和y,而没有外在的其他的辅助变量,这个时候只看xy之间的关系是得不到因果关系的。在这种情况下,有隐变量就没有因果关系。但在另外一种情况下,具有所谓的辅助变量。比如说我有一个工具变量(S)满足一些假设条件的时候,即便U不可观测,但我仍然能够准确估出来x到y的因果作用。也就是说我有一个额外的辅助变量,使得因果效应的估计成为可能。所以我认为不是说你有隐含的混杂变量,就没办法发现因果关系了。其实具有不可观测的混杂因素,是因果推断的一个重要的研究领域。
怎么借助一些辅助变量呢?这里我只讲到一个工具变量的方法。但仅仅因为这样一项工作,就诞生了我们2021年诺贝尔经济学奖,这其实是一个伟大的贡献。尽管在实际中,工具变量的用途可能是受限的,因为你需要找到一个合适的估计面,满足这个条件有的时候也是比较困难的。这是我对朱锐老师的一点回应。
我刚刚看到邱老师在我们聊天的框里提了这样一个问题:在随机化实验当中,如果实验组和对照组得到的结果分布是一样的,也就是期望的差等于0,还有没有方法可以发现因果作用?我的答案是,在这种情况下,它的因果作用就为0。因为随机化试验就是因果推断的金标准,如果你在随机化实验当中得到的两个期望差为0,我们就认为在这个问题当中,X对Y就是没有因果作用的,因为随机化实验控制了一切,在没有混杂因素的影响之后,这两个变量之间的关系就是因果关系。这是我对邱老师的一点回应。
那么接下来我就介绍因果推断的第三层次:反事实。反事实就像刚刚袁老师提到的,它其实是一种想象。
因为我专业是是生物统计,流行病这些方面,所以我举的例子一般都是偏医学的例子。比如我们观测到事实:张三吸烟了,我们认为变量X等于1,然后张三患了癌症,Y等于1。在这些事实、证据的基础上,我们去假想一个情况,假如当时张三不吸烟的话,他是否还会患癌症?这个问题就涉及到第三层次的反事实。注意这里的“张三不吸烟”其实不同于“不吸烟的人”,“张三不吸烟”是他一个个体的行为,“不吸烟的人”是一个不吸烟的群体。这一点也恰恰回应到了刚刚朱锐老师提到的一点:反事实实际上是针对“个体”的一个推断。而因果效应,尤其是平均因果的作用,是针对“群体”的吸烟对肺癌的影响。但是反事实的话,我们先有这个人的一些基本情况,知道他吸烟患了肺癌,去推断如果当初他不吸烟又会怎么样?或者像袁老师说的,如果我干预了他那个情况,让他不吸烟,他还患癌症又是什么情况?
我们想要明确反事实推理跟第二层级的关系,我们只需要明白两个概念: 原因的结果与 结果的原因。原因的结果就是effect of cause,我们简写成EOC。另外一个是cause of effect我们简写为COE。Effect of cause研究的是在一个原因下,它的效应是什么样的,或者说原因对结果的干预效果。举一个例子,吸烟对肺癌是否有危害?这就是一个effect of cause的问题,这里cause就是吸烟,effect就是肺癌,吸烟对肺癌是否有危害?这是一个干预效果的问题,假如吸烟可干预,是指我让这个人吸烟,看他的肺癌的情况是什么样的。那么cause of effect则是指我们先有这个结果,然后去找它的原因。比如说张三患了肺癌,这是已经既定的事实,我们观测到他患肺癌了,去判断他患肺癌是否是吸烟导致的。这两个是不同的问题。第二个问题是一个归因问题,因为吸烟对肺癌是否有危害是一个群体的问题。而将张三患肺癌归因于吸烟,这个就是个体归因的问题,需要借助反事实。
我们如何将统计用于法律呢?在法律的审判中,比如你需要去看犯罪的可能原因,才能给一个人定罪。对这个问题,法庭上没有一个清楚的策略,目前的统计学也没有重视EOC和COE的区别,因为目前的统计学研究大部分集中在第二层,干预效果的问题研究。第三层级的研究其实还是比较少的。
我们重点看这个结果的原因,也就是第三层级怎么去归因的问题。比如说一个吸烟的人患了肺癌,那么他患肺癌到底是不是由吸烟导致的,这是结果的原因问题。大概二三十年之前,可能更早,归因往往是用贝叶斯的方法。比如说现在y等于1,表示他患了肺癌。那么他的肺癌是否是由于吸烟导致的?就看一下在患肺癌的条件下,患者吸烟的概率,这是一个后验概率。而后验概率的计算依赖于吸烟概率的先验。这是一种基于贝叶斯、基于概率论的方法。这没有因果和干预的东西,都是观测变量之间的关系,是一种最古老的、基于贝叶斯的方法。
然后我们讲的第二层级,因果效应或者因果作用。我们能不能根据因果作用去发现原因?这个也是不行的,我们后面会举例。因为因果作用讲的往往是是一个群体,或者它是基于因果路径的,比如说我刚刚讲的珀尔因果图的因果路径。后面所谓的后验因果作用,是我还有我的博士生导师耿直老师以及我的一些师兄目前在做的的研究——后验因果作用用于归因的一些场景。这个课件和报告的内容也非常感谢耿直老师的指导。
我们首先看基于贝叶斯的方法,即基于条件概率去判断原因,这个方法为什么不行?比如说我们给定症状y等于1,在这个条件下,我们去判断疾病的概率,这个概率我们可以利用贝叶斯公式简单做一个分解。分解出来xk等于1,这是一个先验概率,它跟我们的结果没关系。所以后验概率是基于先验概率去做判断,是与先验概率有关的。也就是说即便没有因果关系,它也可能因为先验概率很大,导致概率也会比较大,这就是它可能存在的一个问题。我们可以举个例子,当后验证概率很大的时候,可能xk对y的因果作用ACE是很小的,甚至为0。那么既然因果作用为0,你就不能把疾病当做症状的原因,因为你的因果作用为0,所以即便这个条件概率很大,你也不能用它来做归因。比如下面这个例子,讲的是锻炼X1影响心脏病X2,心脏病也影响胸痛X3,然后心脏病影响血压Y。我们发现X3,也就是第三个变量,在给定血压的条件下,概率是比前两个变量的条件概率要大的。但显然X3(胸痛)对Y是没有因果作用的,因为它和Y没有因果路径,所以X3对Y的因果作用为0。虽然说它的后验概率比较大,但你不能把高血压归结为胸痛原因,真正的原因是X2(心脏病),用它去归因显然是不对的。
既然用它去归因去不对,那我们能不能用因果作用去推断原因?这个也是有问题的,这是我们讲的第二层级的关系。比如说X对Y的因果作用,我们前面定义的YX等于1,两个潜在结果的比较,然后去算一个期望。假如说一个X1,一个X2。X1是某个毒药,X2是某个污染的商品,Y是死亡。因为毒药是很致命的,所以如果这个人吃了毒药,他基本上是一定要死,所以它的(X1-Y)因果作用往往是很大的。而吃了污染的商品不一定会死亡,因为它的效果可能没那么强。你现在看到一个人死亡了,它是因为服毒还是因为污染商品导致的呢?如果基于因果作用去做推断Y的原因,你可能就会归因为服毒。因为吃了它就直接会导致死,所以它的因果作用最大。但是服毒这个事情在现实生活中不一定那么频繁,也就是说服毒的先验概率很小,所以你基于因果作用去归因也是有问题的。因果作用不能简单的用于归因,也就是因果作用不能用于我们第三层级的反事实的推理。
从这个角度上去看,第二层次与第三层次的区别是什么?第三层次实际上是对个体的一个推断,假如这个人吸烟的话患肺癌;第二层次实际上是对群体的一个推断,因为它没有这些条件的东西。第三层次它需要的是联合分布,就是两个潜在结果的联合分布。但是因为第二层次是对Y1的分布和Y0的分布做比较,做差,所以不需要它联合的分布,只需要它的两个边缘分布。这是一个非常困难的问题,从边缘分布到联合分布是估不出来的,因为Y1和Y0从来不可能联合观测。我刚刚提到的赫拉克里特的哲学,就是说你不可能两次踏进同一条河流。不可能同时观测到,就没有联合分布,所以第三个反事实的推理其实是很困难的。
Dawid在一些条件下推出一个表达式,建立了原因的概率与第二层级因果的风险比。这样一个比值是从数据中可估的,他说如果这个比值大于2,我们就可以得到原因的概率大于1/2。为什么要提到2?这是因为加利福尼亚的一个关于冻胶胸移植的责任诉讼,他说当用统计分析疾病原因的时候,相对风险(RR)必须大于2.0才对评审团有用。CRR大于2时我们就可以推出来PC是大于1/2的。换句话说,这个因素是一个特定人患病的原因的可能性,大于1/2的话,也就是概率大于0.5,我们就可能判定这个人患病的原因就是这个因素,所以群体结果用于推断个体结果也要求了RR要大于2。当然这是一个非常简单的、都是二值变量的时候,一个x一个y,我们讲结果的原因或者说原因的概率计算的一个方法。
那么珀尔提出的这种反事实的推理,主要也是基于二值的暴露、二值的原因x和二值的结果。比如他提了几个度量,第一个是必要原因的概率。我们还是回到刚刚吸烟和肺癌的例子,x是表示吸烟,y是表示患肺癌。张三吸了烟,然后同时患了肺癌,这是已知的事实或者说是我们手中的证据。我们去设想一种情况,假如当初他不吸烟,然后他不患肺癌的概率,这就是一个必要原因的度量。然后再回应朱锐老师提到的:小孩子看黄色录像然后犯罪的事实,也是可以用它去做推断的。比如说x表示小孩子看黄色录像,然后y表示他犯罪。现在我知道这个小孩看了这个录像,我知道他犯罪了,现在我们去设想,如果当初他不看这个录像,他不犯罪的可能性有多大?这是从必要性去考虑的一种情况,反过来是充分性。就是说如果我现在观察到张三他没有吸烟,然后也没有患肺癌,我们去设想假如当初他吸烟了,他患肺癌的可能性有多大?这是一个充分的原因。
你可以把这两个结合在一起来讲,变成了所谓的充分必要原因,把这两个潜在结果写在一起。后面也有提到我们没有观测到它暴露的情况,只是观测到它的一些结果。这样的变量它可以用于医疗诊断,假如说我们的y是我观测到某个症状,x表示某个疾病的症状,基于这些症状我们去发现到底是不是某个病。所以它可以用到度量去衡量这些事情,但是所有的这些度量,它都是基于一个暴露、一个原因加一个结果变量的。
在一些更复杂的问题当中,比如说你有很多个原因,很多个危险因素,你怎么去做归因的操作?比如说X1表示装修,然后X2表示家具,X3表示餐饮,然后结局变量是白血病。假如说有一位白血病患者,他患白血病应该归因于什么?是归因于家里装修、新家具,还是不健康的饮食习惯?这个时候你就需要一些反事实思考。假如当初不装修,这个人还患不患白血病?假如他不买新家具,他还患不患白血病?假如他有一个健康的饮食习惯,他还患不患白血病?这些都是一些反事实的想象,在一些假定下面我们也是可以去操作的,也是可以去估计的,这是我们已做过的一个研究了。影响高血压的有若干个因素,我们想知道到底应该归因于哪个因素,是归因于他没有坚持锻炼,还是他不健康饮食,还是一些其他的心脏病?我们也是有办法的。
所以简单总结一下,我今天大致就讲了珀尔的因果推断的三个阶梯,三个层级。第一个层级就是相关与预测,这部分就是基于观测变量xy,也就是你的观测数据,它涉及到xy的观测数据联合分布。第二个层级就是因果与决策,这里就涉及到潜在结果或者珀尔的do算子。潜在结果实际上是边缘的,因为它只涉及这两个潜在结果之间的比较,所以只需要它们的边缘分布。但是到第三个层次的时候,你需要这两个潜在结果联合在一起,就变成了这种反事实的推理了,难度是层层递进的。因为这两个是不可能同时观测到的,它的联合分布也是需要一些假设条件的。我就分享到这,谢谢袁老师。
@袁园
@朱锐
好,这个问题问得非常好。心理学上有一个发现,就是说你让鸽子做一个动作,比方推一个机关,然后鸽子就会得到食物。这实际上是没有因果关系的,这只是一个设置。但是即使得不到食物,鸽子也会不断去碰那个机关。在动物生存的世界里,他们用因果去解密或者加密。我觉得加密这个概念非常精彩,我们总是相信有一种世界之间有因果,即使没有,我们也会给它加密上,认为存在一种因果联系。然后靠这种因果联系去指导我们的行为和我们的决策。而这种加密的行为也恰恰让世界显得神秘和审美。今天很多概念都是非常精彩的。我觉得这肯定是和基因有关系的,基因是一个隐含变量。我觉得爱因斯坦他之所以坚信上帝不会掷骰子,就是坚信有一个因果力存在,他拥有的更多的是一种对世界秩序及其美学的信念。
相反,作为一个东方人(特别是我小时候受庄子的影响更多),我觉得世界的秩序是不依赖于我们的,那是另外一种秩序。这一点所包含的内容实际上是很多的。从哲学上来说,我们今天之所以谈这么多因果,在某种意义上也是因为西方的上帝cosmos认为世界本身有一种因果。这种几乎是线性的、绝对性的认识论,在某种意义上深刻影响了我们现代中国人。如果退回几百年,我觉得这种观念很难被中国人所接受。从某种意义上,这也是科学的胜利。
@袁园
今天我们在这么多角度谈因果关系,但我还是想把问题敞开。我能提供的是艺术家如何去思考因果关系:一方面是一切压迫我们的社会的因果关系,艺术家都要去揭示;另外一方面,因果关系跟我们的过去、现在、未来都高度关联。它就是我们的世界观,是我们的生活、生存的方式。所以我们需要不断地理解过去、想象未来,跟那些已有的理论和历史去做斗争。思考因果关系,就是在做这种斗争。当我们考虑反事实的时候,我们想,回到过去能不能够改变历史的进程;我们思考普遍性因果的时候,我们想系统性的问题是不是不可避免的,这个必然性、这种概率是不是不可避免的?
最后回到刚才我们讨论的,人们对因果的依赖的内涵是什么?亚当夏娃偷吃禁果之后,上帝问他们到底是谁偷吃的禁果,亚当说是夏娃给我的,夏娃说是蛇给我的。这就是一个逃避责任的因果解释。所以,我更想说因果关系的另外一个维度,是我们可能要去阻止这种归因,这种逃避责任、使自己变得无罪的归因,那种滑向否定的归因。而更重要的是我们要去探索:如何通过对因果关系的思考开辟出来不可能的空间。
最后,我引用今天最初谈到的诗人迪卡斯的一句诗:我接受生命如同接受一个伤口,我不允许用自杀来治愈创伤,我希望造物主在他那永恒的每时每刻都凝视这道敞开的裂缝。我用这首诗作为一个隐喻,当我们遇到问题的时候,接受这个问题,将没有因果关系的实质作为伤口,去凝视它。好,谢谢观众,也谢谢今天的嘉宾。
主持人:袁园 |嘉宾:张双南、李伟、朱锐 |主办:中国人民大学哲学与认知科学跨学科交叉平台、服务器艺术 |协办:神经现实 |封面:Dan Matutina
整理:安迪、子谦、Wug、袁林锦、光影 |排版:Lynn、光影