相关与因果
人类天生善于从噪声中寻找模式,这是一种与生俱来的能力。比如发现直角边的平方和等于斜边的平方,比如发现十二平均律以及五度音,比如发现一年有三百六十五天(公转周期)…
很多时候,人们会发现两件事往往同时出现,或者当一件事情发生时另一件往往不会发生。比如(下面都是我瞎说的):
爸爸胖很可能儿子也胖。
喜欢跑马拉松的人很可能爱听 hiphop。
下雨天很可能堵车。
熬夜会容易长胖。
吸烟对环境有好处。
等等,最后一条是不是写错了?其实最后一条是我在 twitter 看来的,大概是说:吸烟会杀死人类,而人类对环境有害,所以吸烟有益环境保护。这一条论断看似非常离谱,但确是一条比较明确的因果推断。
而熬夜容易长胖这一条呢?一种解释方法是,熬夜的人比较容易吃零食,所以会容易胖(因果推断)。但是我们也可以说,工作压力大的人容易熬夜,工作压力大的人运动太少所以会长胖。这时候长胖和熬夜就变成了相关,换句话说,就算你现在不熬夜了,如果你工作压力还是很大,你依然会胖。
在统计学中,我们总是反反复复地和这两个概念打交道。甚至在统计学创建之前,我们就已经开始进行大量这方法的脑力活动–预测。
预测,在很多人看来是一种极度不靠谱的行为。我认同这种不靠谱,或者我们给它换一个好听点的名字:不确定性。这种不确定性是如此的确定,如此的科学,如此的贴近事物本质。尽管人们总是试图去对抗这种不确定性,但不可否认,它是不可战胜的。
但这依旧不能阻止人们去预测 — 以一种更科学的方式。