14 Jul 2019

为什么拒绝掉前37%的追求者是错的

Problem Formulation

假设你一辈子可以遇到 100 个潜在配偶，在遇到每一个潜在配偶的时候，你只能选择接受或者拒绝。如果你选择接受，则意味着你放弃了后面所有潜在的配偶；而如果你选择拒绝，则不能反悔，只能在后面的潜在配偶中选择，这也意味着如果你不小心拒绝了 the right one，你永远不能再和 TA 在一起了。现在的问题是，选择和第几个潜在追求者在一起是最佳策略？

这个问题的原型是 Secretary problem。而答案则是，一个神奇的数字–37%。数学家证明了，你应该先拒绝掉前 37%的人，然后从这开始，只要遇到一个比这前 37%的人都好的任何一个人，就选 TA。

而有一些文章说，找对象也和找秘书一样，服从这个 37%的魔数。

你可以这么来理解，假设起初你是个懵懵懂懂的男生，你对女孩儿一般都啥样一无所知，也不知道谈恋爱是干什么的，这时候你对女生的信念是无从建立的（我喜欢用信念这个词，其实就是概率分布的意思）。所以你应该干嘛呢？你应该采样，先采集一些样本，对女生建立起一种信念，这样你就知道女生一般都啥样儿，好姑娘大概啥样儿，矫情的姑娘啥样儿等等。

再说一遍，被你拒绝掉的前 37%，其实就是你的样本空间，用于刻画在你身边潜在的女生的概率分布，这帮助你在未来能客观地评价你遇到的每一个妹子。

批判

我可不是来给这种择偶方式来点赞的，而是来批判它的，从数学角度批判它。这种择偶方式存在很多漏洞，而这些漏洞都源自于其基于错误的假设。

首先，你不知道你这辈子会遇到多少潜在对象，所以你不知道哪个是第 37%个。

其次，谁说你不能反悔的，如果你找到了 80%的地方，却发现还是第一个最好，那就找第一个呗。

上面两条都不是最重要的，这种方式最大的错误是它基于一种「所有人都满足同一个分布」的巨大错误假设。如果你是变化的，你的环境是变化的，那你遇到的潜在对象就不是同分布的，你在高中遇到的女生和你在工作中遇到的女生就不是同分布的。

你带着不同的目的会遇到不同分布的潜在对象；你在不同的年龄和状态会遇到不同分布的潜在对象；你通过不同的途径也会遇到不同分布的潜在对象。

所以比拒掉前 37% 更有用的，是找到那个更好的分布，而不是只盯着样本。这反映了人们对待统计的一个巨大的认识误区：大家往往认为是样本形成了分布，其实是分布 generate 了样本。分布才是根本，而样本只是偶然的表象。

其实，这篇文章才不是在讲怎么找对象呢。

硕大的汤姆

为什么拒绝掉前37%的追求者是错的

Problem Formulation

批判