“等待仍是需要的,万一戈多来了呢”
记秋招获得的 offer 数目为 \(X\) 。给定参数 \(\lambda\) 后,\(X\) 服从参数为 \(\lambda\) 的泊松分布( Poisson distribution): \[ X\mid \lambda \sim Poi(\lambda) \]
显然 \(X\) 的分布取决于参数 \(\lambda\) ,由于该参数扑朔迷离的不确定性,我们引入贝叶斯方法,将参数 \(\lambda\) 视作一个随机变量(random variable)。
先验参数分布
在秋招之前,根据对自身综合能力的评估,我们会自信满满地对参数 \(\lambda\) 做个先验的假设。假定参数 \(\lambda\) 的先验分布(prior distribution)服从伽马分布: \[ \lambda \sim Gamma (\alpha, \beta) \]
查表可知,先验分布的概率密度函数(probability density function)为: \[ f_{\text {prior}}(\lambda)=\frac{\beta^{\alpha}}{\Gamma(\alpha)} \lambda^{\alpha-1} e^{-\beta \lambda}, \quad \lambda>0 \]
似然函数
本以为秋招可以畅通无阻,奈何 offer \(x\) 的观测值(observed values) \(x_{1}, x_{2}, \ldots, x_{n}\) 差强人意。为了简便起见,我们把这一组观测值记为 \(\underline{x}\) . 上述观测值的(联合)似然函数(likelihood function) \(f(\underline{X} \mid \lambda)\) 为: \[ f(\underline{X} \mid \lambda)=\prod_{i=1}^{n} P\left(X_{i}=x_{i}\right)=\prod_{i=1}^{n} \frac{e^{-\lambda} \lambda^{x_{i}}}{x_{i} !} \propto e^{-n \lambda} \lambda ^{\sum x_{i}} \]
后验参数分布
经历了一通笔试面试,饱受打击后,我们不得不调整自己的心理预期。因此,我们要用似然函数对我们之前的先验分布做出修正。根据贝叶斯法则(Bayes' theorem)可知,修正出来的后验分布(posterior distributions) \(f_{\text {post}}(\lambda \mid \underline{X})\) 正比例于似然函数和先验分布 \(f_{\text {prior}}(\lambda)\) 的乘积: \[ f_{\text {post}}(\lambda \mid \underline{X}) \propto f(\underline{X} \mid \lambda) \times f_{\text {prior}}(\lambda) \]
因此: \[ f_{\text {post}}(\lambda \mid \underline{X}) \propto \lambda^{\alpha-1} e^{-\beta \lambda} \times e^{-n \lambda} \lambda ^{\Sigma^{x_{i}}}=\lambda ^{\alpha-1+\sum{x_{i}}} \cdot e^{-(n+\beta) \lambda}, \quad \lambda>0 \]
接着识别后验分布。我们发现,给定观测值 \(\underline{x}\) 的后验分布 \(f_{\text {post}}(\lambda \mid \underline{X})\) 也服从伽马分布: \[ f_{\text {post}}(\lambda \mid \underline{X}) \sim \operatorname{Gamma}\left(\alpha+\sum_{i=1}^{n} x_{i}, \beta+n\right) \]
损失函数
在贝叶斯统计里,为得到参数 \(\lambda\) 的贝叶斯估计量(Bayesian estimate)需要先指定一个损失函数(The loss function)\(L(g(\underline{x}), \theta)\),用于判断参数估计值和真值之间的误差可能带来的损失。这里我们选择最常用的损失函数:平方损失函数(quadratic loss)。平方损失函数下的贝叶斯估计量 \(E(\lambda \mid \underline{x})\) 是后验分布的数学期望,即: \[ E(\lambda \mid \underline{x})=\frac{\alpha+\sum_{i=1}^{n} x_{i}}{\beta+n} \]
贝叶斯估计
我们将上式写成信度保费公式(The credibility premium formula) \(Z \bar{X}+(1-Z) \mu\) 的形式: \[ E(\lambda \mid \underline{x})=Z \frac{\sum_{i=1}^{n} x_{i}}{n}+(1-Z) \frac{\alpha}{\beta} \]
上式中,\(\frac{\sum_{i=1}^{n} x_{i}}{n}\) 为观测值的均值 \(\bar{X}\), \(\frac{\alpha}{\beta}\) 为先验分布的期望,\(Z=\frac{n}{\beta+n}\) .
就这样,基于先验信息和历史数据,我们终于估计出了未来一年秋招offer数目的期望值。
你也终于听懂了HR的好人卡:「你的表现很优秀,但是今年公司不招人」「你还年轻,应该到外面闯一闯」
相关知识点
本文的知识点对应 CS1 2019 版 CMP 的以下章节:
- Ch13 Bayesian statistics
- Ch14 Credibility theory
正在检查 Disqus 能否访问...