Stata软件关于贝叶斯统计介绍：基本概念

　　本文非技术性的介绍贝叶斯统计。贝叶斯统计方法变得越来越受欢迎，在Stata中，您可以使用bayesmh命令拟合贝叶斯模型。这篇文章简单的介绍下贝叶斯统计的概念和术语，以及bayesmh语法。

　　通过实例介绍贝叶斯统计

　　我们中的大多数人都学习过概率统计法，虽然不知道具体数量，但是参数会被看作是固定的。我们可以通过一个人口的样本来估计参数，但是不同的样本会有不同的估计。这些不同估计的分布被称为抽样分布，它量化了我们估计的不稳定性。但是参数本身仍然被认为是固定的。

　　贝叶斯统计方法是一种不同的统计思维方式。参数被视为随机变量，可以用概率分布来描述。我们甚至不需要数据来描述一个参数的分布，概率只是我们信任的程度。

　　让我们通过一个硬币投掷的例子来分析一下我们的直观感觉。我会把硬币的两面称为“头”和“尾”，如果我将硬币投掷到空中，它落地时必须是 “头”或“尾”在上面。我使用θ表示硬币“头”在上面的概率。

　　先验分布

　　贝叶斯例子的第一步就是定义一个先验分布θ。先验分布是关于参数分布的数学表达式。先验分布可以根据我们的经验或假设来设定这个参数，甚至是简单的猜测。我可以用一个统一的分布来表示我的信念，“头”在上面的概率为0到1之间任意数字。图1表示参数1和1的Beta分布，相当于0到1区间上均匀分布。

　　Figure 1: Uninformative Beta(1,1) Prior

　　Beta(1，1)分布被称为无信息先验，因为参数的所有值都有相等的概率。一般意义来说，“头”在上面的概率接近0.5，通过增加我的Beta分布，我可以用数学的方法表达这个信念。图2表示的是参数为30和30的Beta分布。

　　Figure 2: Informative Beta(30,30) Prior

　　图2被称为信息先验，因为所有的参数值没有相等的概率。

　　似然函数

　　第二步就是收集数据，并定义一个似然函数。再比如，我投掷硬币10次，有4次是“头”在上面。然后在Stata中输入我的结果，这样以后我就可以使用这个数据了。

　　Code block 1: globala.do

　　接下来，我需要为我的数据指定一个似然函数。概率分布为给定的参数值P(y|θ)量化数据概率，而似然函数量化给定数据L(θ|y))参数值的可能性。这两个函数形式相同，表达式也可以经常互换，也就是P(y|θ)=L(θ|y)。

　　二项概率分布经常被用来从固定的实验数量中量化成功数量的概率。在这里，我可以使用二项似然函数来量化我的实验结果，量化10次投掷4次“头”在上面的θ的可能性。图3中蓝色的线条表示二项似然函数θ。我重新调整似然函数的图形，使得曲线下的区域面积为1. 这可以让我对似然函数和红色线条的先验分布做比较。

　　Figure 3: The Binomial(4,10,θ) Likelihood Function and the Beta(30,30) Prior Distribution

　　后验分布

　　第三步就是计算后验分布，让我们根据参数实验结果整理一下我们的信念。在简单的情况下，我们可以通过将先验分布和似然函数相乘来计算后验分布。从技术上讲，后验

　　跟先验和似然的乘积是成比例的。

　　在这个例子中，对于二项似然函数，beta分布被称为“共轭先验”，因为后验分布跟先验分布一样属于同一分布族。先验分布和后验分布都有beta分布。图4显示了θ的后验分布的先验分布和似然函数。

　　Figure 4: The Posterior Distribution, the Likelihood Function, and the Prior Distribution

　　注意后验和先验分布相似，这是因为我们用了先验信息和一个相对较小的样本量。

　　我们探讨一下不同的先验信息和样本大小的后验分析的影响，图5中红线表示完全无信息的Beta(1，1)前验，蓝色线条表示的是似然函数。您看不到蓝色的线条，因为它被表示后验分析的黑色线条完全覆盖了。

　　Figure 5: The Posterior Distribution For a Beta(1,1) Prior Distribution

　　这是贝叶斯统计的重要特征：当我们使用完全无信息先验时，后验分布通常等于似然函数。动画图1表示更多的先验信息，将对一个给定样本的后验分布影响较大。

　　Animation 1: The effect of more informative prior distributions on the posterior distribution

　　动画图2表示样本数量越大，对一个给定先验分布的后验分布，似然函数影响更大。

　　Animation 2: The effect of larger sample sizes on the posterior distribution

　　在实践中，这意味着使用较少的样本量时，使用更多的先验信息，可以减少后验分布的标准偏差。但是当标准偏差减小，我们使用弱或无信息先验时，可能需要较大的样本量。计算完后验分布后，我们可以计算后验分布的平均值或中位数，95%的等尾置信区间，区间和其他统计学中的θ概率。

　　Bayesmh案例

　　使用Stata的bayesmh命令来分析投掷硬币实验。记得在上面的变量中保存了“头”在上面的数据。Example 1中的bayesmh命令，我用{theta}表示我们的参数，指定Bernoulli似然函数，使用无信息先验分布beta(1,1)。

　　Example 1: Using bayesmh with a Beta(1,1) prior

　　让我们专注于系数表，忽略其他的输出。这些输出告诉我们，后验分布平均值为0.41，中位数也为0.41。后验分布的标准偏差为0.14，95%的置信区间为[0.16–0.68].我们可以自己喜欢的方式解释置信区间: 有95%的可能，θ落在置信区间内。

　　我们还可以计算出θ在任意区间的可能性，比如：我们可以使用bayestest区间来计算θ位于0.4到0.6之间的可能性。

　　Example 2: Using bayestest interval to calculate probabilities

　　我们的结果表明，θ位于0.4到0.6之间的可能性为43%。

　　为什么使用贝叶斯统计?

　　贝叶斯统计法有很多吸引人的特点。最吸引人的特点是以前研究中的后验分布经常作为后续研究的先验分析。比如：我们可能会进行一项小规模的试验研究，使用无信息先验分布和在试验研究中使用后验分布作为先验分布的主要研究。这个方法大大提高了主要研究的精确度。

　　总结

　　在这篇文章中，我们重点介绍了贝叶斯统计的概念和术语，并用Stata bayesmh命令来学习一个简单的实例。在下篇文章中，我们将探讨使用Metropolis–Hastings的MCMC算法。