教育装备采购网
第七届图书馆 体育培训

Stata软件关于贝叶斯统计介绍:基本概念

教育装备采购网 2017-09-21 15:52 围观853次

  本文非技术性的介绍贝叶斯统计。贝叶斯统计方法变得越来越受欢迎,在Stata中,您可以使用bayesmh命令拟合贝叶斯模型。这篇文章简单的介绍下贝叶斯统计的概念和术语,以及bayesmh语法。

  通过实例介绍贝叶斯统计

  我们中的大多数人都学习过概率统计法,虽然不知道具体数量,但是参数会被看作是固定的。我们可以通过一个人口的样本来估计参数,但是不同的样本会有不同的估计。这些不同估计的分布被称为抽样分布,它量化了我们估计的不稳定性。但是参数本身仍然被认为是固定的。

  贝叶斯统计方法是一种不同的统计思维方式。参数被视为随机变量,可以用概率分布来描述。我们甚至不需要数据来描述一个参数的分布,概率只是我们信任的程度。

  让我们通过一个硬币投掷的例子来分析一下我们的直观感觉。我会把硬币的两面称为“头”和“尾”,如果我将硬币投掷到空中,它落地时必须是 “头”或“尾”在上面。我使用θ表示硬币“头”在上面的概率。

  先验分布

  贝叶斯例子的第一步就是定义一个先验分布θ。先验分布是关于参数分布的数学表达式。先验分布可以根据我们的经验或假设来设定这个参数,甚至是简单的猜测。我可以用一个统一的分布来表示我的信念,“头”在上面的概率为0到1之间任意数字。图1表示参数1和1的Beta分布,相当于0到1区间上均匀分布。

  Figure 1: Uninformative Beta(1,1) Prior

  

  Beta(1,1)分布被称为无信息先验,因为参数的所有值都有相等的概率。一般意义来说,“头”在上面的概率接近0.5,通过增加我的Beta分布,我可以用数学的方法表达这个信念。图2表示的是参数为30和30的Beta分布。

  Figure 2: Informative Beta(30,30) Prior

  

  图2被称为信息先验,因为所有的参数值没有相等的概率。

  似然函数

  第二步就是收集数据,并定义一个似然函数。再比如,我投掷硬币10次,有4次是“头”在上面。然后在Stata中输入我的结果,这样以后我就可以使用这个数据了。

  Code block 1: globala.do

  

  接下来,我需要为我的数据指定一个似然函数。概率分布为给定的参数值P(y|θ)量化数据概率,而似然函数量化给定数据L(θ|y))参数值的可能性。这两个函数形式相同,表达式也可以经常互换,也就是P(y|θ)=L(θ|y)。

  二项概率分布经常被用来从固定的实验数量中量化成功数量的概率。在这里,我可以使用二项似然函数来量化我的实验结果,量化10次投掷4次“头”在上面的θ的可能性。图3中蓝色的线条表示二项似然函数θ。我重新调整似然函数的图形,使得曲线下的区域面积为1. 这可以让我对似然函数和红色线条的先验分布做比较。

  Figure 3: The Binomial(4,10,θ) Likelihood Function and the Beta(30,30) Prior Distribution

  

  后验分布

  第三步就是计算后验分布,让我们根据参数实验结果整理一下我们的信念。在简单的情况下,我们可以通过将先验分布和似然函数相乘来计算后验分布。从技术上讲,后验

  跟先验和似然的乘积是成比例的。

  

  在这个例子中,对于二项似然函数,beta分布被称为“共轭先验”,因为后验分布跟先验分布一样属于同一分布族。先验分布和后验分布都有beta分布。图4显示了θ的后验分布的先验分布和似然函数。

  Figure 4: The Posterior Distribution, the Likelihood Function, and the Prior Distribution

  

  注意后验和先验分布相似,这是因为我们用了先验信息和一个相对较小的样本量。

  我们探讨一下不同的先验信息和样本大小的后验分析的影响,图5中红线表示完全无信息的Beta(1,1)前验,蓝色线条表示的是似然函数。您看不到蓝色的线条,因为它被表示后验分析的黑色线条完全覆盖了。

  Figure 5: The Posterior Distribution For a Beta(1,1) Prior Distribution

  

  这是贝叶斯统计的重要特征:当我们使用完全无信息先验时,后验分布通常等于似然函数。动画图1表示更多的先验信息,将对一个给定样本的后验分布影响较大。

  Animation 1: The effect of more informative prior distributions on the posterior distribution

  

  动画图2表示样本数量越大,对一个给定先验分布的后验分布,似然函数影响更大。

  Animation 2: The effect of larger sample sizes on the posterior distribution

  

  在实践中,这意味着使用较少的样本量时,使用更多的先验信息,可以减少后验分布的标准偏差。但是当标准偏差减小,我们使用弱或无信息先验时,可能需要较大的样本量。计算完后验分布后,我们可以计算后验分布的平均值或中位数,95%的等尾置信区间,区间和其他统计学中的θ概率。

  Bayesmh案例

  使用Stata的bayesmh命令来分析投掷硬币实验。记得在上面的变量中保存了“头”在上面的数据。Example 1中的bayesmh命令,我用{theta}表示我们的参数,指定Bernoulli似然函数,使用无信息先验分布beta(1,1)。

  Example 1: Using bayesmh with a Beta(1,1) prior

  

  让我们专注于系数表,忽略其他的输出。这些输出告诉我们,后验分布平均值为0.41,中位数也为0.41。后验分布的标准偏差为0.14,95%的置信区间为[0.16–0.68].我们可以自己喜欢的方式解释置信区间: 有95%的可能,θ落在置信区间内。

  我们还可以计算出θ在任意区间的可能性,比如:我们可以使用bayestest区间来计算θ位于0.4到0.6之间的可能性。

  Example 2: Using bayestest interval to calculate probabilities

  

  我们的结果表明,θ位于0.4到0.6之间的可能性为43%。

  为什么使用贝叶斯统计?

  贝叶斯统计法有很多吸引人的特点。最吸引人的特点是以前研究中的后验分布经常作为后续研究的先验分析。比如:我们可能会进行一项小规模的试验研究,使用无信息先验分布和在试验研究中使用后验分布作为先验分布的主要研究。这个方法大大提高了主要研究的精确度。

  总结

  在这篇文章中,我们重点介绍了贝叶斯统计的概念和术语,并用Stata bayesmh命令来学习一个简单的实例。在下篇文章中,我们将探讨使用Metropolis–Hastings的MCMC算法。

点击进入北京天演融智软件有限公司展台查看更多 来源:教育装备采购网 作者:中国科学软件网 责任编辑:李瑶瑶 我要投稿
校体购终极页

相关阅读

版权与免责声明:

① 凡本网注明"来源:教育装备采购网"的所有作品,版权均属于教育装备采购网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:教育装备采购网"。违者本网将追究相关法律责任。

② 本网凡注明"来源:XXX(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。

③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为放弃相关权利。

校体购产品