教育装备采购网
第七届图书馆 体育培训

Stata软件探索非参数回归模型的结果

教育装备采购网 2018-11-27 11:39 围观1833次

  在Enrique Pinzon的文章里讨论了当我们不想对函数形式做任何假设时如何进行回归分析——使用npregress命令。使用margins和marginsplot命令,他通过提问和回答有关结果的几个问题得出结论。

  最近,我一直在思考所有不同类型的问题,可以使用非参数回归后或任何类型的回归后的margins来回答。margins和marginsplot是探索模型结果和绘制多种推理的有力工具。在这篇文章中,我将展示如何询问和回答具体的问题,以及如何根据您的非参数回归的结果来探索整个响应面。

  我们使用的数据集包括三个协变量——三个层次连续变量x1、x2和分类变量a。如果您想继续,您可以通过输入以下内容来使用这些数据,

  use http://www.stata.com/users/kmacdonald/blog/npblog

  让我们先来看看我们的模型

  

  在这里,我主要演示如何使用margins。所以在估计标准错误时,我只使用了10个引导复制(一个非常小的数字)。在实际研究中,您肯定希望使用npregress命令和后续的margins命令来进行更多的复制。

  npregress输出包括对x1、x2的影响估计和估计结果的a级别,但是这些估计可能不足以回答我们在研究中需要解决的一些重要问题。下面,我将首先向您们展示如何利用x1,x2和a的不同组合来探索非线性响应面y的期望值。例如,假设您的结果变量是对药物的反应,您想知道一个体重为150磅、胆固醇水平为每毫升220毫克的女性的预期值。那么对于一个具有相同特征的男性呢?这些期望是如何在一系列的体重和胆固醇水平上发生变化的。

  我还将演示如何回答有关人口平均、反事实、治疗效果等问题。这些正是政策制定者所提出的问题类型。平均来说,一个变量如何影响他们感兴趣的人群?举个例子,假设您的结果变量是20多岁的个人的收入。这个群体的预期收入是多少,人口平均值?他们都是高中毕业生,而不是他们所观察到的教育水平,那么他们的期望值if是多少呢?如果他们都是大学毕业生呢?这些价值观在大学教育中的作用有什么不同?

  这些只是您能回答的问题类型的几个例子。我将继续使用下面变量名为x1,x2和a的变量,但是您可以想象相关的问题供您研究。

  探索响应面

  我们可能想知道结果在一个特定的点上的期望值。为了得到y的期望值,当a=1,x1=2和x2=5时,我们可以输入

  

  我们预测在这一点上y=12.7。

  我们可以在另一点处取值,例如,a=2,x1=2,x2=5。

  

  a=2,那么y的期望值是14.8。

  如果当x1=2和x2=5时,我们的兴趣是从a=1到a=2的效果如何?这只是我们之前两个结果差异的对比。使用margins的r.对比运算符,我们可以对这两个值是否相等进行假设检验。

  

  该差分的置信区间不包括0。使用5%显著水平,我们发现预期值对于这两个兴趣点是显著不同的。

  但我们可能对这两点感兴趣。让我们继续保持x2到5,看看x1的取值范围。让我们来估计一下a的三个层级的期望值,换句话说,让我们看一下三维响应面的一部分(x2=5),并检查其他两个变量之间的关系。

  

  

  让我们绘制这些值。

  

  我们发现当x2=5时,y的期望值随着x1的增加而增加,而a=3的期望值比a=1和a=2的期望值都低。

  但是这个模式对于x2的其他值是一样的吗?

  我们只有三个协变量。因此我们可以很容易地探索整个响应面。让我们看一下其他x2的值。

  下面这个命令:

  

  这会产生大量的输出,但是没有让它们显示出来。但这里是图表:

  

  现在我们可以看到响应面随着x2的变化而变化。当x=2时,随着x1的增加,y的期望值会略微增加,但是a的层级几乎没有差别。对于x2=8,a的层级之间的差异更明显,并且看起来有不同的模式,随着x1的增加,然后开始趋于平稳。

  之前我们输入了r(1 2).a来测试a=1和a=2时的期望值的差异。同样的,我们可以输入r(1 3).a来比较a=1和a=3。我们可以通过简单地输入r.a.来进行比较。我们可以在x1和x2的取值范围内实现这一点。我们只要在之前的margins命令中把a变成r.a。

  

  

  输出顶部的图例告诉我们,1._at对应于x1=1和x2=2。值的圆括号,如(2vs1),在表中的每一行的第一个告诉我们哪一个值在该行中被比较。因此,表中的第一行提供了一个测试,比较了当x1=1和x2=2时,a=2和a=1的期望值。必须承认的是这是一个值得关注的问题,而且用图表来解释可能更容易。我们使用marginsplot来用他们的置信区间来绘制这些差异。这一次,让我们使用yline(0)选项在0处添加一条参考线。这允许我们通过检查差异的置信区间是否包括0来直观地执行测试。

  

  在这种情况下,一些置信区间非常狭窄,以至于很难看到。如果我们仔细观察最左边的蓝色点,我们会发现当x1=1和x2=2(对应于上面的第一行)时,比较a=2和a=1的差值的置信区间(对应于上面的第一行)确实包括0。这表明在这些期望值上没有显著的差异。我们可以用同样的方法检查其他点和置信区间。例如,在第三个面板中的红线和点,我们看到从a=1到a=3的移动的影响是负的,并且对于x1值为2, 3和4是显著不同于0的。

  当x1=1时,效果的点估计仍然是负的,但在95%水平上,该效果与0没有显著的不同。但请记住,我们应该大幅增加引导复制的数量,以作出任何可信区间的真实要求。

  到目前为止,我们已经将a=2与a=1进行比较,a=3与a=1进行比较。但我们并不局限于与a=1进行比较。我们可以把1与2和2与3进行比较,如果a的层级有自然的排序,这通常更有意义。为了做到这一点,我们只需在margins命令中用ar代替r。这里没有显示输出,但是如果您有数据,可以试一试。

  人口平均结果

  到目前为止,我们已经讨论了评估您的响应面上的个别点,以及如何在这些点上比较预期值进行测试。现在,让我们换个话题,谈谈人口平均的结果。

  我们需要数据集来代表人口。如果您的数据不正确,您将希望停止我们上面的分析。我们假定我们的数据是有代表性的,这样我们就可以根据平均预测来回答各种问题。

  首先,从这个响应面来看,总体预期人口平均值是多少?

  

  不管生成这个的过程是什么,我们相信15.6是人口的期望值,[15.3, 16.2]是它的置信区间。

我们第一次设定每个人a=1,然后设定每个人a=2,最终每个人a=3时,人口平均数是否不同?让我们看一下这三种预期方法。

  

  我们得到18.4,19.9和8.2。它们看起来不一样。我们再来测试一下。

  

  在因果推理或治疗效果文献中,该方法将被认为是潜在的结果手段,而这些差异将是多值治疗的平均治疗效果。在这里,a=2的平均治疗效果(与a=1对比)是1.5。

  在上一节中,我们看到了不同于x2的值水平的期望值的差异。让我们估计a在不同的x2值下的潜在结果均值和治疗效果。请注意,这些仍然是总体平均值,因为与前一节不同,我们没有将X1设置为任何特定值。相反,预测使用了数据中x1的观测值。

  

  我们先不去看输出,我们来绘制一下这些潜在的结果。

  

  a随着x2增加而增加。当x2=8时,效果最大。现在,我们可以测试x2的每一层级的差异。

  

  

  我们来再看一遍图表

  

  当a=3和a=1时,均值的差异,当x2=2时,处理效果不显著。当x2=5时,a=2与a=1的效果都不一样。所有其他效应与0显著不同。

  总结

  在这篇文章中,我们已经探索了非线性函数的响应面,我们根据非参数回归模型估计了各种各样的人口平均值,我们已经进行了几个测试比较预期值在特定点的响应面和测试比较人口平均值。然而,我们只触及了估计和测试类型的表面,您可以在npregress之后使用margins来获得。还有一些其他的对比操作符,将允许您测试一个大的差异,不同于以前或以后的水平的差异,等等。您还可以使用marginsplot来从不同的角度查看margins命令的结果。例如,如果我们输入marginsplot,bydimension(x1)而不是marginsplot, bydimension(x2),我们从不同的角度看到了我们的非线性响应面。

  无论您使用非参数回归还是别的模型,margins和marginsplot估计都是探索结果、推断和理解您正在研究的变量之间的关系的解决方案。

  

点击进入北京天演融智软件有限公司展台查看更多 来源:教育装备采购网 作者:科学软件网 责任编辑:安健 我要投稿
校体购终极页

相关阅读

版权与免责声明:

① 凡本网注明"来源:教育装备采购网"的所有作品,版权均属于教育装备采购网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:教育装备采购网"。违者本网将追究相关法律责任。

② 本网凡注明"来源:XXX(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。

③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为放弃相关权利。

校体购产品