Stata 16 的功能亮点—北京天演融智软件

　　我们很高兴地向您介绍Sata16的新功能。下面，我们列出了该版本的所有亮点。接下来会介绍更多关于前13个功能。我们介绍每种功能所使用的词语，您也可以在向现有和潜在的Stata用户介绍它们时使用。

　　大多数这些功能都将会使所有学科领域的研究员们感到兴奋。在适当的情况下，我们将强调哪些学科领域是人们最感兴趣的或者提供不同领域的用户如何与该功能相关的建议。我们将发送（单独）列表，按照学科对这些功能进行排序。

　　1. Lasso

　　2. Reporting

　　3. Meta-analysis

　　4. Choice models

　　5. Python integration

　　6. New in Bayesian analysis—Multiple chains, predictions, and more

　　7. Panel-data ERMs

　　8. Import data from SAS and SPSS

　　9. Nonparametric series regression

　　10. Multiple datasets in memory

　　11. Sample-size analysis for confidence intervals

　　12. Nonlinear DSGE models

　　13. Multiple-group IRT models

　　14. xtheckman

　　15. Multiple-dose pharmacokinetic modeling

　　16. Heteroskedastic ordered probit models

　　17. Graph sizes in printer points, centimeters, and inches

　　18. Numerical integration

　　19. Linear programming

　　20. Stata in Korean

　　21. Mac interface now supports Dark Mode and native tabbed windows

　　22. Do-file Editor—Autocompletion and more syntax highlighting

　　1. Lasso

　　Lasso是一种用于模型选择、预测和推断的机器学习技术。

　　新的lasso命令使用线性、泊松、logit或probit回归模型的偏差为连续、计数和二进制结果选择“最佳”预测器。

　　例如，如果输入

　　. lasso linear y x1-x500

　　lasso将选择指定协变量的子集-例如x2，x10，x11和x21。然后，您可以使用标准的predict命令获得y的预测值。

　　如果您有一个二进制或计数的结果，您可以用同样的方法使用lasso logit、lasso probit或lasso poisson。如果您更喜欢使用弹性网络或平方根lasso方法来选择变量，那么可以使用elasticnet或sqrtlasso命令。

　　有时，变量选择或预测是您使用lasso的最终目标。而其他时候，您可能对估算和检验系数感兴趣。Stata 16提供了11个命令，允许您参数估计、标准误差和置信区间，并在使用lasso方法从潜在控制变量中选择的同时，对感兴趣的变量执行检验。这些命令是：dsregress、dslogit、dspoisson、poregress、pologit、popoisson、poivpoisson、xporegress、xpologit、xpopoisson以及xpoivregress.

　　ds系列命令执行double-selection lasso，po系列命令执行partialing-out lasso，以及xpo系列命令执行cross-fit partialing-out lasso。他们对具有连续、二进制和计数结果的模型执行此操作。它们甚至可以在模型中处理内生协变量，以获得连续的结果。目前文献讨论了许多基于lasso的推断方法。我们提供了一些这样的方法，以便研究人员能够选择他们最喜欢的。事实上，文献中还有更多基于lasso的推断方法，研究人员通常可以使用lasso、sqrtlasso和elasticnet中提供的工具来实现其他方法。

　　lasso和elasticnet命令是用于变量选择和预测的标准lasso工具。lasso推断工具实现了主要由计量经济学家开发的新方法。然而，这些推断方法将在所有学科中流行，因为它们提供了一种检验和解释目标变量系数的方法。

　　用户可以在新的lasso参考手册中轻松了解lasso的所有功能。

　　2.报告功能

　　Stata的报告功能允许您创建Word、PDF、Excel和HTML文档，这些文档将Stata结果和图形与格式化的文本和表格结合在一起。无论您创建的文档类型如何，都可以依靠Stata的集成版本控制功能来确保您的报告是可复制的。

　　想要在数据更改时同步更新动态报告吗？Stata的报告功能使这一点变得简单。使用更新的数据集重新运行创建报表的命令或do文件，并自动更新报告中所有Stata结果。

　　当然，Stata16具有新的和改进的报告功能，但同样重要的是，Stata的所有报告功能现在都记录在新的报告参考手册中。本手册包括许多新的示例，用于演示了工作流程，并提供了有关使用Stata自定义创建Word、PDF、Excel和HTML文档的指导。

　　Stata 16中的新报告功能：

　　l dyndoc和markdown命令现在除了以前创建的HTML文档之外，还创建了Word文档。现在，您可以轻松地将所有的Stata输出和带有Markdown格式文本的图形合并，以创建定制的Word文档

　　l Do文件编辑器现在为Markdown语言元素提供语法突出显示。

　　l putdocx命令现在允许您包含页眉、页脚和页码。它使大文本块的编写更加容易。

　　l html2docx命令将HTML文档（包括css）转换为Word文档。

　　l Docx2pdf命令将word文档转换为PDF格式。

　　3. Meta分析

　　Stata16有一套执行meta分析的新命令。这一套命令可以让您探索和组合不同研究的结果。例如，如果您收集了20项关于特定药物对血压影响的研究的结果，您可以总结这些研究，并使用Meta分析估计总体效果。

　　新的Meta分析组件很广泛，但它的独特之处在于它的简洁性。

　　例如，您可以输入

　　. meta set effectsize stderr

　　声明预先计算的效果大小，或使用meta esize从汇总数据来计算效果。使用这种方法，您可以执行随机效应、固定效应或共同效应meta分析。

　　为了估算整体效果大小及其置信区间，获取异质性统计数据等等，只需输入：

　　. meta summarize

　　且可视化结果就像打字一样简单：

　　. meta forestplot

　　但是meta套件提供了更多功能。

　　Meta回归分析和亚组分析可以让您评估研究的异质性。这些可以通过meta regress和meta forestplot, subgroup()或者meta summarize, subgroup()获得。

　　您可以调查潜在的发布偏差。使用meta funnelplot从外观上检查漏斗图的不对称性；使用meta bias正式地检验漏斗图的不对称性；使用meta trimfill的剪补法评估发布的偏差。

　　您甚至可以使用meta summary，cumulative（）执行累积meta分析。

　　所有的meta分析功能都记录在新的meta分析参考手册中。

　　4. 选择模型

　　在Stata16中，我们引入了一套新的统一的命令套件，用于建模选择数据。添加了用于汇总选择数据的新命令。重命名并改进了用于拟合选择模型的现有命令。我们甚至添加了一个新的命令，用于面板数据拟合混合Logit模型。我们在新的“选择模型参考手册”中将它们一起记录下来。

　　这里是最好的部分:在选择合适的模型后，margins起了作用。这意味着您现在可以轻松地解释所选择模型的结果。虽然选择模型中估计的系数通常几乎无法解释，但是margins允许您根据结果询问和回答非常具体的问题。假设您在模拟交通的选择，您可以回答以下问题：

　　•预计有多少比例的旅客选择航空旅行？

　　•每增加1万美元的收入，乘汽车旅行的概率如何变化？

　　•如果机场的等待时间增加30分钟，这对每种交通方式的选择有何影响？

　　还有什么新的部分呢？现在，在拟合选择模型之前，先cmset数据。例如：

　　.cmset personid transportmethod

　　然后，使用cmsummary、cmchoiceset、cmtab和cmsample来探索、汇总和查找您数据中潜在的问题。

　　您可以使用cm系列的估计命令来选择以下选择模型之一：

　　•cmclogit 条件logit（McFadden选择）模型

　　•cmmixlogit 混合logit模型

　　•cmxtmixlogit 面板数据混合logit模型

　　•cmmprobit 多项式Probit模型

　　•cmroprobit 排序Probit模型

　　•cmrologit 排序logit模型

　　与其他命令不同，cmxtmixlogit不仅被重命名和改进。它在Stata16中也是全新的，并且适用于面板数据的混合logit模型。

　　5. Python集成

　　在stata 16中，可以从Stata中嵌入并执行python代码。Stata新的python命令允许您从Stata轻松调用python，并在Stata中输出python结果。

　　您可以交互地或在do文件和ado文件中调用python，以便利用python的广泛语言特性。还可以直接通过Stata执行python脚本文件（.py）。

　　此外，我们还介绍了Stata函数接口（sfi）python模块，它提供了Stata和python之间的双向连接。此模块允许您访问Stata的当前数据集、框架、宏、标量、矩阵、值标签、特征、全局Mata矩阵等。

　　所有这些都意味着您现在可以直接在Stata中使用任何python包。例如，可以使用matplotlib绘制三维图形。可以使用numpy进行数值计算。您可以使用scrappy从网页上抓取数据。可以通过TensorFlow和Scikit Learn访问其他机器学习技术，如神经网络和支持向量机；以及更多的技术。

　　最后，Stata的do文件编辑器现在包含了Python语言的语法突出显示。

　　虽然高级用户和程序员最有可能使用Python集成，但Stata中Python的可用性将激发所有学科领域中的更多的用户。

　　6.贝叶斯分析中的新功能—多链，预测等等）

　　多链条：

　　基于MCMC (Markov chain Monte Carlo)样本的贝叶斯推断只有在Markov链收敛时才有效。评估这种收敛性的一种方法是模拟和比较多个链。

　　新的nchans（）选项可以与bayes:prefix和bayesmh命令一起使用。例如，您可以输入：

　　. bayes, nchains(4): regress y x1 x2

　　将生产四条链。这些链将结合在一起产生更精确的最终结果。然而，在解释结果之前，可以通过图形比较链来评估收敛。还可以使用现在由Bayes报告的Gelman-Rubin收敛诊断来评估收敛性：当模拟多个链时，使用的regress和其他贝叶斯估计命令。当您关心非收敛性时，可以使用bayesstats grubin命令进一步研究，以获得模型中每个参数的单个gelman–rubin诊断。

　　贝叶斯预测：

　　贝叶斯预测是来自后验预测分布的模拟值。这些预测对于检验模型拟合和预测样本外观测很有用。使用bayesmh拟合模型后，可以使用bayespredict来计算这些模拟值或函数，并将它们保存在新的Stata数据集中。例如，您可以输入：

　　. bayespredict (ymin:@min({_ysim})) (ymax:@max({_ysim})), saving(yminmax)

　　来计算模拟值的最小值和最大值。然后，可以使用其他的后置估计命令（如bayesgraph）来获得预测的摘要信息。bayespredict创建的数据集可能包含数据集中每个观测的数千个模拟值。有时，您不需要所有这些单独的值。为了获得后验，如后验均值或中位数，您可以使用bayespredict、pmean或bayespredict、pmedian。或者，您可能对模拟值的随机样本感兴趣。例如，您可以使用bayesreps、nreps（100）来获得100个副本。

　　最后，您可能希望使用后验预测p值，也称为PPPs或贝叶斯预测p值来评估模型的拟合优度。PPPs测量观测数据和复制数据之间的协议，可以使用最新的bayesstats ppvalues命令计算。例如，使用我们前面的示例：

　　. bayesstats ppvalues {ymin} {ymax} using yminmax

　　7.面板数据的ERMs

　　扩展回归模型（ERMs）是上次版本的一个新功能。ERM命令适用于解释观测数据中三个常见问题的模型：内生协变量、样本选择和单独或联合处理。

　　在Stata16中，我们介绍了用于拟合面板数据ERM模型的xtererss、xteintreg、xteprobit和xteoprobit命令。这意味着ERM现在可以解释上面提到的三个问题以及面板内相关性。这些新命令适用于随机效应线性、区间、概率和有序概率回归模型。它们允许一个或所有方程中的随机效应，并且允许随机效应在方程间相互关联。

　　使用观测（非实验）数据的所有学科的研究人员都对ERM模型感兴趣，并对这些命令的新面板数据版本感到兴奋。然而，不同的学科领域对这些模型的讨论也不同。

　　上面，我们提到ERMs模型解决的问题称为内生协变量、样本选择、处理以及面板内相关。虽然这个术语在经济学等一些学科中很常见，但其他学科可能会使用其他术语。

　　•研究人员可能会要求多层次（两层）数据模型来解释组内相关性，而不是面板数据和面板内相关性。

　　•研究人员可能会要求处理未观察到的或未测量到的干扰因子，而不是内生协变量。

　　•与样本选择不同，研究人员可能关注的是信息丢失、不可忽视的无反应或随机丢失的结果（MNAR）的试验。

　　•研究人员可能会询问因果推断或估计平均处理效果（ATEs）的方法，而不是治疗方法。

　　值得注意的是，尽管所有的学科领域都对ERM模型感兴趣，但它们通常使用不同的语言。

　　8.从SAS和SPSS中导入数据

　　通过使用Stata16新的导入SAS和SPSS的命令，您现在可以导入存储成SAS（.sas7bdat）和SPSS（.sav）格式的数据。通过对话框可以在导入数据之前轻松浏览数据，并根据需要选择要加载到Stata中的变量和观察的子集。例如，

　　此外，使用新的import saxport8和export saxport8命令，可以将SAS XPORT版本8的传输文件导入和导出到Stata中。现有的import saxport和export saxport命令与SAS XPORT版本5传输文件一起使用，并已重命名为import saxport5和export saxport5。

　　9.非参数序列回归

　　Stata16中新的npregress系列命令适用于使用多项式、B样条或协变量样条近似因变量平均值的非参数序列回归模型。这意味着您不需要指定任何预定的功能形式。只需指定您希望在模型中包含哪些协变量。例如，键入

　　. npregress series wineoutput rainfall temperature i.irrigation

　　npregress系列报告的不是系数，而是报告结果，连续变量的平均边际效应和分类变量的对比。结果表明，降雨的平均边际效应为1，灌溉的对比度为2。这种对比可以解释为灌溉的平均处理效果。

　　作为非参数回归，未知均值近似为协变量的一系列函数。然而，我们仍然可以从参数模型中得到推论。我们只使用margins。我们可以输入：

　　. margins irrigation, at(temperature=(40(5)90))

　　并得到在40、50、…、90度的温度下进行灌溉的预期效果表。我们可以用marginsplot来绘制结果。

　　更重要的是，npregress系列可以适用于部分参数（半参数）模型。

　　10.内存中的多个数据集

　　现在可以将多个数据集加载到内存中。输入：

　　. use people

　　然后people.dta被载入内存。接下来，输入：

　　. frame create counties

　　. frame counties: use counties

　　内存中有两个数据集。people.dta位于名为default的框架中，countries.dta位于名为countries的框架中。当前的框架仍为default。大多数Stata命令使用当前框架中的数据。例如，如果输入：

　　. list

　　会列出people.dta，如果输入：

　　.frame counties: list

　　然后会列出counties.dta。或者您可以通过键入使counties成为当前框架：

　　.frame change counties

　　现在list就会列出counties数据。

　　导航框架很容易，连接它们也很容易。假设两个数据集都有一个名为countycode的变量，该变量以相同的方式标识县。键入：

　　. frlink m:1 countycode, frame(counties)

　　默认框架中的每个人都会连接到counties框架中的一个县。这意味着您现在可以使用frget命令将变量从countries框架复制到当前框架。或者可以使用frval（）函数直接访问countries框架中变量的值。例如，如果我们将每个人的收入设置到default框架中，在counties框架中有县收入的中位数，那么我们可以通过键入来生成一个包含相对收入的新变量：

　　. generate rel_income = income / frval(counties, median_income)

　　这只是开始。虽然本例中仅使用两个框架，但一次最多可以在内存中有100个框架，并且这些框架之间可以有许多链接。

　　11.置信区间的样本量分析

　　新的ciwidth命令执行精度和样本大小（PrSS）分析，即置信区间（CIs）的样本大小分析。当计划研究时使用此方法，并且希望在使用CIs进行推断时以最佳方式分配资源。换言之，当您想要估计在计划研究中获得所需的CI精度所需的样本量时，可以使用此方法。

　　ciwidth生成的样本大小、精度以及：

　　•一个平均值的CI

　　•一个方差的CI

　　•两个独立均值的CI

　　•两个配对均的CI

　　控制面板界面允许您选择分析类型和输入假设以获得所需的结果。

　　ciwidth允许在可自定义的表和图形中显示结果。

　　ciwidth还为您提供了添加自己方法的工具。