证据中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 视频教程
查看: 2511|回复: 0

单因素回归,多因素cox回归详细解答,包含生存分析,cox回归详解(第三节)

[复制链接]

17

主题

30

帖子

96

积分

注册会员

Rank: 2

积分
96
发表于 2017-11-1 19:54:51 | 显示全部楼层 |阅读模式
相信许多小伙伴们在做多因素回归时候总是看文献的做法,先进行一次单因素回归,然后将单因素回归的有意义的指标纳入多因素回归中,简直就是无脑纳入,只要有意义,全部纳入,而无异议的看都不看就直接扔了,其实这样是不对的,但是这对于你发表论文可能没什么影响,因为很多审稿人根本就不知道多因素回归,(包括多因素logistics回归以及多因素cox回归)的具体定义,也不知道其纳入方法,外国人更是傻傻分不清楚了,但是说归说,我们还是要从本质去学习,了解什么是真理,什么是目的,目的是需要手段去实现的,但是真理才是永恒的。这里重要的一点是单纯纳入单因素分析中有意义的指标进入多因素分析,结果是不靠谱的,因为你很可能将重要的影响因素排除在外!!
举个例子
搜狗截图17年11月01日1901_1.png
这里显然在单因素回归中(此处为单因素logistics回归)年龄是无意义的,但是地球人用脚趾头想想都能知道血脂的异常跟年龄是显著有关的啊,
这里先别着急将年龄从血脂异常候选影响因素中删去,我们再来看看多因素Logistic回归分析结果。SPSS软件的多因素Logistic回归结果显示,55-岁组血脂异常的患病风险是<45岁组的2.093倍。之所以会出现这种现象,是因为在做单因素分析时,往往无法识别混杂因素的存在,而混杂因素很可能会干扰我们关注的变量与结局之间的关系。
搜狗截图17年11月01日1907_2.png
请仔细看这里的解释,55-岁组血脂异常的患病风险是<45岁组的2.093倍(我们并没有说45-55岁之间的人怎么怎么样,因为他p值没意义,so这里的描述要追求真理的情况下,显然需要更加细化的描述,就跟前面蓝字一样的描述,如果你傻傻分不清,论文是初级选手,或者不想写那么细化的论文,想简单点,请参照下图将年龄划出去就行
搜狗截图17年11月01日1941_2.png
就是这里,不要将年龄这个变量纳入分类变量,那么就能显示出你想要的结果)
所以,如果多因素Logistic回归分析时,只纳入单因素分析有统计学意义的自变量,则有时候某些影响因素就没有机会进入多因素模型(比如栗子中的年龄,而年龄确实对血脂异常有影响)。

因此,采用单因素分析进行影响因素的筛选时,应注意适当调整检验水平(P<0.05并不是万能的,影响因素的探索性分析可以适当放开检验水准,比如设定为α=0.10 or 0.15),并结合临床专业(变量与结局之间的关系临床上是否讲得通),选择纳入多因素分析的变量,不要一味地舍弃单因素分析无统计学意义的自变量,要避免漏掉重要的影响因素
逐步回归是否能是万能的呢?
多因素回归分析的变量选择包括很多方法,大家可能用的最多的是逐步回归。为啥逐步回归这么人见人爱呢?小伙伴一定会说方便可靠啊!SPSS软件拖拖拽拽,勾选一下,结果就发出来了,又不用动脑,计算机又不会犯错,多好!事实上没那么简单!
SPSS软件中多因素Logistic逐步回归分析提供了条件参数估计似然比检验(Conditional)、最大偏似然估计似然比检验(LR)、Wald检验3种模型假设检验方法,和向前选择法(Forward)、向后剔除法(Backward两种变量进出方法,一共组合成6种逐步回归变量选择方法

搜狗截图17年11月01日1948_4.png

这里是进入的箭头,步进概率那就是纳入与剔除的p值大小。我用的是spss21中文版,所以跟别人的可能有些不一样

似然比检验因为考虑了整个模型的拟合情况,所以结果比较可靠;Wald检验没有考虑各因素的综合作用,一旦自变量之间存在共线性,结果就不可靠。所以似然比检验成为首选
另外,SPSS软件逐步回归中默认在选入变量的显著水准为0.05,剔除变量的显著性水准为0.10,即所谓的“严进宽出”。一般来说,当两个检验水准接近时效率最高,如需修改,切记进入检验水准<剔除检验水准,以防“死循环”!
2.那是不是设置好逐步回归,直接看结果就好了,其实不然!逐步回归主要是选择那些偏保守的预测变量(通常是在考虑其他变量的基础上),这样做的优势是快速和简单。然而,仅仅依赖统计学方法并不能帮助我们选择最好的模型,因为它也无法告诉我们那些重要变量组合信息(逐步回归只会给出你一个变量组合,这是最优的组合吗?)。
一个更好的方法是使用LASSO(LeastAbsolute Shrinkage and Selection Operator)法来构建模型,这种方法一方面惩罚回归系数的绝对值大小进而实现选择变量(Selection),另一方面降低极端变量的权重(Shrinkage)。
当然,LASSO法对于很多人来说很复杂、搞不懂。我们再来看一个笨办法——拟合所有不同变量组合的模型,记录每种模型的拟合优度(goodness of fit,GOF),然后绘制GOF图。GOF的评价方法有很多,比较常见的是AIC(Akaike Information Criterion)和BIC(Bayesian Information Criterion)。AIC和BIC比较相似,这里我们主要以AIC为例。

AIC是一个相对测量指标,主要用于模型的相互比较,数值越低越好。作者在这篇综述中考虑年龄,收缩压、总胆固醇、高密度脂蛋白、糖尿病、现在吸烟、BMI共7个变量纳入到风险评分中。因此,将会有128个不同变量组合的模型(不考虑交互的前提下)
搜狗截图17年11月01日1909_4.png

图展示了GOF图,使用的是Cox回归模型。预测变量的任何组合中,很明显年龄是最强的因素,包括年龄的模型是最好的,包括BMI但不包括年龄的模型一般是最糟糕的。因此,最好的多因素模型是不包含BMI的其他所有变量的模型。然而,需要明确的是BMI仍然是一个重要的预测因素,比如说,BMI测量比较方便,但是血脂却不方便测量,我们可以考虑用BMI替代血脂
从图2不难看出,GOF图有一个明显的缺点——制作太耗费时间,这才7个变量就有128种组合,如果更多变量呢?相信很多小伙伴头都要大了,但是不可否认,目前我们的研究中变量相对还较少,借助统计软件,GOF图还是比较实用
3. 除了上述的两个方面外,还需要考虑变量之间是否存在交互。如果交互确实存在,那么变量的交互项也需要纳入到预测模型中。当然还有一个比较简单的解决方案,就是分层拟合预测模型。举个栗子,ASSIGN评分对于不同性别就有独立的风险评分(http://www.assign-score.com/)。
总之,变量筛选需要结合临床专业判断和统计学方法,才能选出最好的模型!



注:本文中用的图有一部分是logistics回归,一部分我有点偷懒,所以用了原有数据的cox回归,其实两个回归之间的差别就是最终你观测的变量cox回归是时间连续变量,而logistics回归是二分类变量或者多分类变量罢了。原理都一样

搜狗截图17年11月01日1907_2.png
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Evidencechina Inc.

GMT+8, 2018-12-17 22:20 , Processed in 0.229073 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表