77百科网
当前位置: 首页 生活百科

十六种常用数据分析(16种常用的数据分析方法-生存分析)

时间:2023-07-30 作者: 小编 阅读量: 3 栏目名: 生活百科

在生存分析中,研究的主要对象是寿命超过某一时间的概率。生存分析主要方法生存分析方法可以分为描述法、参数法、半参数法和非参数法。


探究变量之间的关系是数据挖掘中的一个基本分析内容,对于常规的离散型或者连续型变量,有很多的方法可以用于挖掘其中的关系,比如线性回归,逻辑回归等等。然而有一类数据非常的特殊,用回归分析等常用手段出处理这类数据并不合适,这类数据就是生存数据。


常规数据在表示时,只需要一个值,比如患者的血压,性别等数据,不是连续型就是离散型;生存数据则有两个值,第一个是生存时间,可以看做是一个连续型的变量,第二个是生存事件,可以看做是离散型的变量。


比如分析治疗后的患者生存情况,在观测期间,可以看到不同患者的存活时间,这个值就是生存时间,而有些患者可能在观察期内出现死亡,复发等情况,死亡或者复发则称之为事件。


生存分析是既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。










生存资料分析




生存分析就是针对生存资料的分析。所谓生存资料就是描述寿命或者一个发生时间的数据。更详细的说一个人的生存时间的长短与许多因素有联系的,研究因素与生存时间的联系有无及程度大小,就是生存分析。


生存资料不同于其它分析资料,有一个特殊的地方就是缺失值的处理,对于常规数据,缺失值很多时可以直接丢掉,只有少量缺失值时可以用算法进行填补,而生存数据中的缺失值则不同。


在观测期间,患者可能出现了其他的事件导致后续得不到对应的生存数据,比如患者出现意外事故身亡了,后续的生存数据就会缺失,很显然生存数据是不能用算法填补的,一定要是实际观测的结果。


但是这个数据也不能直接丢掉,因为从观测开始到患者意外身亡的这段时间内的生存数据是有意义的,在进行生存分析时,这部分数据也可以利用起来。











应用场景





生存可以指人或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常工作(相对于失效或故障),甚至可是是客户的流失与否等。


在生存分析中,研究的主要对象是寿命超过某一时间的概率。还可以描述其他一些事情发生的概率,例如产品的失效、出狱犯人第一次犯罪、失业人员第一次找到工作等等。


在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等。


在医学研究中,常常用追踪的方式来研究事物发展的规律。如,了解某药物的疗效,了解手术的存活时间,了解某医疗仪器设备使用寿命等等。










生存分析主要内容





生存分析的主要内容包括:


l描述生存过程,即研究生存时间的分布规律


l比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较


l分析危险因素,即研究危险因素对生存过程的影响


l建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。










生存分析主要方法




生存分析方法可以分为描述法、参数法、半参数法和非参数法。


1.描述法

根据样本观测值提供的信息,直接用公式计算出每一个时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式显示生存时间的分布规律。


优点:方法简单且对数据分布无要求


缺点:不能比较两组或多组生存时间分布函数的区别,不能分析危险因素,不能建立生存时间与危险因素之间的关系模型。



2.非参数法

估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。


常用方法:乘积极限法、寿命表法


优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,对生存时间的分布没有要求。


缺点:不能建立生存时间与危险因素之间的关系模型。



3.参数法

根据样本观测值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。


生存时间经常服从的分布有:指数分布、Weibull分布、对数正态分布、对数Logistic分布、Gamma分布。


优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型。


缺点:需要事先知道生存时间的分布



4.半参数法

不需要对生存时间的分布做出假定,但是却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响,最著名的就是COX回归。


优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型,不需要事先知道生存时间的分布。









生存分析案例




研究性别对于肺病生存率有无区别,收集数据下列信息


time:生存时间(单位天)

status:0=存活,1=死亡

sex:1=男,2=女



操作步骤


1)按步骤将数据导入




2)选定寿命表分析方法




3)对各选项进行设置


其中注意状态设置:选取表示事件已发生的值




4)设置完所有选项后确认,得到结果


存活表:该表给出了男女对应时间内存活和死亡人数,并计算了存活率、风险比等统计量



中位数生存时间:即生存率为50%时,生存时间的平均水平;


由此可知:生存时间的平均水平女士高于男士


生存函数:男士较女士累计生存率下降快




    推荐阅读
  • 人工骨头是怎么制造的(三口品牌故事三口伯伯说)

    ——206个“骨头”兄弟大家好,我是三口伯伯。很多人都不知道,我们在成长的过程中骨头的数量居然减少了。所以呢,理论上我们成年以后拥有206块骨头,这206块骨头就是我们的骨骼系统,也昵称为“206骨兄弟”。脑面颅骨二十三,躯干总共五十一。四肢一百二十六,全身骨头基本齐。下周三口伯伯将给大家讲讲每个部分的骨头与我们之间的关系。记得下周二,与三口伯伯爱护骨骼健康的约会咯,下周见。

  • 孙娜恩长大后的样子(狠批孙娜恩演技连李宝英的20)

    2020年,金世正推出新作《驱魔面馆》,与赵炳圭、廉惠兰等实力派演员搭档合作,不过金世正的气焰却没被盖过,成功收获演技好评,该剧也创下OCN电视台历代最高收视!而金世正也继续延续好口碑,以《社内相亲》创下演艺事业巅峰,与安孝燮共组的「始祖鸟CP」,更是至今仍深受喜爱!

  • 野樱桃泡酒的功效与作用(野樱桃泡酒的功效与作用是什么)

    下面希望有你要的答案,我们一起来看看吧!野樱桃泡酒的功效与作用樱桃可以用来泡酒的,樱桃酒中含有丰富的铁元素,是合成人体血红蛋白、肌红蛋白的原料,在人体免疫、蛋白质合成及能量代谢等过程中,发挥重要作用。常饮樱桃酒可补充人体对铁元素量的需求,促进血红蛋白再生,让皮肤红润有光泽。麻疹流行时,饮用樱桃汁或者全汁发酵酿造的樱桃酒能够预防感染。

  • 福建最美古树群(福建发现一罕见古树群)

    红豆杉,生长在地球上已经有250万年了,由于其生长缓慢,再生能力差,被世界公认濒临灭绝的植物,被我国认定为一级珍稀濒危保护植物,所以有着“植物大熊猫”的称号。2022年8月拍摄于福建邵武市。当然,当地有关部门对森林的保护也是起到了关键性的作用。这是有着800多年树龄的杜英树,据福建林业厅认定,这是整个福建境内树龄最大的杜英树,被称为“福建杜英王”。

  • 国家秘密及其密级的具体范围由国家哪一机关确定

    根据《中华人民共和国保守国家秘密法》第十一条:国家秘密及其密级的具体范围,由国家保密行政管理部门分别会同外交、公安、国家安全和其他中央有关机关规定。国家秘密及其密级的具体范围的规定,应当在有关范围内公布,并根据情况变化及时调整。保守国家秘密是中国公民的基本义务之一。国家秘密事项的密级一经确定,就要在秘密载体上作出明显的标志。

  • 关于跨年说说心情短语(关于跨年说说心情短语介绍)

    人依旧,物依旧,2022年,一起敞开双手迎接吧。祝前程无量,喜悦丰收。已经渐行渐远,2022已经悄然而至,不要为失去的东西或者人再感伤了。冬尽春来,再添新岁。逐梦路上,我们又一次站上新的时间起点。值此辞旧迎新之际,向大家致以最美好的新春祝福!辛勤汗水浇灌成功的幼苗,智慧的力量引来蜂蝶飞舞,同心协力共同奋斗,终于赢得硕果满园。愿2022年再把新功建,迎接美好的明天!我想真正拥有属于自己的,属于自己的事业。

  • 一个金字旁一个玉是什么字(一个金字旁一个玉这个字怎么组词)

    一个金字旁旁边一个玉是钰读音:yù,下面我们就来说一说关于一个金字旁一个玉是什么字?我们一起去了解并探讨一下这个问题吧!

  • 三国杀全部武将技能介绍(这些武将都患有)

    然而棘手的是,赵统赵广是一个典型的摸牌白,而觉醒必须依赖手牌才能做到。然而如果没有人包养,赵统赵广这个组合将的觉醒就非常困难,往往两到三轮以后才能做到。然而,困扰司马懿最深的,还是觉醒的问题。