77百科网
当前位置: 首页 生活百科

十六种常用数据分析(16种常用的数据分析方法-生存分析)

时间:2023-07-30 作者: 小编 阅读量: 1 栏目名: 生活百科

在生存分析中,研究的主要对象是寿命超过某一时间的概率。生存分析主要方法生存分析方法可以分为描述法、参数法、半参数法和非参数法。


探究变量之间的关系是数据挖掘中的一个基本分析内容,对于常规的离散型或者连续型变量,有很多的方法可以用于挖掘其中的关系,比如线性回归,逻辑回归等等。然而有一类数据非常的特殊,用回归分析等常用手段出处理这类数据并不合适,这类数据就是生存数据。


常规数据在表示时,只需要一个值,比如患者的血压,性别等数据,不是连续型就是离散型;生存数据则有两个值,第一个是生存时间,可以看做是一个连续型的变量,第二个是生存事件,可以看做是离散型的变量。


比如分析治疗后的患者生存情况,在观测期间,可以看到不同患者的存活时间,这个值就是生存时间,而有些患者可能在观察期内出现死亡,复发等情况,死亡或者复发则称之为事件。


生存分析是既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。










生存资料分析




生存分析就是针对生存资料的分析。所谓生存资料就是描述寿命或者一个发生时间的数据。更详细的说一个人的生存时间的长短与许多因素有联系的,研究因素与生存时间的联系有无及程度大小,就是生存分析。


生存资料不同于其它分析资料,有一个特殊的地方就是缺失值的处理,对于常规数据,缺失值很多时可以直接丢掉,只有少量缺失值时可以用算法进行填补,而生存数据中的缺失值则不同。


在观测期间,患者可能出现了其他的事件导致后续得不到对应的生存数据,比如患者出现意外事故身亡了,后续的生存数据就会缺失,很显然生存数据是不能用算法填补的,一定要是实际观测的结果。


但是这个数据也不能直接丢掉,因为从观测开始到患者意外身亡的这段时间内的生存数据是有意义的,在进行生存分析时,这部分数据也可以利用起来。











应用场景





生存可以指人或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常工作(相对于失效或故障),甚至可是是客户的流失与否等。


在生存分析中,研究的主要对象是寿命超过某一时间的概率。还可以描述其他一些事情发生的概率,例如产品的失效、出狱犯人第一次犯罪、失业人员第一次找到工作等等。


在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等。


在医学研究中,常常用追踪的方式来研究事物发展的规律。如,了解某药物的疗效,了解手术的存活时间,了解某医疗仪器设备使用寿命等等。










生存分析主要内容





生存分析的主要内容包括:


l描述生存过程,即研究生存时间的分布规律


l比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较


l分析危险因素,即研究危险因素对生存过程的影响


l建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。










生存分析主要方法




生存分析方法可以分为描述法、参数法、半参数法和非参数法。


1.描述法

根据样本观测值提供的信息,直接用公式计算出每一个时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式显示生存时间的分布规律。


优点:方法简单且对数据分布无要求


缺点:不能比较两组或多组生存时间分布函数的区别,不能分析危险因素,不能建立生存时间与危险因素之间的关系模型。



2.非参数法

估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。


常用方法:乘积极限法、寿命表法


优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,对生存时间的分布没有要求。


缺点:不能建立生存时间与危险因素之间的关系模型。



3.参数法

根据样本观测值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。


生存时间经常服从的分布有:指数分布、Weibull分布、对数正态分布、对数Logistic分布、Gamma分布。


优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型。


缺点:需要事先知道生存时间的分布



4.半参数法

不需要对生存时间的分布做出假定,但是却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响,最著名的就是COX回归。


优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型,不需要事先知道生存时间的分布。









生存分析案例




研究性别对于肺病生存率有无区别,收集数据下列信息


time:生存时间(单位天)

status:0=存活,1=死亡

sex:1=男,2=女



操作步骤


1)按步骤将数据导入




2)选定寿命表分析方法




3)对各选项进行设置


其中注意状态设置:选取表示事件已发生的值




4)设置完所有选项后确认,得到结果


存活表:该表给出了男女对应时间内存活和死亡人数,并计算了存活率、风险比等统计量



中位数生存时间:即生存率为50%时,生存时间的平均水平;


由此可知:生存时间的平均水平女士高于男士


生存函数:男士较女士累计生存率下降快




    推荐阅读
  • 脂肪肝喝什么茶(脂肪肝喝什么茶最好最有效)

    5、苦丁茶,其含有苦丁,氨基酸,维生素c,多酚类,黄酮类,咖啡碱,蛋白质等多种成分,具有生津止渴,消食提神,降压脂的功效。

  • 七夕女送男什么礼物 七夕女送男什么礼物好

    属于实用性的礼物。投其所好,又能让他强身健体。

  • 薇甘菊入侵原因(薇甘菊疯狂)

    薇甘菊是我国首批外来入侵物种之一。粗略估计,仅珠三角地区每年因为薇甘菊的泛滥造成生态经济损失约5亿元;在整个分布区,导致直接与间接经济损失估计高达数十亿元。与对照组相比,薇甘菊根际土壤明显地富集了与微生物氮固定相关的关键酶,同时减少了反硝化细菌的丰度。

  • 光导照明内幕大揭秘(追光逐亮照明用具简史)

    不过在历史上,火炬确实是人类较早使用的可移动的照明工具。巨,表示可以持举的草料火把。这盏豪华落地灯整体结构稳重,设计巧妙,风格活泼,堪称实用器具与审美艺术的完美结合。早期蜡烛是以蜂蜡制作,数量较少非常珍贵。蜡烛出现结束了油灯一统天下的局面,贫富之间在照明用具上出现分化,富贵之家用蜡烛,贫穷之家点油灯,即所谓“富人燃蜡,寒士点灯”。动物油脂除了常见的家畜之外,还有很罕见的品种。

  • 牛肉片炖白萝卜怎么做既简单好吃(白萝卜炖牛肉在家做)

    牛肉片炖白萝卜怎么做既简单好吃?牛肉片炖白萝卜怎么做既简单好吃牛肉洗净后切成大小适中的块儿,我怕不好烂,切得相对小些。我选择的牛上脑肉。锅里加清水,可以多加些,后面留着原汤炖。牛肉和清水一起下锅,加点儿姜块、葱段煮开就好。我忘记拍了那原汤准备好姜片,葱花,三五干红辣椒切段,香叶2、3片,花椒10粒儿左右,大料一个整朵儿,冰糖三五块。

  • 电脑有没有什么好的软件管家(电脑软件库哪个好)

    电脑软件库哪个好不管是在使用手机的时候,还是在使用电脑的时候,软件一定都是我们手机和电脑上必备的工具,因为有了软件我们才能够更加轻松地去使用手机和电脑而电脑上一旦有了软件,那么软件管理这个需求就变得也很重要了,尤其是。

  • 看懂这三个生肖女的脾气(脾气火爆的三个生肖女)

    如果冒犯了她们,将处于攻击的边缘。但是不可否认的事实是,她们是典型的刀子嘴豆腐心。她也因旺夫而出名。一旦她们被激怒,那绝对是一场灾难。她们不会被任何困难打败。她们经常主动与丈夫“争吵”。她们不高兴会立即爆发。婚后,她们会与丈夫“争吵”,但她们会给丈夫带来无尽的好运。她们会做自己想做的任何事,不会给丈夫带来负担。在享受美好生活的同时,高生活经常给丈夫带来实际的帮助。让丈夫在事业上更上一层楼。

  • 卡地亚创建于哪个国家 卡地亚创建于哪一年

    卡地亚创建于法国。卡地亚是法国的奢侈品品牌,主要从事钟表及珠宝的制造,经营的产品包括珠宝、钟表、皮具、香氛等。1847年,路易-弗朗索瓦卡地亚在巴黎创立卡地亚品牌。1874年,其子亚法卡地亚继承其管理权,由其孙子路易卡地亚、皮尔卡地亚与积斯卡地亚将其发展成世界著名品牌。1994年,卡地亚当代艺术基金会搬迁至巴黎拉斯帕伊大道261号。

  • 网红香奈儿是真的吗(重庆女大学生每天发朋友圈)

    今天的庭审中,安小姐并未出面,其代理人出庭应诉。为此,翟女士认为对方销售存在欺诈行为,将“小丫头美国代购”的博主安小姐告上法院,请求法院判决对方退还22800元并三倍赔偿。其次,被告认为,其不构成经营者的资格,不受消法约束,不应受三倍罚责。因此要求法院驳回原告起诉。本案争议的焦点是涉案货物是否正品,经过法院跟香奈儿公司联系,委托其对涉案商品是否正品给予答复。原告不同意调解,该案未当庭宣判。