联系人: 房经理

手机:

QQ:

地址:山东省福山西岭街88号

 当前位置:主页 > 生存 >
 

生存分析学习笔记

 
     
发布时间:2019-10-25 新闻来源:淄博市诚信彩票平台,诚信彩票注册官网,诚信彩票登录平台,诚信彩票投注平台 有限公司 浏览次数:
 

  最近在读一篇医学信息处理相关的论文,由于在医学图像和医学信息相关的计算机处理方面还是个新手,遇到了一个生存分析预后的概念,提到KM生存曲线、COX回归模型这样的部分时读的一知半解,索性就上网学习了一下,留个记录吧。

  生存分析是对生存资料的分析。所谓生存资料是指描述寿命或者一个发生时间的数据。通俗来讲,“一个个体能活多久”这个问题扁鹊再世也无法回答,但通过对某一具有相同特质的群体进行数据分析,我们可以得到这类人活过一定时间的概率。这就叫做生存分析。一个人的生存时间长短与许多因素有关,研究各个因素与生存时间有无关系以及关联程度大小,这也是生存分析。推广来说,疾病的复发可以看做“健康期”的生存,机器的故障可以看做“机器”的生存,甚至下岗职工再就业可以看做“失业期”的生存,生存分析可以被推广至很多问题的分析中去。

  起始事件:反应研究对象开始生存过程的起始特征事件。如研究某一治疗对病人生存的影响的起始时间是“开始接受该治疗”。

  终点事件(死亡事件):出现研究者所关心的特定结局。如“病人因该疾病死亡”。

  观察时间:从研究开始观察到研究观察结束的时间。由于研究时长无法无限延伸下去,所以研究一定会在某个特定时刻截止,而研究截止时,所有观察对象并不一定全都出现终点事件。换言之,有的研究对象在观察结束之前出现终点事件,有的直到观察结束时也没有出现终点事件,还有一些特例中途因为某些原因,如失访、意外死亡等,被迫提前结束了观察研究。

  截尾数据(删失值):观察时间不是由于终点事件而结束的,而是由于(1)失访(2)死于非研究因素(3)观察结束而对象仍存活以上三种原因结束的。常在截尾数据的右上角放一个“+”表示其实该对象可能活的更久。

  变量:生存分析的变量有两个:生存时间t和结局变量(0-1)。其中结局变量1表示死亡事件,0表示截尾。

  这类方法的特点是,不管分布形式如何,只根据样本的顺序统计量对生存率进行估计。对于两个及多个生存率进行比较,其无效假设只是假定两组或多组生存时间分布相同,而不对其具体的分布形式和参数进行推断。log-rank乘法极限法和寿命表法都是非参数法。

  特点是假定生存时间服从特定的参数分布,然后根据已知的分布特点对生存时间进行分析。如指数分布法、Weibull分布法、对数正态回归分布法和logistic回归法。

  研究生存时间的分布特点,估计生存率(如1年生存率、5年生存率)及其标准误、绘制生存曲线。常用方法有乘积极限法(K-M法)和寿命表法。

  获得生存率及其标准误的估计值后,可以进行两组或多组生存曲线的比较,也就是得到了其生存过程的比较。常用方法有对数秩检验(log-rank检验)。举例说明这种对比的作用,比如针对某种疾病有两种治疗方式,对比这两种治疗下患者的生存曲线,就可以得出哪种治疗方式更有效。

  含义顾名思义。常用的多因素生存分析方法:Cox比例风险回归模型。这里是我主要会用到的部分,可能后面会多啰嗦几句。

  对生存过程进行描述所用到的描述指标有生存率及其标准误,中位生存期,生存曲线。

  当存在截尾数据时,分母必须分时段进行矫正,矫正公式为:矫正人口数=年初观察例数-1/2截尾例数,因为截尾数据出现有间隔,所以生存率计算公式一般来说不能直接使用,大多采用概率乘法原理估计生存率:先做独立假设,每段的生存率为P1、P2、...、Pk,则生存率估计公式为:

  对生存过程的描述常用的两种方法是乘积极限法(K-M法)和寿命表法。两种方法使用的区别在于,当处理小样本时使用K-M法,当样本量大时,要按时间对样本进行分组,而这时就体现出了针对截尾数据进行分母矫正的重要作用(毕竟小样本时截尾数据也少,乘以1/2后多是以0.5的形式存在,差别不大)。其实上一段就是K-M法的计算公式,而寿命表法只是比它多了一个时间上的分组,计算方法也是一样的。下面举例说明:

  有上面两个表格可以看出小样本数据是每个观察对象为一行,而本例中的大样本的寿命表法则是将数据按月进行了分组,每组一行。

  中位生存时间:又称为生存时间的中位数,表示刚好有50%的个体其存活期大于该时间。这里注意生存时间的平均水平不能用平均生存时间来表示,而应该用中位生存时间来表示。用一张图直观感受下中位生存时间:

  对数秩检验是以生存时间的对数为基础推导出来的,其基本思想是实际死亡数与期望死亡数间比较。公式为:

  检验思想是:假设无效假设成立(两总体生存曲线位置相同),通过以上公式计算,若理论死亡数与实际死亡数差距过大,则假设不成立,两条生存曲线位置不同。用log-rank检验对样本的生存率进行比较时,要求各组生存曲线不能交叉。

  Cox比例回归模型是一个能处理多因素生存数据的回归模型(啊~废话那么多终于写到这了~就是为了它才查的呀~)Cox回归不是用生存时间做因变量,而是用危险度做因变量。所以,

  其中h(t)是具有协变量x的个体在时刻t的风险函数,t表示生存时间,x表示与生存时间可能有关的协变量或交互项。通俗来讲,h(t)是当p个x值固定时的风险函数,p个x都是可能会影响生存时间t的因素,影响程度由各自前面的系数决定。

  而h0是基准风险函数,它是指所有风险因素为0时的基础风险率,与x无关,它是未知的,不过没关系,我们只需要假设它是与h(t)成比例存在的,然后放在那里就行。同时,这也解释了为什么Cox模型是半参数的,因为h0与参数x们无关。

  有了上面这个公式,我们就可以来看Cox模型到底是干什么用的了,它有两个主要用途:(1)因素分析:分析哪些因素影响了生存期长短。(2)求各因素在排除其他因素的影响后,对于死亡的相对危险度。

  上式中,β1,β2,...,βp这组数是回归系数,而βi是因素Xi的偏回归系数,它表示在控制其他变量的条件下,该变量对回归方程的独立贡献,说白了就是系数越大,则对应因素对整体的影响就越大,这很好理解。我们通过对偏回归系数进行统计学检验,(统计学检验指假设检验:1、最大似然比检验:它主要用于模型中原有不显著变量的剔除和新变量引入,以及包含不同协变量数时模型间的比较。2、得分检验:用于新变量是否能选入模型。可检验一个新变量能否引入模型,也可以检验多个新变量能否引入模型。3、wald检验:它用于模型中协变量是否应从模型中剔除。)

  对单个变量进行统计学检验,如果p0.05则就说排除其他因素影响后,该因素与生存期长短有关系,通过这些统计学检验对变量进行了初步筛选,那么剩下的被选入模型的变量具体与生存期长短到底有什么关系呢?这要看β的具体值:β0,该因变量是危险因素,数值越大生存时间越短;β0,该变量是保护因素;β=0,该变量不影响生存时间。

  β是采用偏似然函数估计出来的,算法是这样的,首先假设数据集容量为n,具有K个不同的精确生存时间,把每个个体的生存时间ti从小到大排序,我们假设每个个体的生存时间ti都不同。定义R(ti)是在时间ti处于风险的个体集合,即是由生存时间大于等于ti的个体组成的。在时间Ti处第j个个体死亡的概率Li为

  在所有k个生存时间点上都得到上述概率表示后,将条件概率相乘得到偏似然函数

  这里面的幂指数在存在删失值时取0,没有删失值时取1。对分子贡献信息的是在时间ti死亡的个体。

  把Lp看做一般的似然函数,通过求极大值点来求解β的极大似然估计。这个大家应该都会,无非是先取对数

  再对β求偏导通过求p个即可求出β的极大似然估计,通常用软件进行牛顿迭代得到。

  举个例子:某疾病的发病,受吸烟X1与饮酒X2的影响,对有关资料作Cox回归分析后,得回归方程为X1与X2的回归系数为0.8755与0.5108,既吸烟又饮酒者危险度为不吸烟不饮酒者的危险度为

  当协变量较多时,在配合模型以前需对这些协变量进行筛选。前面已经说过一些统计学检验方法,不过这一块现在有很多更好的方法,我还没看完,回头有时间总结,这个先到这里吧。

  一、基本概念和名词解释二、统计概念和名词解释三、生存资料统计学处理博文来自:xiaohukun的博客

  本文引用地址:生存分析(survivalanalysis)适合于处理时间-事件数据。例如中风病人从首次...博文来自:SHMILYRINGPULL的专栏

  生存分析与R生存分析是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。不仅考虑事件是否出现,而且还考虑事件出现的时间长短,因此这类方法也被称为事件时间分析(time-to-eve...博文来自:走在码农路上的医学狗

  参考1:起始事件,终点事件 生存时间(也称为失效时间):从起始事件到终点事件经历的时...博文来自:math_computer的博客

  在建立一个模型后,我们会关心这个模型对于因变量的解释程度,甚至想知道各个自变量分别对模型的贡献有多少。对于非线性模型,如RandomForest和XGBoost等由于其建模过程就是筛选变量的过程,可以...

  每一种肿瘤的TNM分期系统各不相同,因此TNM分期中字母和数字的含义在不同肿瘤所代表的意思不同。TNM分期中T,N,M确定后就可以得出相应的总的分期,即I期,II期,III期,IV期等。有时候也会与字...

  生存分析与R生存分析是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。不仅考虑事件是否出现,而且还考虑事件出现的时间长短,因此这类方法也被称为事件时间分析(time-to-eve...

  相关资源原论文地址:here论文中使用的深度生存分析库:DeepSurv,是基于Theano和Lasagne库实现的,支持训练网络模型,预测等功能。考虑到DeepSurv库中存在着一些错误以及未实现的...

  自己整理编写的R语言常用数据分析模型的模板,原文件为Rmd格式,直接复制粘贴过来,作为个人学习笔记保存和分享。部分参考薛毅的《统计建模与R软件》和《R语言实战》生存分析是研究生存时间的分布规律,以及生...

  前面的文章总结了分类模型的AUC评价,但是对于生存模型如Cox比例风险模型,是否有类似的评价指标呢?比较简单粗暴的想法是,确定一个生存终点,从而将生存模型的评价转化为分类模型的评价,比如3年DFS,此...

  (event=1,指的是确实事件;0是死亡,1是缺失1.用的是ovarian自带数据,首先画出生存曲线survfit(),但是曲线上不显示确实值的符号+号,怎么在函数中设置合适的缺失值???2接下来对...

  数据分析是一项实践性很强的工作,涉及到很多交叉学科,需要不同的岗位和角色,来实现不同的性质的工作。一、数据分析师中的角色和职责数据分析团队师应该在科技部门内部还在业务部门内部一直存在争议。在业务部门内...

  作者:离散梦欢迎大家给出宝贵的建议! 泰坦尼克号数据分析 一、前言     主要目的是整理自己的思路。本文主要是关于泰坦尼克号生存率python分析,因为很多博客做这个项目都比较深入,感觉都比较高大上...

  正在学习如何进行生存分析数据数据起始事件:反应研究对象开始生存过程的起始特征事件。如研究某一治疗对病人生存的影响的起始时间是“开始接受该治疗”。终点事件(死亡事件):出现研究者所关心的特定结局。如“病...

  最近在读一篇医学信息处理相关的论文,由于在医学图像和医学信息相关的计算机处理方面还是个新手,遇到了一个生存分析预后的概念,提到KM生存曲线、COX回归模型这样的部分时读的一知半解,索性就上网学习了一下...

  #pragmapack(n)的意思是告诉编译器字节对齐方式为n字节对齐,n字节对齐就是说变量存放的起始地址的偏移量有两种情况:第一、如果n大于等于该变量所占用的字节数,那么偏移量必须满足默认的对齐方式...

  生存分析涉及预测特定事件发生的时间,它也被称为失败时间分析或分析死亡时间。例如预测癌症患者的生存天数或预测机械系统出现故障的时间。在R中的软件包survival用于进行生存分析,该包中含有Surv()...

  1.多元统计分析(MultivariateStatisticalAnalysis) 多元统计分析研究的是客观事物中多个变量(多个因素)之间相互依赖的统计规律性。假如说一个数据它有n维特征,我们称它为多...

  有效性指标中的区分能力指标:KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估,指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区...

  贝叶斯分类算法:贝叶斯分类是统计学的一种分类算法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(NaïveBayes,NB)分类算法可以与决策树和神经网络分类算法相媲美。缺陷:与其本...

  加速失效(AFT)模型假设TTT为失效时间,xxx为协变量,加速失效(acceleratefailuretime)模型的假设是,一个人的生存时间等于人群基准生存时间*这个人的加速因子,其数学形式如下:...

  癌症的生存分析数据,记录了治疗方案,癌细胞类型,临床打分,病人年龄,死亡与否以及生存的天数,可以建立生存分析模型进行数据分析。

  广义似然比检验检验的是什么?参数,分布正态分布: μ=μ0?或μlt;-[μ1,μ2]?概率有多大假设检验:构造统计量困难原理:根据极大似然估计构造统计量,-2lnλ服从卡方分布。似然比检验...

  微信版花呗将上线;苹果在华支持以旧换新;谷歌推出 Flutter1.9 极客头条09-13阅读数 1119

  对计算机专业来说学历线万+我本科学校是渣渣二本,研究生学校是985,现在毕业五年,校招笔试、面试,社招面试参加了两年了,就我个人的经历来说下这个问题。 这篇文章很长,但绝对是精华,相信我,读完以后,你会知道学历不好的解决方案...

  阅读数 2万+Java 的每个基本类型都对应了一个包装类型,比如说 int 的包装类型为 Integer,double 的包装类型为 Double。基本类型和包装类型的区别主要有以下 4 点。...

  阅读数 1万+在提升软件开发技能方面,有哪些必备的妙招可以帮助自己呢?作者 Skill Pathway译者 弯月,责编 屠敏出品 CSDN(ID:CSDNnews)以下......

  阅读数 3万+许多人在数据科学、机器学习、web开发、脚本编写和自动化等领域中都会使用Python,它是一种十分流行的语言。 Python流行的部分原因在于简单易学。 本文将简要...

  阅读数 6095前言 说起线程池大家肯定不会陌生,在面试中属于必问的问题之一,特别是对于高并发有较高要求的企业,基本是核心打分点。网上关于线程池的文章和视频很多,本篇文章旨在帮助大家快速了解和掌握线程池的原理,对于...

  阅读数 1万+作者:阿波、纯洁的微笑漫画:宁州枪手程序员如今已经发展成社会的主流职业,以至于街头的王大妈李大爷都能说出一二来,据说他们认为的程序员是这样子的:程序员都是秃头,秃的越狠越......

  阅读数 1万+作者 小鹿 来源 公众号:小鹿动画学编程 写在前边 TCP 三次握手过程对于面试是必考的一个,所以不但要掌握 TCP 整个握手的过程,其中有些小细节也更受到面试官的青睐。 对于这部分掌握...

  阅读数 8965阅读本文大概需要 2.8 分钟。在温室里呆习惯了,就很难去适应室外环境,在一个圈子呆久了,就会把一切都会当成是理所当然,不想再去适应第二个圈子,即使他们可能更好。很多人觉......

  阅读数 8840Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景本文介绍阿里开源限流熔断方案 Sentinel 功能、原理、架构、快速入门以及相关框架比较基本介绍1......

  阅读数 2万+这几天在重温微信小游戏的飞机大战,玩着玩着就在思考人生了,这飞机大战怎么就可以做的那么好,操作简单,简单上手。 帮助蹲厕族、YP族、饭圈女孩在无聊之余可以有一样东西让他们振作起来!让他们的左手 / ...

  阅读数 1万+提问: 西游记取经团为了节约成本,唐太宗需要在这个团队里裁掉一名队员,该裁掉哪一位呢,为什么? 为了完成西天取经任务,组成取经团队,成员有唐僧、孙悟空、猪八戒、沙和尚、白龙马。 高层领导: 观音...

  阅读数 7845大数据学习之Linux基础 自定义Linux虚拟机安装网络配置1.node1网络配置2.通过快照克隆虚拟机3.配置其他三个节点虚拟机Linux简单命令shell命令运行原理图1.关机与重启2.判断命令...

  阅读数 2万+史上最全的java工程师面试题汇总,纯个人总结,精准无误。适合中高级JAVA工程师。...

  唏嘘!2019榜单出炉:铁打的Python连续3年第一,它居然跌出前十?

  阅读数 3198IEEE Spectrum2019年度编程语言排行榜最近刚刚出炉,Python不出意外的又拿了个第一,但是意料之外的是,曾经大火的PHP,居然跌出了前十!PHP曾被大家称......

  阅读数 6231昨天在网上发现了一个非常方便的天气API,就用Python试着用了一下。参数是挺少的,用起来也方便,但是那个城市代码确实是搞了我好长时间。 一、介绍 我们先来看一下实现的程序有什么功能: 功能也是非...

  阅读数 5832项目需求: 实现一个简单的飞机大战程序,当消灭掉一个小飞机的时候的5分,当消灭掉一个小蜜蜂的时候有可能火力值增加24也有可能生命值增加1,如果打飞机也就是英雄机和敌人(蜜蜂+小飞机)碰撞之后...

  阅读数 1万+前言 工欲善其事 必先利其器 最近受部门的邀请,给入职新人统一培训IDEA,发现有很多新人虽然日常开发使用的是IDEA,但是还是很多好用的技巧没有用到,只是用到一些基本的功能,蛮浪费IDEA这...

  阅读数 6万+“一个程序员写了个爬虫程序,整个公司200多人被端了。” “不可能吧!” 刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写过几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。...

  阅读数 54601024程序员的节日就要来了,作者也挤时间写了一篇文章——《我与CSDN的这十年》,分享下程序猿和程序媛的故事,纪念这十年奋斗和感动的日子。十年, 说长不长,说短不短,人生进度条的八分之一,都是青春,...

  阅读数 2754什么是反向代理? 1、有两台服务器A和B属于同一内网段,但是A不通外网,B通外网,客户端C只有外网 2、C想通过B访问A,就需要在服务器B上做反向代理 3、客户端C通过外网与服务器B通信,服务器B通过...

  阅读数 5793引言大家好,我渣渣烟。我曾经写过一篇于是呢,决定再来一个mysql的数据库专题,这篇我们就来谈谈关于索引方面的mysql面试题。还是老规矩,讲的是在Innodb存储引擎下......

  阅读数 1万+前言郑重声明:本文不是 Podman 的入门篇,入门请阅读这篇文章:再见 Docker,是时候拥抱下一代容器工具了Podman 原来是 CRI-O 项目的一部分,后来被分......

  阅读数 2850人生苦短,我用 Python 引言 大家好,可能大家都对我比较熟悉了,不熟悉请去面壁(现在熟悉一下也来得及)~ 简单做一个自我介绍,我是极客挖掘机的唯一作者,一位油腻的 Java 程序员【臭鸡蛋...

  阅读数 1万+我之前里的文章,写的大部分都是与计算机基础知识相关的,这些基础知识,就像我们的内功,如果在未来想要走的更远,这些内功是必须要修炼的。框架千变万化,而这些通用的底层知识,却是几乎不变的,了解了这些知识,...

  阅读数 4167文章目录目录结构bin目录conf目录lib目录webapps目录temp目录 Tomcat 服务器是一个免费的开放源代码的 Web 应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很...

  阅读数 6775对于开发人员来说,如果不了解Java的JVM,那真的是很难写得一手好代码,很难查得一手好bug。同时,JVM也是面试环节的中重灾区。今天开始,《JVM详解》系列开启,带大家深入了解JVM相关知识。 我...

  baigeyunxue:请教博主是在哪个文件夹下执行pip语句的呢?不用下载安装包吗?

上一篇:生活频道_关注时尚关注美食生活_光明网
下一篇:生存分析:cox回归建模
   相关信息:
 
  余华著长篇小说)   2019-10-23
  生存分析:cox回归建模   2019-10-25
  生存分析学习笔记   2019-10-25
  生存小游戏大全   2019-10-23
  千千音乐-听见世界   2019-10-23
  生存指南   2019-10-23
  生存境界   2019-10-23
  野外生存   2019-10-23
  生存环境   2019-10-23
  什么是生存?   2019-10-23
 
友情链接: 织梦CMS官方DedeCMS维基手册织梦技术论坛
网站地图