您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > Logistic回归spss.
首都医科大学流行病与卫生统计学系罗艳侠Logistic回归分类•按照反应变量类型–二分类反应变量的logistic回归–多分类有序反应变量的logistic回归–多分类无序反应变量的logistic回归•按照研究设计类型–非条件logistic回归(研究对象未经匹配)–条件logistic回归(研究对象经过匹配)(一)基本概念和原理1.应用背景Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类的。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。设资料中有一个因变量y、p个自变量x1,x2,…,xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。2、Logistic回归模型的数据结构•表1Logistic回归模型的数据结构实验对象yX1X2X3….XP1y1a11a12a13…a1p2y2a21a22a23…a2p3y3a31a32a33…a3p…………………nynan1an2an3…anp━━━━━━━━━━━━━━━━━━表2肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区101030020014613100351………………30100261注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。•表3配对资料(1:1)•对子号病例对照•x1x2x3x1x2x3•1130101•2031130•3012020•…………………•10222000•注:X1蛋白质摄入量,取值:0,1,2,3•X2不良饮食习惯,取值:0,1,2,3•X3精神状况,取值:0,1,23、Logistic回归模型令:y=1发病(阳性、死亡、治愈等)y=0未发病(阴性、生存、未治愈等)将发病的概率记为P,它与自变量x1,x2,…,xp之间的Logistic回归模型为:)exp(1)exp(110110ppppXXXXp经数学变换得定义Logistic变换Logistic回归方程ppXXpp110)]1/(ln[)]1/(ln[)(logpppitppXXpLogit110)(4、回归系数βi的意义流行病学的常用指标优势比(oddsratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:)1/()1/(0011PPPPORiiiPitPitORLn)0()1()]0([log)]1([log)(00解释•设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y发生的倍数。•当bi0时,对应的优势比(oddsratio,记为ORi):ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素。•(二)Logistic回归类型及其实例分析•1、非条件Logistic回归•当研究设计为队列研究、横断面研究或成组病例对照研究时,要用非条件Logistic回归。•例为了探讨糖尿病与血压、血脂等因素的关系,某研究者对56例糖尿病病人和65例对照者进行病例-对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白11个因素的资料(完整数据见SPSS数据文件)。性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂hdlldl糖尿病160221114.301.501.242.300148321114.601.321.152.300263211124.601.151.152.300168322114.151.431.073.210145212113.421.22.632.300145332114.16.96.982.650159211114.321.021.053.490168331113.801.422.86.850263221113.871.552.44.810•表2糖尿病影响因素赋值说明因素变量名赋值说明性别X1男=1,女=2年龄X2学历X3小学以下=1,小学=2,初中=3,高中=4,大专及以上=5体重指数X424=1,24~26=2,26~=3家族史X5无=1,有=2吸烟X6不吸=1,吸=2血压X7正常=1,高=2总胆固醇X8甘油三酯X9高密度脂蛋白X10低密度脂蛋白X11糖尿病Y对照=0,病例=1•建立数据库多因素的logistic回归CaseProcessingSummary121100.00.0121100.00.0121100.0UnweightedCasesaIncludedinAnalysisMissingCasesTotalSelectedCasesUnselectedCasesTotalNPercentIfweightisineffect,seeclassificationtableforthetotalnumberofcases.a.1.基本数据描述DependentVariableEncoding01OriginalValue无有InternalValue2.因变量的编码回归模型的整体检验OmnibusTestsofModelCoefficients95.49711.00095.49711.00095.49711.000StepBlockModelStep1Chi-squaredfSig.•Logistic回归模型的拟合优度检验HosmerandLemeshowTest4.3578.824Step1Chi-squaredfSig.•Logistic回归模型的预测准确度ModelSummary71.575a.546.729Step1-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquareEstimationterminatedatiterationnumber7becauseparameterestimateschangedbylessthan.001.a.ClassificationTablea59690.874987.589.3Observed无有糖尿病OverallPercentageStep1无有糖尿病PercentageCorrectPredictedThecutvalueis.500a.VariablesintheEquation.263.636.1711.6791.301.3744.527.085.0365.5211.0191.0891.0141.168-.699.2985.5131.019.497.277.8911.621.5528.6211.0035.0561.71414.9151.634.6825.7441.0175.1241.34719.4973.126.71419.1741.00022.7875.62392.3411.647.6706.0401.0145.1901.39619.298.606.4721.6471.1991.832.7274.6212.3121.0424.9291.02610.0981.31177.767-.914.4324.4841.034.401.172.934.017.416.0021.9671.017.4502.300-20.2074.65218.8661.000.000性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂hdlldlConstantStep1aBS.E.WalddfSig.Exp(B)LowerUpper95.0%C.I.forEXP(B)Variable(s)enteredonstep1:性别,年龄,学历,体重指数,家族史,吸烟,血压,总胆固醇,甘油三脂,hdl,ldl.a.逐步Logistic回归分析(1)向前法(forwardselection)开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter,缺省值P(0.05)。(2)后退法(backwardselection)开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值小于规定的剔除标准Remove,缺省值p(0.10)。•(3)逐步回归法逐步引入-剔除法(stepwiseselection)前进逐步引入-剔除法•是在前进法的思想下,考虑剔除变量,因此有两个p界值Enter,Remove。SPSS无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在method后加选项:Enter:所有变量一次全部进入方程。Forward:逐步向前法Backward:后退法变量移出方程所采取的检验方法:Conditional;LR;Ward(尽量不用)调试法:P从大到小取值0.5,0.1,0.05…,一般实际用时,Enter、Remove应多次选取调整2.条件logistic回归分析•配对设计的类型:1:1、1:m、n:m•(可采用分层COX模型来拟合)。•例如:某市调查三种生活因素与胃癌的关系,资料见表5。•表5配对资料(1:1)•对子号病例对照•x1x2x3x1x2x3•1130101•2031130•3012020•…………………•10222000•注:X1蛋白质摄入量,取值:0,1,2,3•X2不良饮食习惯,取值:0,1,2,3•X3精神状况,取值:0,1,2配对Logistic回归SPSS操作步骤:•Analyze-----Survival----COXRegression-----Time框(outcome)-----Status框(Status)-----DefineEvent:Singlevalue1:continue-----Covariates框(x1、x2、x3)---Method=ForwardStepwise(LikelihoodRatio)--Strata框(id)---Options---atlaststep------okCaseProcessingSummary1050.0%1050.0%20100.0%0.0%0.0%0.0%0.0%20100.0%EventaCensoredTotalCasesavailableinanalysisCaseswithmissingvaluesCaseswithnon-positivetimeCensoredcasesbeforetheearliesteventinastratumTotalCasesdroppedTotalNPercentDependentVariable:OUTCOMEa.OmnibusTestsofModelCoefficientsa1.9207.0932.02911.9432.003Step2-2LogLikelihoodChi-squaredfSig.Overall(score)Chi-squaredfSig.ChangeFromPreviousBlockBeginningBlockNumber1.Method:ForwardStepwise(LikelihoodRatio)a.VariablesintheEquation1.7271.2491.9121.1675.624.48665.0172.2841.6791.8521.1749.821.366263.620x2x3Step2BSEWalddfSig.Exp(B)LowerUpper95.0%CIforExp(B)VariablesnotintheEquationa.0371.847X1Step2Scored
本文标题:Logistic回归spss.
链接地址:https://www.777doc.com/doc-2885376 .html