基于 Logistic 回归和支持向量机构建体检人群冠状动脉粥样硬化性心脏病风险预测模型论文
2025-12-22 11:33:05 来源: 作者:xuling
摘要:基于体检指标构建的SVM预测模型在CHD风险评估效能优于传统的Logistic回归模型,能够指导医生识别CHD高风险人群,从而提前制定防治措施。
[摘要]目的基于支持向量机模型(support vector machine,SVM)和Logistic回归模型构建冠状动脉粥样硬化性心脏病(coronary heart disease,CHD)预测模型,为该病的防治提供指导。方法回顾性选取2019年10月—2023年10月在山东电力中心医院进行体检的2 875例受检者的临床资料,依据是否患有CHD分为CHD组(n=294)与非CHD组(n=2 581),构建支持向量机、Logistic回归模型进行CHD风险预测。结果Logistic回归分析结果显示年龄、腹围、体重指数(body mass index,BMI)、脉搏、谷丙转氨酶(glutamic-pyruvic transaminase,ALT)、碱性磷酸酶(alkaline phosphatase,AKP)、总胆固醇(total cholesterol,TC)、低密度脂蛋白胆固醇(low den-sity lipoprotein cholesterol,LDL-C)、空腹血糖(fasting plasma glucose,FPG)及颈动脉粥样斑块是CHD发病的独立影响因素(P均<0.05)。基于多因素分析结果构建Logistic回归模型:Log(P)=(-2.837)+0.055年龄+0.030腹围+0.142 BMI+(-0.015)脉搏+0.013 ALT+0.011 AKP+0.429 TC+(-1.872)LDL-C+0.113 FPG+(-1.209)双侧颈动脉斑块;SVM预测模型显示影响CHD发病的前4重要性指标分别为LDL-C、年龄、颈动脉斑块及BMI。SVM预测模型的AUC为0.904(95%CI:0.889~0.920)、敏感度为0.854、特异度为0.822,优于Logistic回归预测模型的0.889(95%CI:0.870~0.907)、0.837及0.814。结论基于体检指标构建的SVM预测模型在CHD风险评估效能优于传统的Logistic回归模型,能够指导医生识别CHD高风险人群,从而提前制定防治措施。
[关键词]冠状动脉粥样硬化性心脏病;Logistic回归分析;支持向量机;预测模型
《中国心血管健康与疾病报告2020》[1]指出,心血管疾病(cardiovascular disease,CVD)已成为导致中国城乡居民死亡的第一诱因,目前CVD患者已超过3亿,呈逐年攀升趋势[2]。冠状动脉粥样硬化性心脏病(coronary heart disease,CHD)是CVD最主要类型之一,即冠状动脉发生粥样硬化,导致狭窄或阻塞引起胸痛、呼吸困难、心绞痛等主要临床症状。目前,CHD的病因及病理机制尚未完全明确,大量的流行病学研究已经明确遗传因素、性别、心理社会因素、生活习惯、基础病等都与CHD的发生进展密切相关[3]。近年来,世界各国研究者都在构建CHD风险预测模型,以实现对该病早诊断、早治疗,诸如系统性冠状动脉风险评估模型(systematic coro⁃nary risk evaluatio,SCORE)[4]、中国动脉粥样硬化性心血管疾病风险预测模型(prediction for ASCVD Risk in china,China-PAR)模型[5]针对不同群体均具有较好的预测效能。但需要额外采集大量信息资料且未充分利用体检常规指标,因此无法在健康体检人群中推广。鉴于此,本研究基于支持向量机模型(support vector machine,SVM)和Logistic回归模型构建CHD的预测模型,现报道如下。
1资料与方法
1.1一般资料
回顾性选取2019年10月—2023年10月在山东电力中心医院进行体检的2 875例受检者的临床资料,依据是否患有CHD分为CHD组(n=294)与非CHD组(n=2 581)。其中男1 971例,女904例,年龄23~91岁。本研究经山东电力中心医院伦理委员会审查批准(GGH-SDEPCH-HP-20230101-2022-02),建档时,研究对象知情同意且签署知情同意书。
1.2纳入与排除标准
纳入标准:无CHD既往史;初次行冠脉造影检查。排除标准:入院即诊断为心肌梗死者;伴有冠脉血运重建、陈旧性心肌梗死病史者;心肝、肾及肺脏器质性损伤者;因疾病或饮食习惯等原因造成严重营养不良者;合并恶性肿瘤、自身免疫性疾病、感染性疾病者;电子病历资料不完整者。
1.3资料收集方法
收集本院健康体检的2 875例受检者的人口学、实验室、影像学及临床资料等,包括性别、年龄、身高、腹围、体重指数(body mass index,BMI);测量患者的收缩压(systolic blood pressure,SBP)、舒张压(diastolic blood pressure,DBP)、脉搏;检测肝功能指标[谷丙转氨酶(glutamic-pyruvic transaminase,ALT)、谷草转氨酶(glutamic oxaloacetic transami⁃nase,AST)、碱性磷酸酶(alkaline phosphatase,AKP)、r谷氨酰基转移酶(r-glutamyltransferase,r-GT)],肾功能指标[尿素氮(blood urea nitrogen,BUN)、血肌酐(serum creatinine,Scr)、血尿酸(serum uric acid,UA)],血脂指标[总胆固醇(total choles⁃terol,TC)、甘油三酯(triglyceride,TG)、高密度脂蛋白胆固醇(high-density lipoprotein cholesterol,HDL-C)、低密度脂蛋白胆固醇(low density lipoprotein cholesterol,LDL-C)],血糖指标[空腹血糖(fasting plasma glucose,FPG)];影像学检查(超声诊断颈动脉粥样硬化斑块、脂肪肝)。实验室及影像学指标均采用标准方法进行检测。
1.4 CHD诊断标准
经数字减影血管造影对CHD进行诊断。受检者取平卧位,局部麻醉后注射肝素,注射碘克沙醇造影剂,识别冠脉每支血管狭窄部位、估测狭窄程度。冠脉造影血管狭窄程度>50%,即确诊为CHD[6]。
1.5模型构建方法
将受检者以9∶1的比例随机分为训练样本集(2 588例)和验证样本集(287例),使用训练样本集构建Logistic预测模型和SVM模型,验证样本集用于对预测模型性能验证。
1.5.1 Logistic回归分析模型构建在训练样本中,以是否患有CHD为因变量(非CHD=0,CHD=1),将单因素分析结果纳入进行Logistic逐步回归分析。
1.5.2 SVM模型构建使用极差法对单因素分析得到的变量数据进行标准化处理,确保所有变量取值在[0,1],剔除没有贡献价值的输入变量,使用专家建模中径向基核函数。
1.5.3模型预测效能评估使用验证集数据绘制Logistic预测模型和SVM预测模型的ROC曲线,评估其在CHD中的预测效能。
1.6统计方法
采用SPSS 18.0及SPSS Modeler 18.0统计学软件进行数据处理,计量资料(年龄、身高、腹围、BMI、脉搏、血压、肝功能指标、肾功能指标、血脂指标)经Shapiro-Wilk检验,符合正态分布,以(x-±s)表示,组间比较行两独立样本t检验。计数资料(性别、脂肪肝占比及双侧颈动脉占比)以例数(n)表示,组间比较行χ2检验。P<0.05为差异有统计学意义。分别构建Logistic回归预测模型及SVM预测模型,绘制ROC曲线评估两个模型的预测效能,P<0.05表示差异有统计学意义。
2结果
2.1发生CHD的单因素分析
两组性别、年龄、身高、腹围、BMI、SBP、脉搏、ALT、AST、AKP、BUN、Scr、TC、LDL-C、FPG、脂肪肝发生情况、双侧颈动脉发生斑块情况比较,差异均有统计学意义(P均<0.05)。见表1。
2.2发生CHD的二元Logistic多因素分析
以是否患有CHD为因变量(非CHD=0,CHD=1),以单因素分析结果为自变量进行二元Logistic回归分析,结果显示年龄、腹围、BMI、脉搏、ALT、AKP、TC、LDL-C、FPG及颈动脉粥样斑块是CHD发病的独立影响因素(P<0.05)。见表2。

2.3构建Logistic预测模型
基于二元Logistic回归分析结果构建多指标联合预测模型:L(P)=(-2.837)+0.055年龄+0.030腹围+0.142 BMI+(-0.015)脉搏+0.013 ALT+0.011 AKP+0.429 TC+(-1.872)LDL-C+0.113 FPG+(-1.209)双侧颈动脉斑块。
2.4构建SVM预测模型
采用SPSS Modeler 18.0软件实现,先对影响CHD发病的风险型指标进行标准化处理,剔除无贡献的指标,模型选用分区数据,通过专家建模的径向基核函数将训练样本集投射至高维空间,输入设定非CHD=0,CHD=1,模型评估勾选预测变量的重要性,倾向评分勾选计算原始倾向评分。结果显示,影响CHD发病的前4重要性指标分别为LDL-C、年龄、颈动脉斑块及BMI。见图1。

2.5两种预测模型的效能评估
SVM预测模型的AUC为0.904,预测敏感度为0.854、特异度为0.822;Logistic回归预测模型AUC为0.889,预测敏感度为0.837、特异度为0.814。见表3、图2。

3讨论
目前关于CHD病因机制,主要有“脂质浸润”“损伤-反应”及“炎性反应”等具有代表性假说[7]。随着人工智能、机器学习的发展,基于基因型、生物标志物及临床特征等,在建立预测CHD风险模型方面取得了较大进展。本研究基于体检人群指标构建的Logistic及SVM两种CHD风险预测模型,经验证其预测效能良好。
本研究收集2 875例体检人群的临床资料,其中CHD率为10.23%,远低于陆浩轩等[8]报道的39.55%。原因在于本研究对象均是体检中心的受检者,而陆浩轩等[8]的临床研究则以住院患者作为调查对象。分析显示,体检指标中年龄、腹围、BMI、脉搏、ALT、AKP、TC、LDL-C、FPG及颈动脉粥样斑块均是CHD发病的风险因素。年龄作为CHD的危险因素已被纳入China-RAR及SCORE等预测模型之中。刘琼等[9]的研究发现,年龄≥45岁是CHD心绞痛患者发生急性心血管事件的危险因素,随着年龄的增长血管壁逐渐硬化,内皮功能下降,弹性降低,从而增加CHD及不良心血管事件的风险。腹围及BMI是评估肥胖的重要指标,刘海明等[10]发现肌少性肥胖是导致老年CHD患者死亡的独立危险因素。肥胖会增加心脏的负担,并且会导致血液中LDL-C增加从而提升动脉粥样硬化风险。血脂四项是临床公认评估CHD的临床指标。本研究发现,TG、HDL-C与CHD发病无明显相关性,与目前普遍的认知不符。原因可能有两点:①本研究纳入患者年龄跨度极大,对人群代表性不足,出现抽样偏倚性;②有资料显示TC指标在预测CHD中存在性别差异[11]。糖尿病是CHD的独立影响因素,相关研究发现糖化血红蛋白、FPG可能是早期预测CHD的潜在标志物[12]。ALT及AKP是临床用于评估肝脏的血清标志物,有证据发现AKP与C反应蛋白存在密切关系,有研究者猜测该物质可能与C反应蛋白有共同的生物学途径从而通过炎症反应促进CDH进展[13]。ALT水平升高与机体氧化应激和系统性炎性标志物密切相关[14],而炎性反应是CHD的重要病理假说之一。本研究通过构建两种预测模型,对比发现SVM模型AUC为0.904,高于Logistic模型的0.889,说明SVM模型预测CHD的效能更高。本研究所有数据均来自山东电力中心医院,未纳入其他地区、不同级别医院的体检人群,可能导致模型普适性欠佳,未来进行多中心研究,进一步优化模型,提升其临床应用价值。综上所述,LDL-C、颈动脉粥样硬化斑块、BMI及AKP是CHD的有效预测指标,相较于Logistic预测模型,SVM模型在CHD筛查诊断中更具实用价值。
[参考文献]
[1]《中国心血管健康与疾病报告》编写组.《中国心血管健康与疾病报告2020》要点解读[J].中国心血管杂志,2021,26(3):209-218.
[2]张一帆,李长平,张莉莉,等.不同年龄心血管疾病患者血浆半乳凝集素3与低密度脂蛋白胆固醇的相关性[J].检验医学,2023,38(1):8-13.
[3]VOUTILAINENA,BRESTERC,KOLEHMAINENM,et al.Effects of data preprocessing on results of the epidemio-logical analysis of coronary heart disease and behaviour-related risk factors[J].Annals of Medicine,2021,53(1):890-899.
[4]GRAHAM IM,ANGELANTONIO E,VISSEREN F,et al.Systematic Coronary Risk Evaluation(SCORE)[J].Journal of the American College of Cardiology,2021,77(24):3046-3057.
[5]陈瑞芳,黄俏,杨永红,等.基于China-PAR模型正常高值血压与心血管病风险相关性研究[J].中国老年保健医学,2023,21(2):98-102.
[6]凌华毓.99m锝单光子发射计算机断层心肌显像与冠状动脉数字减影血管造影对冠心病的诊断价值比较[J].安徽医药,2021,25(5):1394-1396.
[7]王梦茹,蒋文,蔡昕添,等.40岁以上打鼾合并高血压患者5年内发生冠心病风险的预测模型的建立和验证[J].慢性病学杂志,2022,23(4):508-513.
[8]陆浩轩,徐瑾妍,程可爱,等.基于多因素回归分析和机器学习算法的冠心病预测模型构建及比较[J].宁波大学学报(理工版),2022,35(3):57-62.
[9]刘琼,余晖,周慧良.361例冠心病心绞痛患者急性心血管事件发生率及危险因素分析[J].心血管康复医学杂志,2021,30(1):26-29.
[10]刘海明,张娜,张俊仕.肌肉减少性肥胖与老年患者冠心病发病率及死亡风险的相关性研究[J].中华老年心脑血管病杂志,2023,25(7):680-683.
[11]张韶辉,苏强,赵永亮,等.基于LASSO回归对冠心病相关血脂指标的筛选[J].中国综合临床,2021,37(2):148-153.
[12]孟帆,陈芳雨,徐盼,等.触珠蛋白基因多态性与冠心病易感性的Meta分析[J].中国循证心血管医学杂志,2023,15(5):529-536.
[13]李鸿渐,王思月.血清白介素33,碱性磷酸酶与冠心病患者冠脉狭窄程度及不良心血管事件的相关性研究[J].中国实验诊断学,2021,25(4):487-490.
[14]吴鹏,季建国,赵霞.谷氨酰基转移酶水平对冠心病患者发生心房颤动的影响研究[J].实用心脑肺血管病杂志,2021,29(10):9-13.