脑卒中多分类预后预测的深度集成优化方法

发布时间:2023-08-31 14:35:10   来源:心得体会    点击:   
字号:

叶 伟,陶永军,陈锡程,伍亚舟

1.陆军军医大学 军事预防医学系 军队卫生统计学教研室,重庆 400038

2.浙江省台州市立医院 神经内科,浙江 台州 318000

急性缺血性脑卒中(acute ischemic stroke,AIS)是脑卒中最常见、最易预后不良的发病类型[1-3]。AIS的有效预后预测对于患者的临床诊治和预后康复具有重要意义。

当前,利用传统机器学习预测脑卒中预后的研究已取得了一定进展。Matsumoto等[4]收集了单中心急性缺血性脑卒中患者的临床特征,运用线性回归或决策树集成学习构建了性能较优的预测模型,取得了92%的受试者特征曲线下面积(area under the curve,AUC)。Avery等[5]选取了缺血性脑卒中CT影像组学的特征,运用机器学习和特征选择算法构建了预测模型。Sung等[6]结合了临床和计算机断层扫描报告运用机器学习技术构建了预测模型,取得了86%的AUC值。Wang等[7]运用临床和影像组学特征构建缺血性脑卒中预后模型,取得了80%的AUC。2007至2018年间相关Meta分析[8]表明,89%(260篇)的AIS预后研究文章在方法上仅为回归分析,这揭示了数据和方法改良的必要性。

既往研究在数据、方法、应用等层面存在较大提升空间,这限制了预后预测能力的提升。就数据而言,联用多种类型特征并采用多分类结局变量构建模型的既往研究相对较少。就方法而言,采用深度学习和集成学习预测缺血性脑卒中预后的研究更为少见。这些问题为预测准确性的提升带来了较大障碍。

近年来,深度学习、集成学习等新兴人工智能技术被提出和应用,存在广阔的应用前景。Heo等[9]运用急性缺血性脑卒中的临床特征构建预后预测模型,运用深度神经网络取得的AUC值为88%。Hwangbo等[10]利用集成学习以预测缺血性脑卒中患者6个月的死亡率,AUC值为78.3%,其95%置信区间为75.8%到80.8%,且证实了集成学习的性能优于单一学习模型,这也在诸多研究中得到了验证[11-14]。这些研究为本文提供了一定研究思路和启示,但深度学习和集成学习的联合应用于AIS的预后预测鲜有报道。此外,随着深度神经网络层数的增长及集成的加入,网络参数量可能呈现几何倍数的增长,应用中存在较大难点[15-17]。因此,本文将利用AIS多类型特征,以深度学习、集成学习为契机,构建深度集成学习模型并实施参数优化,从而进一步分析比较新兴人工智能方法的应用效果。

本文贡献和创新可总结如下。(1)对AIS临床和影像组学特征进行特征提取和融合,旨在更加全面和有效地处置高维特征。(2)选择深度集成学习进行训练,增添了在脑卒中预后预测中方法的多样性。(3)构建了改良人工蜂群算法,并对深度集成学习方法进行超参数优化,提高了模型的精确度。(4)采用脑卒中预后三分类结局(正常组、轻度组、中重度组),提升了分级的针对性。总之,相较于既往研究,本文模型有更好的准确性和泛化性,可依据具体问题和实际场景灵活应用。

1.1 数据来源

本采用患者入院时大脑三维MRI图像提取影像组学特征,并融合临床特征,根据深度集成学习算法构建模型进行分级预测。

本课题组回顾性收集了浙江省台州市立医院神经内科在2021年7月至2022年2月期间确诊为AIS的患者,共计331例,最终纳入本实验为317例。纳入标准:(1)首次确诊且符合急性缺血性脑卒中的诊断标准;
(2)患者临床资料完整且可获得3D大脑MRI图像,MRI影像清晰、无伪影;
(3)颅部未接受过外科手术等任何形式的治疗。排除标准:合并肝肾功能不全、血液系统疾病、恶性肿瘤和其他常见的心脑血管等疾病。

患者标签选用美国国立卫生研究院卒中量表(national institute of health stroke scale,NIHSS),以评估患者出院时的预后情况。依据NIHSS评分[18-19]进行分组:正常组(<1分)62例、轻度组(1~4分)213例、中重度组(≥5分)42例。

1.2 数据预处理

图像数据预处理选择ITK-SNAP 3.6.0软件,具体步骤如下。

(1)将收集到的图像(DICOM格式)转换成Python软件可操作的图像(NIFTI格式)。

(2)由主治医师标注三维MRI图像的病灶感兴趣区域(region of interest,ROI)进行标注,使用大津(OSTU)阈值法获取粗略分割掩码,再针对各切片的病灶行手动精分割,将切片组合为该患者的3D掩膜标签。该过程如图1所示。

图1 患者的3D掩膜标注过程Fig.1 Patient’s 3D masking process

(3)将图像按原始3D图像与3D掩膜标签对应整理,随后运用Python中的Pyradiomics包[20]提取影像组学特征。依据患者ID号匹配相应的NIHSS评分分级标签。

基于预处理后AIS影像和临床的融合特征,构建了改良人工蜂群算法优化的深度集成学习模型(improved artificial bee colony algorithm-deep ensemble learning,IABC-DEL),技术路线如图2所示。模型构建过程可分为特征融合、模型构建和模型优化。

图2 深度集成优化模型流程图Fig.2 Flow chart of IABC-DEL model for AIS fusion feature

2.1 特征融合

特征融合可解决特征间量纲差距。因此,在高维特征融合过程中进行特征选择,将重要性高的特征纳入模型中。

针对临床和影像组学特征各自存在的差异,本文实施了个性化处理措施,详细特征融合过程如图3所示。

图3 特征融合过程Fig.3 Schematic of feature fusion process

在临床特征中,利用组间比较选择出对结局变量有统计学意义的自变量。随后,利用独热编码将变量归置于[0,1]间。独热编码可将离散特征的取值扩展至欧式几何空间,特征离散的取值对应欧式几何空间的某个点。

在高维影像组学定量特征中,本文首先进行归一标准化处理,其次以方差过滤法过滤掉大量差异性小的特征,随后通过基于随机森林(random forest,RF)模型的Embedded嵌入法,对特征进行权重排序,旨在选出对结局变量有用的特征。

最后,本文结合临床和影像组学的特征形成了融合特征,并采用Borderline-SMOTE算法[21]对融合特征进行平衡化处理,旨在规避偏移的发生。

2.1.1 临床特征筛选

从患者临床特征中,本文提取了性别、年龄、血液中总胆固醇值、血液中低密度脂蛋白值、高血压史、糖尿病病史、冠心病史、同型半胱氨酸血症、房颤、吸烟、喝酒、入院时NIHSS评分、TOAST分型、OCSP分型等14个特征。分析各临床特征对于出院时NIHSS分级的效果,进而筛选出性别、糖尿病病史、入院时NIHSS评分、TOAST分型和OCSP分型这5个有统计学意义的特征,如表1所示。

表1 临床特征筛选的结果Ta ble 1 Results of screening for clinical features

2.1.2 影像组学特征筛选

用Python的影像组学特征分析工具包(Pyradiomics包)获得每个患者的3D影像组学特征,共计1 781个。可分为7类:一阶统计量342个、基于3D形状14个、灰度共生矩阵456个、灰度游程矩阵304个、灰度大小区域矩阵304个、灰度依赖性矩阵266个以及邻域灰度差矩阵95个。

对1 781个影像组学特征实施方差过滤法和Embedded嵌入法筛选特征,以阈值为横坐标,特征数作为主纵坐标,随机森林算法得到的准确率作为次纵坐标绘制阈值散点图并拟合曲线。根据图4(a)结果,以方差阈值为0.06筛选出115个特征后,以选出特征为特征变量、以NIHSS为结局变量,以0.015作为阈值实施Embedded嵌入法,最后对纳入的11个特征进行重要性排序,如图4(b)所示。

图4 影像组学特征选择过程Fig.4 Image omics feature selection process

2.2 模型构建

以DNN、LSTM和GRU模型为基学习器构建深度集成学习模型。

2.2.1 基学习器

将本文使用的深度学习基学习器介绍如下。

深度神经网络(deep neural networks,DNN)指隐藏层数量超过单层的神经网络。输入层与隐藏层、隐藏层与隐藏层及隐藏层与输出层间均对应于一个线性关系,可表达为:

其中,yi为后一个神经元,xi为与yi相连的特征或神经元,σ为该层的激活函数,n为该神经元所连接的神经元个数或特征数,wi为特征与神经元之间或神经元与神经元之间的权重系数,b为常量。

长短期记忆网络(long-short term memory,LSTM)是为解决循环神经网络的梯度消失或梯度爆炸问题而提出[22-23]。其循环单元结构如图5所示。

图5 LSTM循环单元结构图Fig.5 LSTM recurrent unit structure diagram

该单元结构通过引入一个新的内部状态Ct-1以记录当前状态的患者特征信息,并进行内部信息传递。首先,利用当前状态的患者特征信息xt和上一时刻隐藏状态ht-1计算输入门it、遗忘门ft和输出门ot。然后,通过输入门it和遗忘门ft分别控制保留的患者历史特征信息和当前状态特征信息,得到新的Ct。最后,再利用输入门ot将内部状态患者特征信息传递给隐藏状态ht。

门控循环单元(gated recurrent unit,GRU)[24]将LSTM网络的输入门it与遗忘门ft合并成一个更新门,并可结合xt和ht-1的信息获得输出yt和传递给下一个隐层信息ht。GRU的内部主要包括重置门控r和更新门控z两个门控系统,可各自表达为:

其中,δ为GRU单元的门控,即Sigmoid激活函数。wr与wz各代表两个门控系统的权重系数。

2.2.2 深度集成学习

在深度学习领域,主流的集成学习方法包括Hardvoting、Soft-voting和Stacking等[25-27]。以DNN、LSTM和GRU模型为基学习器构建深度集成学习模型,结构如图6所示,其中图6(b)中基学习器概率数值均为示例,不代表实际概率。

图6 集成学习示意图Fig.6 Ensemble learning diagram

在Hard-voting中,每个分类器投票给一个类标签,以获得一半以上选票的标签为最终输出类标签。

在Soft-voting中,将模型预测样本类概率的均值作为标准,以概率最高对应的类为预测结果。

在Stacking中,在前述基学习器的基础上,以随机森林(random forest,RF)为元学习器,继而实现更高的预测准确性,最终构建了深度集成学习(deep ensemble learning,DEL)模型。利用DNN、LSTM、GRU网络模型分别拟合训练集,训练过程中各自进行参数优化,训练集利用五折交叉验证,将输出结果纵向拼接为新特征,新特征作为新的训练集;
测试集运用上述已训练的基学习器输出结果的拼接值作为新的测试集。训练集和验证集具有一致的分类结局变量。模型对新训练集进行训练,新测试集得出的分类结果为DEL模型的预测结果。

2.3 模型优化

深度学习网络隐藏层的层数和神经元的个数较大程度上影响了模型参数量和效率。选择合适的隐藏层和神经元数量至关重要,可能较大程度上影响着神经网络的性能。人工蜂群算法的原理是模仿蜜蜂采蜜的行为,通过个体蜂局部寻优行为在蜂群中获得最优解。以优化问题的解空间维度指代神经网络的隐藏层层数,以蜜源的位置信息指代神经元的个数,以测试集的准确率指代问题所得值。采蜜过程包含三类蜂群的采蜜行为:采蜜蜂采集初始蜜源,观察蜂根据采蜜蜂采蜜的花蜜量寻找新的蜜源,侦察蜂在蜜源附近随机寻找新的蜜源。最终,依据最大所得值确定各深度学习网络的最优参数。

在基线算法上,本文添加了无限折叠迭代混沌映射(iterative chaotic map with infinite collapses,ICMIC)以提升其全局搜索能力,并添加非线性自适应惯性权重以加快收敛速度。在执行上述改良后,本文构建了IABC,现将算法的操作步骤介绍如下。

(1)设问题的解空间是D维,解空间的维度即各隐藏层的层数(D={1,2,3,4,5}),各个采蜜蜂和蜜源进行逐个对应,采蜜蜂与观察蜂数量相同为bn,蜜源的位置对应问题的可行解,蜜源的花蜜对应可行解xi的适应度Fi,即测试集的准确率。可迭代次数为t,第t次适应度Fi的标准差为St。利用ICMIC映射初始化各蜜源xi,蜜源间的关系可表达为:

其中,a为任意常数,a∈(0,∞)。

(2)为蜜源xi分配一只观察蜂,在D维的空间进行搜索,则新蜜源xˉid可表达为:

其中,i=1,2,…,bn,d=1,2,…,D,k≠i,wt为引入的非线性自适应惯性权重。

其中,wmax、wmin为惯性权重的上下界值,b为阻尼因子,一般为0~1之间,Tmax为设定的最大迭代次数,k(t)为种群优化离散参数,如下式:

(3)依据下式,计算观察蜂找到的蜜源被跟随的概率:

(4)采蜜蜂将对当前花蜜量(测试集的准确率)与观察蜂找到的蜜源的花蜜量(测试集的准确率)进行对比,根据贪婪选择的方法确定保留的蜜源。

(5)判断蜜源在给定步骤(定义为控制参数limit<0.01)内的适应值Fi并未提高,则满足被放弃的条件。若满足,对应的观察蜂变为侦察蜂,不满足转至步骤(7)。

(6)侦察蜂根据式(9)随机产生新蜜源x′id:

其中,xdmax和xmdin是第d维的上下界。

(7)迭代次数t=t+1;
判断算法是否满足最大迭代次数Tmax,若满足则终止,输出最优解,否则转至步骤(2)。

改良人工蜂群算法各参数设置如表2。

表2 IABC各参数设置Table 2 Parameter setting of IABC

2.4 实验环境和参数设置

在配备GPU的Linux工作站进行训练,处理器为Intel Xeon®Gold 6246R CPU@3.40 GHz,运行内存为256 GB,GPU为NVIDIA Tesla V100,软件平台基于Python 3.7,所提算法均基于Tensorflow 2.8框架实现。对于各种算法模型,以7∶3的比例拆分为训练集与测试集,在训练集上对模型进行拟合,通过网格搜索法确定除隐藏层层数与神经元个数以外的超参数,五折交叉验证后选择最佳参数模型。最后使用测试集进行模型测试,以评估各模型的泛化性。本文网格搜索法确定的超参数包括学习率设置为10−4,神经网络的批大小为20,动量项设置为0.9,epoch为32。另外,各类别样本数量分布不均衡将导致模型的预测偏倚。为消除此影响,采用Borderline-SMOTE算法对融合特征进行数据增强。

本研究深度学习网络的实现基于Tensorflow2.0的Keras包,运用Adam优化器对深度学习模型进行梯度优化,将交叉熵损失函数与SoftMax激活函数结合用以更好获得分类效果。三种基学习器神经网络初始设置为双层,各层神经元个数为10个,IABC算法超参数优化后固定模型。

各深度神经网络的最优参数为DNN隐藏层为2层,各层神经元的个数为34与34;
LSTM隐藏层为2层,各层神经元的个数为24与24;
GRU隐藏层为1层,该层神经元的个数为39。集成学习方法中,各基学习器采用与单一方法时相同的最优参数设置。

2.5 评价指标

本文为三分类任务,评价指标包括:准确率(ACC)、精确率(Macro-P)、召回率(Macro-R)、F1分数(Macro-F1 score)和曲线下面积(Macro-AUC)。取值范围均为0~1之间,取值越大代表分类效果越好。

在混淆矩阵中,每个分类i均有TPi、TNi、FPi和FNi。TPi代表将真实的分类i正确地预测为分类i,FPi代表将真实的分类非i错误地预测为分类i。各评价指标表达为:

其中,三分类任务的n取值为3。

为求解Macro-AUC的值,以各分类的真阳性率作为纵轴、以各分类的假阳性率作为横轴而绘制各分类的ROC曲线。各分类ROC曲线下面积就是各分类的AUC取值。而该模型的Macro-AUC为所有分类的AUC求和取平均。

3.1 不同方法的分类性能比较

以融合特征为例分析各种方法的分类性能,如表3、图7~8所示。基于总体加权准确率、Macro-AUC等指标从方法类型的角度对实验结果进行分析:首先从总体上看,IABC-DEL的所有指标最优,其准确率为88.02%、精确率为88.01%、召回率为88.02%、Macro-F1分数为87.88%和Macro-AUC为96.27%;
其次,由Macro-AUC的结果可知,优化后的深度学习网络优于机器学习、深度学习和集成学习方法;
再者,从准确率、精确率、召回率和Macro-F1分数上看,集成学习方法整体上优于机器学习和优化前后的深度学习网络。基于此,将比较方法类型之间或方法类型内的各项指标,比较结果与可能原因如下。

图7 深度学习优化前后的ROC曲线Fig.7 ROC curve before and after deep learning

3.1.1 单一学习方法(机器学习/深度学习)的分类性能

在融合特征上,比较了单一机器学习与深度学习方法的分类性能。结果表明:在默认优化方式(即网格搜索法)下,三种深度学习方法(GRU、DNN和LSTM)的性能优于其他三种机器学习方法,DNN的ACC最高,达到了86.46%,LSTM的Macro-AUC最佳,达到了95.35%,详见表3中。决策树的节点结构在训练集训练过程中易趋向过拟合,可能陷于局部最小值;
随机森林分类树亦在训练过程中容易产生过拟合;
支持向量机则较多分类结局变量更善于处理二分类结局变量的数据。这些可能导致机器学习模型在此次任务中性能表现不佳。

表3 各种方法的分类性能比较(融合特征)Table 3 Effect comparison of various methods(fusion feature) 单位:%

3.1.2 集成学习方法的分类性能

在融合特征上,比较了不同集成方法的分类性能。本研究获得Hard-voting,Soft-voting和Stacking三种集成学习模型在融合特征的分类结果,详见表3。研究结果表明:基于Stacking的DEL性能优于Hard-voting和Soft-voting,Macro-AUC值达到了95.02%。在深度集成方面,本文利用Stacking的集成学习方式将三种强监督学习器进行了有效的结合,从而使模型准确度得到了提升。这证实了Stacking算法更适合融合特征AIS的NIHSS预后分级的预测,分析原因在于Stacking可有效从基学习器、元学习器中提取融合特征的有效信息,获得更高的预测效果[28-29]。

3.1.3 优化前后的分类性能比较

IABC的优化对象为深度神经网络的层数和神经元。因此,本文以深度学习模型为例,说明优化前后的分类性能比较,如表3、图7~8所示。结果表明:相较于未经优化的深度学习方法和集成方法(GRU、DNN、LSTM、Hard-voting、Soft-voting和DEL),经IABC优化后的模 型(IABC-GRU、IABC-DNN、IABC-LSTM、IABC-Hard-voting、IABC-Soft-voting和IABC-DEL)的分类效果均得到提升。其中,DEL在优化后准确率和Macro-AUC分别提高了0.52个百分点和1.25个百分点。

图8 集成学习优化前后的ROC曲线Fig.8 ROC curve before and after ensemble learning

对于深度集成学习而言,参数的优化对于模型运行效率和准确性至关重要,因此有必要引入新型智能算法。相较于传统优化算法,本文的IABC算法在收敛速度和结果精度等方面有所提升,具有更好的全局搜索能力和更高的预测精度。

图9 不同特征下IABC-DEL模型的ROC曲线Fig.9 ROC curve of IABC-DEL in different features

表4 不同特征的分类效果比较(IABC-DEL)Table 4 Classification performance comparison in different features(IABC-DEL) 单位:%

3.2 不同特征的分类性能比较

利用上述最佳的IABC-DEL模型对不同类型特征进行预测,基于临床和影像特征的融合特征在所有指标中均获得了最优的结果。而临床特征预测效果优于影像组学特征的预测效果,其原因可能是收集的AIS患者的三维MRI图像大多为正常组和低度组,使得获取的3D掩膜图大多体积较小,从而导致提取的影像组学特征较于临床特征差异性不够。如表4与图9的结果表明,临床特征与影像组学特征分别包含了患者不同方面的特征信息,融合不同类型的特征信息能够更全面地、更好地反映患者的整体特征,从而获得更好的分类预测效果。

3.3 数据平衡算法的分类性能比较

为了更好地验证类别不平衡分布对分类性能的影响,利用IABC-DEL模型对原始数据、5种平衡算法处理后数据进行分级预测,结果如表5、图10所示。Borderline-SMOTE平衡算法处理后,在5个指标上IABC-DEL模型均可取得最优的分类效果。其原因可能是该算法使用边界上的少数类样本合成新样本的方法,更好地改善AIS患者各样本的预后类别分布。在未平衡的原始数据上,因各类别分布的不均衡,使得正常组的Macro-AUC(91.18%)明显高于低度组(77.71%)和中重度组(71.96%)。而在接受平衡后,这种预测偏差得到了有效降低。

图10 各种平衡模型的ROC曲线Fig.10 ROC curve of various balance methods

表5 各种平衡方法的效果比较(融合特征和IABC-DEL)Table 5 Effect comparison of various balance methods(fusion feature and IABC-DEL) 单位:%

3.4 与既往研究的分类性能比较

表6为本文方法与既往经典方法的性能进行了比较结果,结果表明:IABC-DEL的Macro-AUC、ACC等分类性能明显优于既往方法,且既往5篇研究都是基于二分类结局。证明本文构建的IABC-DEL模型对于AIS患者预后的NIHSS分类预测是有效的,通过特征融合与超参数寻优,使网络模型具备更丰富的患者特征信息和更优的预测性能。

表6 与既往研究效果的比较Table 6 Comparison with previous studies

在实际预测效果的比较中,既往研究的方法限制较大,对于分类性能的提升作用有限。如Alaka等[30]利用单一机器学习模型预测AIS患者治疗后的相关功能障碍,在内部数据取得了65%~72%的AUC,在外部数据上取得了66%~71%的AUC。Wang等[7]利用AIS预后进行二分类预测,取得了80%的AUC。这些方法往往使用单一数据或单一方法,或仅执行了二分类预测,在预测过程中存在较多限制。

本文提出一种基于AIS特征融合的深度集成学习模型IABC-DEL,在特征融合、深度集成和超参数优化等方面进行了尝试和创新。在特征融合方面,通过对临床特征的卡方检验和独热编码与对影像组学特征的归一标准化处理和特征筛选,有效地消除特征量纲和数量级等问题,且选取对结局变量有重要意义的特征,为后续的模型构建奠定基础。在深度集成方面,本文利用Stacking的集成学习方式将三种强监督学习器进行了有效的结合,从而使模型准确度得到了提升。在结果变量方面,本文执行了AIS三分类预测,所得结果具有较高的准确性,在临床应用中有较好的指导作用。同样,本文研究存在着一些局限性,其不足之处在于数据为单中心收集,且模型的验证为内部验证。未来,将获取多中心数据集,并利用外部数据集进行外部验证。

在临床诊疗过程中,因医疗资源紧张、患者个体化差异大的特征,通过院前资料预测AIS患者的预后对临床诊治较为重要。结合实际,本文收集并提取了临床与影像组学特征,利用特征融合、深度集成和超参数优化等理念构建了预后预测模型,旨在提升患者预后预测的精度,为临床预测模型的构建提供新的思路,对患者的临床辅助诊疗和预后康复治疗具有重要意义。未来,在扩大医院的收集范围和增加搜集的样本量外,本文还将考虑对搜集的医学影像资料进行自动分割,旨在降低人力成本,进而自动化、精准化、快捷化地完成预后预测任务。

猜你喜欢组学分类深度分类算一算数学小灵通(1-2年级)(2021年4期)2021-06-09深度理解一元一次方程中学生数理化·七年级数学人教版(2020年11期)2020-12-14口腔代谢组学研究国际口腔医学杂志(2019年3期)2019-05-31分类讨论求坐标中学生数理化·七年级数学人教版(2019年4期)2019-05-20深度观察艺术品鉴证.中国艺术金融(2018年8期)2019-01-14深度观察艺术品鉴证.中国艺术金融(2018年10期)2019-01-08深度观察艺术品鉴证.中国艺术金融(2018年12期)2018-08-26数据分析中的分类讨论中学生数理化·七年级数学人教版(2018年6期)2018-06-26基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究天然产物研究与开发(2018年2期)2018-04-04教你一招:数的分类初中生世界·七年级(2017年9期)2017-10-13