基于自然语言处理的多模态糖尿病预测模型

2023-08-03 09:18:16高豪俊蒋思清
当代医药论丛 2023年14期
关键词:集上结构化机器

高豪俊,蒋思清,吴 健*

(1.浙江大学医学院,浙江 杭州 310058 ;2.浙江大学睿医人工智能研究中心,浙江 杭州 310000)

糖尿病已成为当今时代最严重和最常见的慢性病之一。2021 年全球糖尿病患者数量超过5 亿人,估计患病率超过10%,预计到2045 年患者数将超过7亿[1]。随着病情的发展,糖尿病将引起诸多并发症,影响患者的生存质量,缩短其预期寿命,给其家庭和社会带来巨大的经济负担[2-3]。由于此病早期通常没有症状,患者往往不能及时发现自身的疾病[4]。而通过相关早期筛查、及时干预可有效预防或延缓其并发症的出现[5-6]。因此,需要开发一种简单有效的筛查方法。目前已经有许多研究采用机器学习算法来预测糖尿病,如随机森林、支持向量机、决策树等,并且展现出了优秀的区分能力[7-10]。但这些研究对于饮酒、运动量、家族史等危险因素均是以分类变量的形式作为模型进行输入。而此类信息在现实电子病历系统中通常是以自由文本的形式保存,且由于内容复杂,难以直接转换为分类变量。通过模型直接利用这些文本信息更符合现实场景的需求。深度学习作为机器学习的一个分支,近年来飞速发展,在文本、图像、语音等非结构化数据的处理上有着出色的表现[11-12]。Transformer 是目前自然语言处理领域的主流架构[13]。本文利用体检数据中的结构化和非结构化文本数据在Transformer 架构的基础上构建多模态糖尿病预测模型,并与其他仅能使用结构化数据的模型进行对比。现报道如下。

1 数据来源

数据来源为杭州市每天健康体检与健康管理服务平台的多家医院健康体检数据。这项研究获得了浙江大学公共卫生学院医学伦理委员会的伦理审批(伦理审查编号ZGL202107-4)。所有患者信息均已完成去标识化处理。我们纳入2011 年至2020 年有进行过葡萄糖耐量试验的体检记录,排除了病史中带糖尿病描述的记录,最终纳入6 家医院的共17 976 份体检记录。我们选择其中一家医院构成数据集Ⅱ,作为外部验证集,剩余5 家医院共同构成数据集Ⅰ,用作模型的训练和内部验证。

我们依据糖尿病诊断标准将数据分为两类(0 为未患病,1 为患病),诊断依据包括:空腹血糖≥7.0 mmol/L、葡萄糖耐量试验中餐后2 小时血糖≥11.1 mmol/L 或糖化血红蛋白≥6.5%。

我们采用空腹血糖和既往糖尿病预测模型常用的危险因素来搭建模型,包括性别、年龄、体重指数、甘油三酯、收缩压、舒张压、腰围、体重、家族史、病史、烟酒史。其中家族史、病史和烟酒史为文本数据。

2 方法

我们参照FT-Transformer 的方法对数值型和分类型变量进行嵌入处理[14],转换为d 维向量表示。对于文本变量,我们采用中文预训练的BERT 模型进行语义提取[15],再通过一层全连接层转变为d 维向量,同嵌入处理后的其他变量拼接后输入Transformer 模型进行分类预测。Transformer 模型采用2 层编码器结构。得益于Transformer 在多个领域的通用性,该模型可扩展其他类型的数据,我们将其命名为可拓展的糖尿病预测模型(extensible diabetes prediction model, EDPM)。

本文采用既往研究中表现较好的MLP、逻辑回归、随机森林、支持向量机和XGBoost 进行对比[16-17]。所有模型均在数据集Ⅰ上进行10 折交叉验证,并在数据集Ⅱ上进行外部验证。由于类别存在明显的不平衡,我们采用准确率、F1 分数、受试者工作特征曲线下面积(AUC)来评估模型性能。

3 结果

各模型在内外部验证集上的表现如表1 所示。只采用结构化数据的情况下,传统机器学习模型的表现最优,多数AUC 均达到0.94。引入本文数据后,EDPM 的表现相较无文本有了明显提升,在外部验证集上的AUC(0.93)超过了其他所有模型,但在内部验证集上的表现仅与最佳的机器学习模型相当(AUC=0.94)。

表1 各模型在验证集上的表现

4 讨论

实验结果表明,在只采用结构化数据的情况下,传统机器学习算法依旧是当下最优的选择。深度学习算法在结构化数据上的表现要略差于传统机器学习模型。可能是由于表格数据的内容已经是经过人为筛选得出的,等同于已经经过了一次特征工程,所以不像图像和文本数据那样拥有丰富的特征供模型学习,而且实验特征数量较少,使得深度学习无法发挥其在高维复杂数据上的强大学习能力。

加入文本后,EDPM 的AUC 有了明显的提升。可见EDPM 是能够从文本数据中学习到与糖尿病相关的信息的。饮酒、体力活动少、红肉摄入量高等作为糖尿病的重要风险因素[18],由于种类复杂,难以形成较为简单统一的记录方式。自由文本可携带的信息更丰富,对于医护人员临床工作的开展也更友好,是当下对此类信息最好的记录方式。EDPM 可以在不改变临床医护人员工作习惯的条件下,提高对糖尿病患者预测的准确性。EDPM 还具有传统机器学习所不具备的拓展能力,只要在模型输入端加上特征提取模块,就可以实现不同类型数据的多模态融合。此外,临床上还有许多文本类型的数据,如主诉、检查报告等。这些都有望成为辅助决策的参考因素,进一步提高预测的准确性。

当然,我们的研究也有一定的局限性。由于进行葡萄糖耐量试验的人群大部分是糖尿病高风险人群,导致我们的数据中糖尿病患者比例要远高于正常人群,分布情况和实际筛查情况相差较大,可能对模型的表现造成一定的影响。尽管深度学习模型可以产生准确的预测,但其可解释性差,常被视为黑盒模型。临床医生通常会因为推理过程不明确而不愿意接受机器建议[19]。这是未来深度学习需要改善的一个痛点。

猜你喜欢
集上结构化机器
机器狗
环球时报(2022-07-13)2022-07-13 17:18:39
机器狗
环球时报(2022-03-14)2022-03-14 18:19:44
促进知识结构化的主题式复习初探
Cookie-Cutter集上的Gibbs测度
结构化面试方法在研究生复试中的应用
计算机教育(2020年5期)2020-07-24 08:53:00
链完备偏序集上广义向量均衡问题解映射的保序性
未来机器城
电影(2018年8期)2018-09-21 08:00:06
复扇形指标集上的分布混沌
基于图模型的通用半结构化数据检索
计算机工程(2015年8期)2015-07-03 12:20:35
无敌机器蛛