WikiEdge:ArXiv-2409.06585v1
本文的基本信息如下:
- 标题:Developing the Temporal Graph Convolutional Neural Network Model to Predict Hip Replacement using Electronic Health Records
- 中文标题:髋关节置换预测的时间图卷积神经网络模型开发与电子健康记录的应用
- 发布日期:2024-09-10T15:26:58+00:00
- 作者:Zoe Hancox, Sarah R. Kingsbury, Andrew Clegg, Philip G. Conaghan, Samuel D. Relton
- 分类:cs.LG, cs.AI
- 原文链接:http://arxiv.org/abs/2409.06585v1
摘要:背景:髋关节置换手术通过缓解疼痛和恢复活动能力来改善患者的生活。提前预测髋关节置换可以通过及时干预、优先考虑手术或康复的个体,以及利用物理治疗来潜在地延迟关节置换的需求,从而减少疼痛。本研究旨在提前一年预测髋关节置换,以提高生活质量和健康服务效率。方法:我们根据之前的工作,采用时间图卷积神经网络(TG-CNN)模型,从40-75岁患者的ResearchOne电子健康记录中提取初级医疗事件代码,构建时间图以预测髋关节置换风险。我们通过年龄、性别和多重贫困指数将髋关节置换病例与对照匹配。该模型在9,187个病例和9,187个对照上进行训练,能够提前一年预测髋关节置换。我们在两个未见数据集上验证该模型,并对类别不平衡进行重新校准。此外,我们进行了消融研究,并与四个基线模型进行了比较。结果:我们的最佳模型能够提前一年预测髋关节置换风险,AUROC为0.724(95% CI:0.715-0.733),AUPRC为0.185(95% CI:0.160-0.209),在重新校准后实现了1.107的校准斜率(95% CI:1.074-1.139)。结论:TG-CNN模型通过识别患者轨迹中的模式,有效地预测了髋关节置换风险,可能改善对髋关节相关疾病的理解和管理。
章节摘要
这篇论文介绍了一种基于时间图卷积神经网络(Temporal Graph Convolutional Neural Network, TG-CNN)模型,用于预测电子健康记录(Electronic Health Records, EHR)中的髋关节置换手术。研究的主要目的是提前一年预测髋关节置换,以改善患者的生活质量和提高卫生服务效率。研究方法包括构建时间图,这些图由40-75岁患者的初级保健医疗事件代码组成,并通过匹配髋关节置换案例和对照组的年龄、性别及多重贫困指数来训练模型。在两个未见过的测试集上验证了模型,并对类别不平衡进行了重新校准。此外,还进行了消融研究,并与四种基线模型进行了比较。研究结果显示,最佳模型能够提前一年预测髋关节置换风险,AUROC为0.724,AUPRC为0.185,并在校准后达到1.107的校准斜率。研究表明,TG-CNN模型通过识别患者轨迹中的模式有效预测髋关节置换风险,可能改善对髋关节相关疾病的理解和管理。关键词包括髋关节置换、风险预测、时间图、电子健康记录。
- 引言:介绍了人口老龄化和肥胖率上升导致骨关节炎(OA)和髋关节置换的患病率增加,以及这些疾病对英国医疗保健系统的挑战。
- 相关工作:回顾了使用临床实践研究数据链(CPRD)数据预测髋关节置换风险的研究,以及利用深度学习方法处理不规则采样的医疗时间序列数据的研究。
- 方法:详细描述了研究方法,包括队列分析、数据提取、特征选择、时间图表示、模型架构、比较模型和评估方法。
- 结果:展示了模型训练和测试的队列特征,并通过卡方分析与国家关节登记处年度报告进行了比较。讨论了模型在校准前后的表现,并进行了亚组分析。
- 讨论:分析了随机森林(RF)和逻辑回归(LR)模型的性能,并讨论了TG-CNN模型的优势,如包括处方在内的特征选择对模型性能的影响。
- 结论:总结了TG-CNN模型在临床决策中的应用潜力,以及未来研究的方向,包括模型的可解释性和预测髋关节置换风险的时间范围扩展。
研究背景
这篇文献的背景主要集中在以下几个方面:
- 髋关节置换手术的重要性与挑战:
- 电子健康记录(EHR)数据的潜力与挑战:
- 电子健康记录(EHR)数据在初级和次级医疗保健访问期间被收集,提供了结构化和时间序列的信息,有助于预测算法的设计。
- 然而,EHRs中不规则的时间间隔为设计医疗保健中的预测算法带来了挑战。
- 时间图卷积神经网络(TG-CNN)模型的应用前景:
问题与动机
作者面对的是如何利用电子健康记录(EHR)数据来预测患者未来进行髋关节置换手术的风险。具体问题包括:
- 如何从EHR中提取和利用结构化和时间序列信息,以预测患者的手术需求。
- 如何设计和训练一个能够处理EHR中不规则时间间隔数据的预测模型。
- 如何提高模型对不同患者群体的泛化能力,包括不同年龄、性别和经济状况的患者。
研究方法
这篇文献的工作部分详细介绍了如何开发和评估用于预测髋关节置换的时序图卷积神经网络模型(TG-CNN)。以下是这部分的主要内容:
- 背景与动机:
- 方法论:
- 数据收集与处理:
- 使用ResearchOne电子健康记录(EHRs)数据,包括临床和行政数据,涵盖151,565名患者的记录。
- 对患者的EHRs进行时间窗口化处理,以预测一年内发生的髋关节置换。
- 选择了最常见的512个Read Codes来构建基于时序图的EHR表示,同时包括了体质指数(BMI)作为预测因子。
- 模型架构:
- 使用TensorFlow构建了一个定制的3D CNN Keras层,利用稀疏线性代数处理512×512×100大小的时序图表示。
- CNN层的输出经过展平、批量归一化,并与LSTM层(捕获长期模式)、dropout层、密集层和人口统计特征(如果包括)进行连接。
- 最终,模型使用分类交叉熵损失和sigmoid函数针对分类目标进行优化。
- 评估与校准:
- 遵循TRIPOD-AI声明报告模型开发和预测模型。
- 在训练集上进行5折交叉验证以选择超参数,并基于验证集的平均准确率优化模型。
- 使用10%的测试数据集进行模型重新校准,以确保预测概率与测试集中结果的真实发生率相匹配。
- 在重新校准后,使用第二个未见过的测试集来验证模型的性能。
- 结果:
- 讨论与结论:
- 讨论了TG-CNN模型在预测髋关节置换风险方面的有效性,以及如何通过识别患者轨迹中的模式来潜在地改善对髋关节相关疾病的理解和管理。
- 强调了模型在临床决策支持工具开发中的潜力,包括促进信任、辅助患者-临床医生讨论、提供个性化医疗和增强患者安全。
研究结论
根据提供的文献内容,这篇论文的主要结论可以概括如下:
- TG-CNN模型的有效性:研究表明,通过使用时间图卷积神经网络(TG-CNN)模型,能够有效预测一年内进行髋关节置换手术的风险。该模型通过分析患者轨迹中的模式,提高了对髋关节疾病理解和管理的潜力。
- 模型预测性能:在9,187个病例和9,187个对照组上训练的模型,预测髋关节置换风险的AUROC(Area Under the Receiver Operating Characteristic Curve)为0.724,AUPRC(Area Under the Precision-Recall Curve)为0.185,经过重新校准后,校准斜率为1.107。
- 模型的临床应用:TG-CNN模型有助于临床决策,通过识别未来需要髋关节置换手术风险较高的个体,可以针对性地进行强化非手术治疗或积极监测,从而可能减少患者疼痛时间,提高生活质量,并改善医疗效率和资源分配。
- 模型的改进和未来工作:未来的研究将探索基于该模型的临床结果和潜在干预措施,以及如何将模型重新配置,以预测五年内需要髋关节置换的风险,为临床医生提供更多时间来应用干预和规划。
术语表
这篇文章的术语表如下:
- 骨关节炎(Osteoarthritis):一种影响关节的疾病,通常由于关节软骨磨损导致疼痛和活动受限。
- 电子健康记录(Electronic Health Records, EHRs):指在医疗保健过程中收集的患者的电子版健康信息。
- 全髋关节置换(Hip Replacement):一种外科手术,用于治疗严重的髋关节疼痛或功能障碍,通常与晚期骨关节炎有关。
- 时间图卷积神经网络(Temporal Graph Convolutional Neural Network, TG-CNN):一种用于处理时间序列数据的深度学习模型,能够捕捉时间依赖性和复杂的模式。
- 接收者操作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUROC):一种评估二分类模型性能的统计量,表示模型正确识别正类和负类的能力。
- 精准召回曲线下面积(Area Under the Precision Recall Curve, AUPRC):一种评估分类模型性能的指标,特别关注模型在不同阈值下精准度和召回率的平衡。
- 长短期记忆网络(Long Short-Term Memory, LSTM):一种时间递归神经网络架构,适合于处理和预测时间序列中间隔和延迟很长的重要事件。
- 三维卷积神经网络(3D Convolutional Neural Networks, 3D CNNs):一种深度学习模型,通过卷积层处理三维数据,常用于图像和视频分析。
- 多重剥夺指数(Index of Multiple Deprivation, IMD):一种衡量地区社会经济状况的指标,通常基于居民的邮政编码来评估。
- 稀疏线性代数(Sparse Linear Algebra):一种数学方法,用于高效处理和计算稀疏矩阵,广泛应用于大规模数据处理和机器学习。