WikiEdge:ArXiv-2409.06585v1
本文的基本信息如下:
- 標題:Developing the Temporal Graph Convolutional Neural Network Model to Predict Hip Replacement using Electronic Health Records
- 中文標題:髖關節置換預測的時間圖卷積神經網絡模型開發與電子健康記錄的應用
- 發佈日期:2024-09-10T15:26:58+00:00
- 作者:Zoe Hancox, Sarah R. Kingsbury, Andrew Clegg, Philip G. Conaghan, Samuel D. Relton
- 分類:cs.LG, cs.AI
- 原文連結:http://arxiv.org/abs/2409.06585v1
摘要:背景:髖關節置換手術通過緩解疼痛和恢復活動能力來改善患者的生活。提前預測髖關節置換可以通過及時干預、優先考慮手術或康復的個體,以及利用物理治療來潛在地延遲關節置換的需求,從而減少疼痛。本研究旨在提前一年預測髖關節置換,以提高生活質量和健康服務效率。方法:我們根據之前的工作,採用時間圖卷積神經網絡(TG-CNN)模型,從40-75歲患者的ResearchOne電子健康記錄中提取初級醫療事件代碼,構建時間圖以預測髖關節置換風險。我們通過年齡、性別和多重貧困指數將髖關節置換病例與對照匹配。該模型在9,187個病例和9,187個對照上進行訓練,能夠提前一年預測髖關節置換。我們在兩個未見數據集上驗證該模型,並對類別不平衡進行重新校準。此外,我們進行了消融研究,並與四個基線模型進行了比較。結果:我們的最佳模型能夠提前一年預測髖關節置換風險,AUROC為0.724(95% CI:0.715-0.733),AUPRC為0.185(95% CI:0.160-0.209),在重新校準後實現了1.107的校準斜率(95% CI:1.074-1.139)。結論:TG-CNN模型通過識別患者軌跡中的模式,有效地預測了髖關節置換風險,可能改善對髖關節相關疾病的理解和管理。
章節摘要
這篇論文介紹了一種基於時間圖卷積神經網絡(Temporal Graph Convolutional Neural Network, TG-CNN)模型,用於預測電子健康記錄(Electronic Health Records, EHR)中的髖關節置換手術。研究的主要目的是提前一年預測髖關節置換,以改善患者的生活質量和提高衛生服務效率。研究方法包括構建時間圖,這些圖由40-75歲患者的初級保健醫療事件代碼組成,並通過匹配髖關節置換案例和對照組的年齡、性別及多重貧困指數來訓練模型。在兩個未見過的測試集上驗證了模型,並對類別不平衡進行了重新校準。此外,還進行了消融研究,並與四種基線模型進行了比較。研究結果顯示,最佳模型能夠提前一年預測髖關節置換風險,AUROC為0.724,AUPRC為0.185,並在校準後達到1.107的校準斜率。研究表明,TG-CNN模型通過識別患者軌跡中的模式有效預測髖關節置換風險,可能改善對髖關節相關疾病的理解和管理。關鍵詞包括髖關節置換、風險預測、時間圖、電子健康記錄。
- 引言:介紹了人口老齡化和肥胖率上升導致骨關節炎(OA)和髖關節置換的患病率增加,以及這些疾病對英國醫療保健系統的挑戰。
- 相關工作:回顧了使用臨床實踐研究數據鏈(CPRD)數據預測髖關節置換風險的研究,以及利用深度學習方法處理不規則採樣的醫療時間序列數據的研究。
- 方法:詳細描述了研究方法,包括隊列分析、數據提取、特徵選擇、時間圖表示、模型架構、比較模型和評估方法。
- 結果:展示了模型訓練和測試的隊列特徵,並通過卡方分析與國家關節登記處年度報告進行了比較。討論了模型在校準前後的表現,並進行了亞組分析。
- 討論:分析了隨機森林(RF)和邏輯回歸(LR)模型的性能,並討論了TG-CNN模型的優勢,如包括處方在內的特徵選擇對模型性能的影響。
- 結論:總結了TG-CNN模型在臨床決策中的應用潛力,以及未來研究的方向,包括模型的可解釋性和預測髖關節置換風險的時間範圍擴展。
研究背景
這篇文獻的背景主要集中在以下幾個方面:
- 髖關節置換手術的重要性與挑戰:
- 電子健康記錄(EHR)數據的潛力與挑戰:
- 電子健康記錄(EHR)數據在初級和次級醫療保健訪問期間被收集,提供了結構化和時間序列的信息,有助於預測算法的設計。
- 然而,EHRs中不規則的時間間隔為設計醫療保健中的預測算法帶來了挑戰。
- 時間圖卷積神經網絡(TG-CNN)模型的應用前景:
問題與動機
作者面對的是如何利用電子健康記錄(EHR)數據來預測患者未來進行髖關節置換手術的風險。具體問題包括:
- 如何從EHR中提取和利用結構化和時間序列信息,以預測患者的手術需求。
- 如何設計和訓練一個能夠處理EHR中不規則時間間隔數據的預測模型。
- 如何提高模型對不同患者群體的泛化能力,包括不同年齡、性別和經濟狀況的患者。
研究方法
這篇文獻的工作部分詳細介紹了如何開發和評估用於預測髖關節置換的時序圖卷積神經網絡模型(TG-CNN)。以下是這部分的主要內容:
- 背景與動機:
- 方法論:
- 數據收集與處理:
- 使用ResearchOne電子健康記錄(EHRs)數據,包括臨床和行政數據,涵蓋151,565名患者的記錄。
- 對患者的EHRs進行時間窗口化處理,以預測一年內發生的髖關節置換。
- 選擇了最常見的512個Read Codes來構建基於時序圖的EHR表示,同時包括了體質指數(BMI)作為預測因子。
- 模型架構:
- 使用TensorFlow構建了一個定製的3D CNN Keras層,利用稀疏線性代數處理512×512×100大小的時序圖表示。
- CNN層的輸出經過展平、批量歸一化,並與LSTM層(捕獲長期模式)、dropout層、密集層和人口統計特徵(如果包括)進行連接。
- 最終,模型使用分類交叉熵損失和sigmoid函數針對分類目標進行優化。
- 評估與校準:
- 遵循TRIPOD-AI聲明報告模型開發和預測模型。
- 在訓練集上進行5折交叉驗證以選擇超參數,並基於驗證集的平均準確率優化模型。
- 使用10%的測試數據集進行模型重新校準,以確保預測概率與測試集中結果的真實發生率相匹配。
- 在重新校準後,使用第二個未見過的測試集來驗證模型的性能。
- 結果:
- 討論與結論:
- 討論了TG-CNN模型在預測髖關節置換風險方面的有效性,以及如何通過識別患者軌跡中的模式來潛在地改善對髖關節相關疾病的理解和管理。
- 強調了模型在臨床決策支持工具開發中的潛力,包括促進信任、輔助患者-臨床醫生討論、提供個性化醫療和增強患者安全。
研究結論
根據提供的文獻內容,這篇論文的主要結論可以概括如下:
- TG-CNN模型的有效性:研究表明,通過使用時間圖卷積神經網絡(TG-CNN)模型,能夠有效預測一年內進行髖關節置換手術的風險。該模型通過分析患者軌跡中的模式,提高了對髖關節疾病理解和管理的潛力。
- 模型預測性能:在9,187個病例和9,187個對照組上訓練的模型,預測髖關節置換風險的AUROC(Area Under the Receiver Operating Characteristic Curve)為0.724,AUPRC(Area Under the Precision-Recall Curve)為0.185,經過重新校準後,校準斜率為1.107。
- 模型的臨床應用:TG-CNN模型有助於臨床決策,通過識別未來需要髖關節置換手術風險較高的個體,可以針對性地進行強化非手術治療或積極監測,從而可能減少患者疼痛時間,提高生活質量,並改善醫療效率和資源分配。
- 模型的改進和未來工作:未來的研究將探索基於該模型的臨床結果和潛在干預措施,以及如何將模型重新配置,以預測五年內需要髖關節置換的風險,為臨床醫生提供更多時間來應用干預和規劃。
術語表
這篇文章的術語表如下:
- 骨關節炎(Osteoarthritis):一種影響關節的疾病,通常由於關節軟骨磨損導致疼痛和活動受限。
- 電子健康記錄(Electronic Health Records, EHRs):指在醫療保健過程中收集的患者的電子版健康信息。
- 全髖關節置換(Hip Replacement):一種外科手術,用於治療嚴重的髖關節疼痛或功能障礙,通常與晚期骨關節炎有關。
- 時間圖卷積神經網絡(Temporal Graph Convolutional Neural Network, TG-CNN):一種用於處理時間序列數據的深度學習模型,能夠捕捉時間依賴性和複雜的模式。
- 接收者操作特徵曲線下面積(Area Under the Receiver Operating Characteristic Curve, AUROC):一種評估二分類模型性能的統計量,表示模型正確識別正類和負類的能力。
- 精準召回曲線下面積(Area Under the Precision Recall Curve, AUPRC):一種評估分類模型性能的指標,特別關注模型在不同閾值下精準度和召回率的平衡。
- 長短期記憶網絡(Long Short-Term Memory, LSTM):一種時間遞歸神經網絡架構,適合於處理和預測時間序列中間隔和延遲很長的重要事件。
- 三維卷積神經網絡(3D Convolutional Neural Networks, 3D CNNs):一種深度學習模型,通過卷積層處理三維數據,常用於圖像和視頻分析。
- 多重剝奪指數(Index of Multiple Deprivation, IMD):一種衡量地區社會經濟狀況的指標,通常基於居民的郵政編碼來評估。
- 稀疏線性代數(Sparse Linear Algebra):一種數學方法,用於高效處理和計算稀疏矩陣,廣泛應用於大規模數據處理和機器學習。