





















摘要: 肺炎仍然是全球主要的疾病和死亡原因,尤其是在醫療資源匱乏的環境中,因為缺乏影像檢查、實驗室檢測和專業護理。臨床評估依賴於多樣化的證據,包括症狀、呼吸模式、口述描述和胸部影像,使得前線篩查本質上是多模式的。然而,許多現有的計算方法仍然單模態,並主要集中於X光片。在本研究中,我們提出了MultiSense-Pneumo,一個以肺炎為導向的篩查和分級輔助的多模態研究原型,它整合了結構化的症狀描述符、咳嗽聲音、口述語言和胸部X光片。該系統結合了確定性症狀分級、基於LightGBM的聲音分類、使用ResNet-18的領域對抗X光片分析、基於transformer的語音識別以及一個可解釋的晚期融合算子。每個模態都轉換為一個標準化的擔憂信號,並匯聚成一個統一的篩查估計。融合權重是手動指定的,並被視為启发式、可解釋的參數,而不是學習或臨床優化的值。MultiSense-Pneumo是為在標準的筆記型電腦級別硬體上進行離線執行而實現的,但它並未被作為部署驗證或臨床驗證的診斷系統提出。實驗結果顯示,在合成領域變化下,X光片路徑在組件級別表現出強勁的性能,同時也突顯了重要的限制,尤其是咳嗽聲音的異常類別召回率降低以及缺乏配對的端到端多模態患者評估。因此,MultiSense-Pneumo被意圖作為篩查和分級研究框架和組件級別的原型。
| 主題: | 電腦視覺與模式識別 (cs.CV); 藝術智慧 (cs.AI); 機器學習 (cs.LG) |
| 引用格式: | arXiv:2605.02207 [cs.CV] |
| (或 arXiv:2605.02207v2 [cs.CV] 用於此版本) | |
| https://doi.org/10.48550/arXiv.2605.02207 透過DataCite發行的arXiv DOI |
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。