





















요약:폐렴은 여전히 전 세계적인 발병률과 사망률의 주요 원인으로 남아 있으며, 영상, 실험실 검사, 전문가의 치료에 접근이 제한된 저자원 환경에서 특히 그렇습니다. 임상 평가는 증상, 호흡 패턴, 구어 설명, 폐 영상과 같은 다양한 증거에 의존하며, 이로 인해 전선 검사는 본질적으로 다모드입니다. 그러나 많은 기존의 계산적 접근법은 단일모드로 남아 있으며 주로 방사선 영상에 집중합니다. 본 연구에서는 폐렴 관련 검사와 적재 지원을 위한 다모드 연구 프로토타입인 MultiSense-Pneumo를 제시합니다. 이 시스템은 구조화된 증상 설명자, 콕헤드 오디오, 구어 언어 및 폐 방사선 영상을 통합합니다. 시스템은 결정론적 증상 적재, LightGBM 기반의 소리 분류, ResNet-18을 사용한 도메인 적대적 방사선 영상 분석, 트랜스포머 기반의 음성 인식, 해석 가능한 후이온 연산기를 결합합니다. 각 모드는 정규화된 우려 신호로 변환되어 통합된 검사 추정치로 집계됩니다. 이온 연산자는 수동으로 지정되며, 학습된 값이나 임상적으로 최적화된 값이 아닌, 추정 가능하고 해석 가능한 매개변수로 취급됩니다. MultiSense-Pneumo는 표준 노트북 클래스 하드웨어에서 오프라인 실행을 염두에 두고 구현되었지만, 배포 검증되거나 임상 검증된 진단 시스템으로 제시되지 않습니다. 실험 결과는 합성 도메인 이동 하에서 방사선 경로의 구성 요소 수준 성능이 강력함을 보여주었으며, 동시에 중요한 한계점을 강조하기도 했습니다. 특히 콕헤드 오디오의 이상 클래스 재현율 감소와 쌍대적인 끝-투-끝 다모드 환자 평가의 부재를 포함합니다. 따라서 MultiSense-Pneumo는 검사와 적재 연구를 위한 프레임워크 및 구성 요소 수준 프로토타입으로 의도되었습니다.
| 주제: | 컴퓨터 비전 및 패턴 인식 (cs.CV); 인공지능 (cs.AI); 머신 러닝 (cs.LG) |
| 참조: | arXiv:2605.02207 [cs.CV] |
| (또는 arXiv:2605.02207v2 [cs.CV] 이 버전용) | |
| https://doi.org/10.48550/arXiv.2605.02207 DataCite를 통한 arXiv 발행 DOI |
이 콘텐츠는 인셔셔RSS(RSS 리더)가 자동으로 집계한 것으로 읽기 참고용입니다. 원문 출처 — 저작권은 원저작자에게 있습니다.