CNN-BiLSTM 하이브리드 모델을 활용한 심전도 부정맥 분류: MFCC 및 Softmax 특성의 과업 의존적 유효성 평가
Other Titles
ECG Arrhythmia Classification Using a Hybrid CNN-BiLSTM: Task-Dependent Evaluation of MFCC and Softmax Effectiveness
Authors
이병훈
College
College of Medicine (의과대학)
Department
Others
Degree
석사
Issue Date
2025-08
Abstract
본 연구는 ECG(Electrocardiogram, 심전도) 신호 분석에 있어 기존 딥러닝 기반 접근법의 한계를 보완하기 위해, 음성 신호 처리에서 널리 사용되는 MFCC(Mel-Frequency Cepstral Coefficients)를 ECG에 적용하는 시도를 제안했다. 기존의 FFT나 웨이블릿 변환 기반 방식은 시간 정보 손실 혹은 다양한 파형 패턴을 포괄하기 어려운 한계를 지닌 반면, MFCC는 비선형 주파수 특성과 시간 정보를 동시에 반영할 수 있는 장점을 가진다. 본 연구는 MFCC 기반 입력을 활용한 하이브리드 딥러닝 모델(ConvLSTM, CNN+BiLSTM) 구조를 설계하였으며, MFCC 적용 여부 및 세그먼트 길이(2초/3초), 합성곱 계층의 활성화 함수(ReLU/Softmax) 등 다양한 조건 하에서 성능 비교를 수행하였다. 특히 CNN 계열 합성곱 계층에 일반적으로 사용되지 않는 Softmax 함수를 실험적으로 적용한 결과, 주요 특징의 선택적 강조가 가능해져 성능 향상에 기여함을 확인하였다. 실험 결과, MFCC와 Softmax를 함께 적용한 CNN+BiLSTM 모델이 F1-score 기준 최고 성능(0.93078)을 기록하였고, MFCC 미적용 모델과의 비교에서도 일관된 우위를 보였다. 추가적으로 MFCC 필터뱅크 수를 조절한 실험과 다중 클래스 분류 확장 실험을 통해 입력 구성과 과업 조건 변화에 따른 성능 민감도를 검토하였고, Q파형을 제외한 임상적 유의 클래스만을 대상으로 평가함으로써 실제 적용 가능성도 함께 탐색하였다. 이러한 분석은 MFCC 기반 심전도 분류가 단순한 구조적 개선을 넘어, 임상적 판단과 실시간 모니터링 시스템 구현에 기여할 수 있음을 시사한다.
This study proposes the application of Mel-Frequency Cepstral Coefficients (MFCC), commonly employed in speech signal analysis, to the analysis of ECG (Electrocardiogram) signals in order to address limitations found in existing deep learning-based approaches. Traditional methods based on FFT or wavelet transforms often suffer from temporal information loss or struggle to capture diverse waveform patterns. In contrast, MFCC offers the advantage of simultaneously reflecting nonlinear frequency characteristics and temporal features. Hybrid deep learning architectures, including ConvLSTM and CNN+BiLSTM, were designed using MFCC-based inputs. Model performance was evaluated under varying conditions, including MFCC application, segment length (2s/3s), and activation functions (ReLU/Softmax) in convolutional layers. Notably, the experimental application of the Softmax function—unconventionally applied to convolutional layers—facilitated selective emphasis on salient features and contributed to improved performance. The CNN+BiLSTM model combining MFCC and Softmax maintained a consistently higher performance than models without MFCC. In addition, the model's response to different input configurations and classification settings was investigated by modifying the number of MFCC filter banks and applying a multi-class classification scheme. By excluding Q-waveforms and focusing on clinically relevant classes, this study also explored the practical applicability of the approach. These findings suggest that MFCC-based ECG classification extends beyond structural enhancements and may contribute to real-time clinical decision-making and the development of advanced monitoring systems.