A classification of semantic and logopenic primary progressive aphasia: morphological and machine learning analysis
Authors
정다희
College
College of Medicine (의과대학)
Department
Others (기타)
Degree
석사
Issue Date
2023-02
Abstract
원발진행실어증(primary progressive aphasia, 이하 PPA)은 손상된 언어 기능에 따라 비유창형(nfvPPA), 의미형(svPPA), 발화부족형(lvPPA)으로 분류된다. 본 연구에서는 이 중 lvPPA와 svPPA 환자 집단이 그림설명 과제에서 산출한 품사를 분석함으로써 두 아형을 특징적으로 감별할 수 있는 변인들을 도출하고자 하였다. 또한 도출한 변수들이 lvPPA와 svPPA를 감별하는 정확성을 자동 분류기를 사용하여 평가하였다. 연구 대상자는 lvPPA 환자 20명(남 = 12 여 = 8; 연령 = 71.6±9.13세)과 svPPA 환자 16명(남 = 10, 여 = 6; 연령 = 70.4±6.23세)의 총 36명 PPA 환자들을 포함하였다. 그림설명 과제에서 산출한 발화를 전사한 후, 한국어 형태소 분석기인 UTagger를 사용해 품사 태깅을 하였다. 중증도, 연령, 교육년수를 보정한 뒤, 태깅 결과에서 PPA 아형에 따른 품사 및 5언(체언, 용언, 수식언, 관계언, 독립언) 개수와 ‘품사:총 형태소 수’, ‘명사:대명사’, ‘명사:동사’, ‘내용어:기능어’의 비율을 분석하였다. 또한 총 형태소 수, CIU 비율, 어휘 다양도를 측정하였다. 머신러닝 자동 분류 평가를 위하여 품사 변수를 데이터셋으로 모델을 학습시킨 뒤 아형을 가장 잘 분류하는 변수를 찾고자 하였다. 두 집단에서 각각 AQ가 60~90 사이에 해당하는 lvPPA 환자 10명과 svPPA 환자 10명의 데이터를 사용한 자동 분류 결과를 정확도, 정밀도, 재현율, F1 점수를 통해 비교하였다. 또한 lvPPA와 svPPA를 가장 잘 분류하는 학습 모델을 제시하였고, 변수의 중요도 분석을 통해 두 아형을 가장 잘 분류하는 변수를 도출하였다. 분석 결과, svPPA 환자들은 lvPPA 환자들에 비해 명사 다양도가 낮았고, lvPPA 환자들은 svPPA 환자들에 비해 발화량을 반영하는 총 형태소 수가 많았다. 아형 자동 분류 결과, 최대 정확도는 40%였으며, 동사 다양도와 총 형태소 수가 두 아형의 감별에 중요한 변수로 제시되었다. 다만, 머신러닝 분석에서는 각 유형의 특징을 잘 반영하지 못할 수 있는 경도(mild)의 중증도 환자들이 대다수를 차지하였기 때문에 분류 정확도가 낮았을 것으로 추정된다. 본 연구의 의의는 한국어를 모국어로 사용하는 lvPPA와 svPPA 환자들 각 아형에서 나타나는 표현 언어 손상 특징을 품사 측면에서 분석해 본 첫 번째 연구라는 데에 있다. 후속 연구로는 보다 다양한 중증도의 환자들을 포함한 횡단 연구 또는 시간에 따른 증상의 변화를 면밀히 관찰하는 종단 연구를 실시하여 품사 산출의 퇴행 특징을 알아볼 것을 제안하는 바이다.
Primary progressive aphasia (PPA) is a progressive neurodegenerative disease that leads to a gradual loss of language skills. PPA is subcategorized into the non-fluent variant (nfvPPA), semantic variant (svPPA), and logopenic variant (lvPPA). This study analyzed the grammatical morphemes produced by patients with lvPPA and svPPA in a picture description task and deduced linguistic variables that can be used for a differential diagnosis of the two PPA subtypes. The accuracy of variables as distinguishing characteristics of lvPPA and svPPA was evaluated using machine learning. Data from 16 svPPA (F = 6, age = 70.4 ± 6.23 years) and 20 lvPPA patients (F = 10, age = 71.6 ± 9.13 years) were analyzed. The patients’ responses in the picture description task from the Paradise Korea Western Aphasia Battery-Revised (P·K-WAB-R) were transcribed and parts of speech (POS) for each morpheme were tagged using UTagger, a Korean morphological analyzer. The POS tags were analyzed in terms of tokens and ratios (POS:total number of morphemes, noun:verb, and noun:pronoun) and compared between groups after adjusting for age, education level, language severity, and sex. POS were also analyzed after categorizing into content words and function words, and substantive, predicate, modifier, and postpositional particle. Tokens and ratios for each category were analyzed according to PPA subtypes. Correct information units (CIUs) and type-token ratios (TTR) were also compared between groups. For automatic subtyping, data from patients with an aphasia quotient (AQ) between 60 and 90 were used as the dataset. The Decision Tree (DT), Random Forests (RF), Artificial Neural Network (ANN), and Support Vector Machines (SVMs) were trained using the aforementioned morphological variables, and classification results were compared in terms of accuracy, F1 score, precision, and recall. A variable importance analysis was performed to identify variables that best classify the two PPA subtypes. Results showed that svPPA patients had a lower noun TTR than lvPPA patients, while lvPPA patients produced a greater number of morphemes compared to svPPA patients. The best-performing classification models were SVM and RF each with 40% accuracy, and verb TTR and the total number of morphemes were the best discriminating characteristics. Explanations for low automatic subtyping performance were suggested in terms of language severity, and the importance of confounding variables in the morphological analysis was highlighted. Further longitudinal studies involving patients with PPA analyzing the morphological production and cross-sectional studies including patients with varying severity are required for more conclusive evidence.