197 273

Cited 0 times in

An improved, assay platform agnostic, absolute single sample breast cancer subtype classifier

Other Titles
 향상된 에세이 플랫폼 agonistic, absolute 단일 샘플 유방암 서브타입 분류기 
Authors
 서미경 
College
 College of Medicine (의과대학) 
Department
 Others (기타) 
Degree
박사
Issue Date
2021-02
Abstract
While intrinsic molecular subtypes provide the important biological classification of breast cancer, subtype assignment of individuals is influenced by assay technology and study cohort composition. I sought to develop platform independent absolute single-sample subtype classifier based on the minimal number of genes. Pairwise ratios for subtype-specific differentially expressed genes from un-normalized expression data from 432 Breast Cancer (BC) samples of The Cancer Genome Atlas (TCGA) were used as inputs for machine learning. The subtype classifier with the fewest number of genes and maximal classification power was selected during cross-validation. The final model was evaluated on 5816 samples from 10 independent studies profiled with four different assay platforms. Upon cross-validation within the TCGA cohort, a random forest classifier (MiniABS) with 11 genes achieved the best accuracy of 88.2%. Applying MiniABS to five validation sets of RNA-seq and microarray data showed an average accuracy of 85.15% (vs. 77.72% for Absolute Intrinsic Molecular Subtype (AIMS)). Only MiniABS could be applied to five low-throughput datasets, showing an average accuracy of 87.93%. The MiniABS can absolutely subtype BC using raw expression levels of only 11 genes regardless of assay platform with higher accuracy than existing methods.

유방암에서 intrinsic 분자적 서브타입은 중요한 생물학적 분류로, 개인의 서브타입 예측은 에세이 기술과 스터디 코호트 composition에 영향을 받는다. 적은 유전자만을 활용한 플랫폼 independent absolute single sample 서브타입 분류기 (classifier)를 개발하였다. The Cancer Genome Atlas (TCGA)의 432개의 유방암 샘플의 비정규화(un-normalized)된 유전자 발현값을 사용하여 서브타입 특이적 차등 발현되는 유전자쌍의 발현 비율(ratio)을 머신 러닝(machine learning)의 인풋으로 사용하였다. 서브타입 분류기는 cross-validation 과정 동안 가장 분류 파워(classification power)가 있는 가장 적은 유전자의 개수가 선정되었다. 최종 모델은 4가지 서로 다른 에세이 플랫폼을 사용한 10개의 independent 스터디의 5816개의 샘플에 평가되었다. TCGA 코호트를 사용한 cross-validation 과정에서 랜덤 포레스트(random forest) 분류기 (MiniABS)는 11개 유전자 (FOXA1, MYBL2, CEP55, SFRP1, ESR1, MKI67, MLPH, FGFR4, PGR, ERBB2, KRT17)를 사용하여 88.2%의 정확도를 달성했다. MiniABS를 RNAseq과 마이크로 어레이로 구성된 총 다섯 개의 검증 데이터에 적용했을 때 85.15% (기존에 개발된 absolute 분류기인 Absolute Intrinsic Molecular Subtype (AIMS)의 경우 77.72%)의 평균 정확도를 보였다. 오직 MiniABS만 다섯개의 low-throughput 데이터에 적용될 수 있었고, 88.97%의 평균 정확도를 보였다. MiniABS는 오직 11개의 유전자 발현 값을 사용하여 어세이 플랫폼에 무관하게 기존의 방법보다 높은 정확도로 완벽하게 유방암을 분류할 수 있다.
Files in This Item:
TA02857.pdf Download
Appears in Collections:
1. College of Medicine (의과대학) > Others (기타) > 3. Dissertation
URI
https://ir.ymlib.yonsei.ac.kr/handle/22282913/185236
사서에게 알리기
  feedback

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse

Links