Kütle Spektrometresi Verilerinin Analiziyle Prostat Ve Yumurtalık Kanserlerinin Belirlenmesi

thumbnail.default.alt
Tarih
2013-05-14
Yazarlar
Taşkın, Vedat
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Kanser hastalıkları ölüm nedeni olarak kalp ve damar hastalıklarının hemen ardından gelmektedir. Kanser hastalıkları genellikle yaşlılık dönemlerinde görülse de bu hastalıkların her yaştan insanı etkilediği de bilinen bir gerçektir. Kanser tedavisi üzerinde yapılan çalışmalar son yıllarda oldukça artmıştır. Bunun yanında erken teşhis konulması tedavi olasılığını arttırmaktadır. Yumurtalık ve prostat kanseri gibi bazı kanser türlerinde belirtiler kuvvetli olmadığı için erken teşhis oldukça zordur. Bu zorluğun üstesinden gelmek için erken tanı yöntemleri üzerinde hala çalışılmaktadır. Proteomların kütle spektrometresi ile analiz edilmesi sonucu elde edilen verilerin erken tanı için kullanılabileceği görülmüştür. Biyoinformatiğin bu alt kolu son yıllarda oldukça popülerlik kazanmış ve bu alanda bir çok çalışmanın yapılmasını sağlamıştır. Geliştirilen yöntemler ile kütle spektrometresi verileri üzerinde tümörün varlığını gösteren biyobelirteçler aranmaktadır. Bu alanda yapılan çalışmalarda genellikle bulunan biyobelirteçler veri kümesine bağımlı olmaktadır. Dolayısıyla veri kümesinden bağımsız yöntemlerin geliştirilmesi önem kazanmaktadır. Bu yöntemlerin kanser teşhisinde daha faydalı olacağı aşikardır. Bu çalışmada da veri kümesi ve kanser türünden bağımsız olarak kanser teşhisi yapılmaya çalışılmıştır. Bu amaçla ve yöntemlerin geçerliliğini sınamak üzere farklı makine öğrenmesi ve örüntü tanıma yöntemleri iki ayrı veri kümesi üzerinde test edilerek karşılaştırılmıştır. Kanser teşhisi için kullanılan proteomik verileri yüksek boyutlu olup verilerin ilk haliyle kullanılması oldukça zordur. Yüksek boyutun getirdiği problemlerden kurtulamak ve öznitelik çıkarmak için literatürde kullanılan bir çok çalışma incelenerek kullanılan yöntemlerden başarılı olanlar bu çalışmada denendi. İlk olarak ön işleme işlemlerinin devamı olacak şekilde t-test kullanıldı ve istatistiksel olarak anlamsız veriler ayıklandı. Böylece veri boyutunun biraz daha azalması sağlandı. Öznitelik çıkarımı aşamasında literatürde daha önce de kullanılan dalgacık analizi ve istatistiksel hesaplamalar bu çalışmada kullanıldı. Bu yöntemler ile karşılaştırmak üzere ilk defa bu çalışmada önerilen birtakım istatistiksel hesaplamalar kullanıldı ve yüksek başarımlar elde edildi. Öznitelik çıkarım yöntemlerinden sonra öznitelik seçimi için literatürde kullanılan ve başarılı sonuçlar veren çekirdek kısmi en küçük kareler yöntemi kullanıldı. Özellikle öznitelik çıkarımı ve seçimi üzerinde durulan bu çalışmada farklı sınıflayıcılar kullanılarak öznitelik çıkarma yöntemleri karşılaştırıldı. Bu amaçla çekirdek kısmi en küçük kareler yöntemi ile farklı boyutlarda öznitelik alınarak k-en yakın komşuluk (kNN), destek vektör makineleri (DVM) ve lineer diskriminant analiz (LDA) ile sınıflandırıldı. Yapılan denemeler sonucu yumurtalık kanserinin belirlenmesinde en iyi sonuç %95,3 ile dalgacık dönüşümü ve LDA’nın birlikte kullanımı ile elde edildi. Prostat kanserinde, kullanılan veri kümesindeki farklılıktan dolayı ilk önce tümörun (malign veya benign) var olup olmadığı belirlenmeye çalışıldı. Bu kısımda en yüksek başarı %97,3 ile bu çalışmada önerilen istatistiksel öznitelik çıkarımı ve kNN ile elde edildi. Daha sonra da tümörlü örnekler malign veya benign olarak sınıflandırıldı. Bu kısımda da en yüksek başarım %88,9 ile önerilen istatistiksel öznitelik çıkarımı ve kNN ile elde edildi.
Cells are the basic structural and functional units of the living organisms. All cells have the ability of proliferating under some control mechanism. When this control mechanism loses its function, cells start to divide and grow uncontrollably which leads the formation of tumors. Tumors can be categorized into two groups. The first group is called as benign tumors, which do not invade neighboring tissues and do not spread throughout the body. While the second group is called as malign tumors that can spread by the lymphatic system or bloodstream and thus can affect more distant parts of the body. These kinds of tumors are called as cancerous tumors. The early diagnosis of cancerous tumors has vital importance for a successful treatment process. For instance five year survival rate is 92.1% for stage-1 ovarian cancer, whereas this rate decrease until 11.6% for stage-5. As well as in some cancer types the symptoms cannot be strong (ovarian cancer, prostate etc. ), in case of that early diagnosis may not be possible. Generally, imaging systems are used for this purpose by performing an inner body scan, but the low specificity and sensitivity results of these methods are not still reliable enough to decide whether a cancerous tumor in its early stage exists or not. So, in most cases it is not possible to diagnose tumors, until they have already invaded surrounding tissues and metastasized throughout the body. This necessitates the need of different techniques for early diagnosis of cancer. In recent years different methods have concentrated upon early diagnosis. Searching tumors in sputum and bronchoscopy for breast cancer, endoscopy for gastric cancer, looking a substance in blood which is called CA-125 for ovarian cancer and PSA (prostate specific agent) for prostate cancer are some of these methods. However all of these methods cannot give a satisfactory result. Another method is analyzing proteomic patterns with mass spectrometry which can be used for many types of cancer. Furthermore this technique excels the mentioned methods with its high accuracy and easily applicability. Recently, mass spectrometry (MS) analysis of proteomics patterns has emerged as a new technology for the early diagnosis of cancer. In this method, a serum proteome (entire set of proteins in a serum sample) is first cleaved into small peptides, whose absolute masses are then measured by the mass spectrometer. These masses are then compared to the databases which are containing the known protein sequences. Thus, a mass spectrometry profile of the related sample is created. But note that, mass spectrometry in itself is not a diagnostic tool. In order to diagnose a disease, the obtained mass spectrometry profile must be analyzed by several computational methods. After an analysis, disease related biomarkers (proteins) are identified. Mass spectra, is a high dimensional data which consist of tens of thousands of m/z ratios and an intensity level for each m/z ratio. Currently, a low resolution SELDI-TOF MS (Surface Enhanced Laser Desorption/Ionization Time of Flight Mass Spectrometry) can measure up to 15500 data points that record data between 500 and 20000 m/z ratios. With a high resolution MS, the data points could be 400000. The high dimensionality of the MS data brings some difficulties for computational methods which are known as the “curse of dimensionality” and the “curse of data sparsity”. To address these problems before analyzing the MS data a dimensionality reduction stage should be performed. Three methods are used for this purpose: filtering, wrapper and embedded methods. Filtering methods use some statistical tests to evaluate features, such as the t-test, Wilcoxon test, Mann -Whitley test and Kolmogorov-Smirnov test. After applying one of these statistical tests to the data, a score is obtained for each point (feature). According to the obtained scores, statistically insignificant points are extracted from the data by setting a threshold value. One of the weaknesses of filtering methods is that, they consider all features individually and ignore the interactions between the features. Therefore, after a filtering process generally the obtained data will have highly correlated and thus redundant features, which will worsen the classification performance. Even though the filtering methods have the above mentioned disadvantage, they are still preferred as an initial dimension reduction step in many studies. In wrapper methods, dimension reduction process is integrated into the classification stage. In these methods, a subset of features are first selected with an algorithm and then classified with a classification method. According to the obtained classification error, the feature selection algorithm updates its parameters until the optimum subset of features is found. Since the dimensionality is high, usually a stochastic algorithm such as, genetic algorithm, particle swarm optimization and ant colony optimization is used for this purpose. The main disadvantage of this method is the computational load of the search algorithms. As in the wrapper methods, embedded methods also integrate the feature selection process with the classification stage. Moreover, their computational load is less, when compared to the wrapper methods. Therefore, they are sometimes preferred to the wrapper methods. Dimension reduction (feature selection and extraction) methods are not restricted to the above mentioned traditional methods for the MS data. Recently, wavelet analysis and statistical methods are used for this purpose. In the former one, the discrete wavelet transform (DWT) is applied to the MS data and approximation coefficients are obtained. Since the approximation coefficients represent the low frequency components, the obtained signal has a smoother form of the MS data with a low dimensionality. While in the latter one, the MS data is first divided into intervals and some statistical moments are then computed for the segments represented by these intervals. Both the wavelet analysis and interval based methods mentioned above, use filtering methods (such as t-test) as an initial dimension reduction step. In this study, a three stage dimension reduction strategy is proposed for prostate and ovarian cancer classification from the MS data. The initial stage consists of a filtering method (t-testing), while in the second stage four different methods, wavelet analysis, statistical method-1, statistical method-2 and statistical method-3 are used for comparison. First method, wavelet analysis is very effective tool for feature reduction process where it is commonly used in the literature for this aim. The second method, statistical method-1 is based on some statistical features which are used in the literature. The third and fourth methods, statistical method-2 and statistical method-3 are firstly used in this work in the view of feature extraction from proteomic patterns. The statistical method-2 is used before in literature for Electroencephalograpy (EEG) signals classification. The statistical method-3 is evolved version of statistical method-2 where a feature extraction method is changed with better one. In the last stage, a feature selection (transformation) method, kernel partial least square (KPLS) is used. KPLS is preferential method for feature selection due to its high speed and performance. KPLS is kernel based, iterative and supervised method so it can provide better performance and speed according to unsupervised methods, such as Principal Component Analysis (PCA). After the three stage dimension reduction process, the MS data are classified with k-nearest neighbor classifier (k-NN), support vector machines (SVM) and linear discriminant analysis (LDA). For the high-resolution ovarian cancer dataset, an accuracy of 95.3% is obtained with a combination of wavelet analysis and KPLS methods. The prostate cancer classification is handled in two phases. In the first phase, the low resolution prostate MS data are classified as normal and cancerous samples with an accuracy of %97.3. While in the second phase, the data are classified whether the samples are benign or malign with an accuracy of 88.9%. Here, the best results are obtained with a combination of statistical method-3 and KPLS.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2013
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2013
Anahtar kelimeler
sınıflama, çekirdek kısmi en küçük kareler, kütle spektrometresi, prostat kanseri, yumurtalık kanseri, dalgacık analizi, istatistiksel yöntemler, Classification, kernel partial least squares, mass spectrometry, prostate cancer, wavelet analysis, statistical methods
Alıntı