Please use this identifier to cite or link to this item: http://hdl.handle.net/11527/15569
Title: Diagnosis Of Thyroid Disease Via Support Vector Machines
Other Titles: Destek Vektör Makineleri İle Tiroid Hastalıkları Tanısı
Authors: Günel, Gülay Öke
Korhan, Nuri
10100172
Mekatronik Mühendisliği
Mechatronics Engineering
Keywords: Dvm
Destek Vektör Makineleri
Genetik Algoritmalar
Öznitelik Seçimi
Sınıflandırma
Tiroit Hastalıkları
Hipertiroidi
Hipotiroidi
Makine Öğrenmesi
Hastalık Tanısı
Svm
Support Vector Machines
Genetic Algorithms
Feature Selection
Classification
Thyroid Diseases
Hyperthyroid
Hypothyroid
Machine Learning
Diagnosis
Issue Date: 28-Jan-2016
Publisher: Fen Bilimleri Enstitüsü
Institute of Science and Technology
Abstract: Destek Vektör Makineleri Günümüzde en popüler Makine Öğrenmesi yöntemleri içerisinde yer alır. 1964 yılında Vladimir Vapnik tarafından alt yapısı oluşturulan bu yöntem günümüzde medikal analizden görüntü işlemeye, el yazısı tanımadan oyun programlarına kadar hemen her yerde kullanılır hale gelmiştir.Optimal Ayırıcı Düzlem esasına dayanan Destek Vektör Makineleri yöntemi yöntemi öncelikle veriyi lineer olarak iki sınıfa ayrılabilecek şekilde daha yüksek boyutlu bir uzaya taşır. Eğer verinin içerisindeki iki farklı sınıf bu uzayda ayrılabiliyorsa iki veri kümesinin arasına her iki sınıfın en yakın üyelerine eşit uzaklıkta olacak şekilde bir ayırıcı düzlem yerleştirilir.Bu şekilde öğrenme işlemini gerçekleştirdikten sonra sınıflandırılması istenecek herhangi bir örneği başarılı bir şekilde sınıflandırır. Eğer ilgili veri lineer olarak ayrılamıyor ise “esnek marjin” adı verilen bir yöntemle verinin mümkün olduğu kadar az hata ile sınıflandırılması sağlanır. Bu parametre kullanıcı tarafından veriye özgü ayarlanır.Tiroid bezi boynumuzun ön tarafında bulunan salgı bezidir. Tiroid bezinin görevi tiroid hormonlarını üretmek, depolamak ve gerektiğinde kana vererek metabolizmayı ayarlamaktır. Bu hormonları üretirken gıda ve su yardımı ile aldığımız iyot mineralini kullanır.Tiroid bezinin bozukluğundan kaynaklanan çeşitli hastalıklar vardır. Bunlardan en sık görülen hipertiroidizm ve hipotiroidizm hastalıklarıdır. Hipertiroidizm tiroid bezinin aşırı çalışması durumudur. Graves hastalığı veya benzeri durumlardan sonra ortaya çıkar. Hipotiroidizm tiroid bezinin az çalışması durumudur. Bu durum genellikle iyot eksikliği sonucu ortaya çıkar.Tiroid hastalıklarını teshis edebilmek için hastalardan kan örneği alınarak çeşitli hormon seviyesi değerleri incelenir.Genetik algoritmalar, herhangi bir sürekli veya süreksiz fonksinunun aldığı en düşük veya en yüksek değerleri bulmak için kullanılabilecek stokastik bir optimizasyon yöntemidir. İlk olarak  John Holland tarafından 1975 yılında ortaya atılmıştır.Öğrenme ve Test etme verileri 215 farklı kişinin test sonuçlarından elde edilmiştir. İlgili verileri elde edebilmek için “machine learning repository” adlı internet sitesinin veri tabanı kullanılmıştır. Verileri dağılımı: “Hipertiroid=35 sonuç, Hypotiroid=30 sonuç ve sağlıklı sonuç sayısı =150” şeklindedir. Tanıyı koyabilmek için kullanılan giriş verileri 5 adet (T3RU, T4, T3, TSH and MAD-TSH), çıkış ise bir adettir (0=sağlıklı,1=hipertiroid, 2=hipotiroid).Öznitelik Seçimi (Feature Selection), Sınıflandırma uygulamalarında ve veri madenciliğinde oldukça önemli bir yere sahiptir. Yüksek Boyutun Zararlılığı (Curse of Dimensionality) olarak adlandırılan, veri çok boyutlu olduğunda sınıflandırmanın çok zor, uzun zaman alan ve verimsiz olmasına sebebiyet veren problemin çözümünde oldukça etkilidir.Bu çalışmada öznitelik seçimi yöntemi olarak Fisher Skoru algoritması kullanılmıştır. Fisher ’in Sınıflandırma için ortaya attığı ilk yöntemden türetilen bu algoritma öznitelik seçiminde oldukça başarılıdır.Bu çalışmada tiroid hastalıklarının destek vektör makineleri aracılığı ile tanısı amaçlanmıştır. Bu tanıyı mümkün olan en yüksek doğrulukla yapabilmek için Genetik Algoritmalar ve öznitelik seçimi yöntemi olarak Fisher skoru”  yöntemi kullanılmıştır. Bu özellikler hastaların kan testi sonuçları sonuçlarından elde edilir. Bunlar T3 resin- test (Serumda doymamış trioglobulin ölçümü),T4 (Thyroxine), T3 (Triiodothyronine), TSH (tiroid uyarıcı hormon), ve MAD-TSH(vucut normal haldeyken ölçülen TSH değeri ile kana 200 migrogram tirotropin enjekte edildikten sonra ölçülen TSH değerinin farkı)  olmak üzere toplamda 5 adettir.Bu çalışma üç aşamadan oluşan altı deney sonucu içerir. Altı adet deney olmasının sebebi Fisher skoru kullanarak elde öğrendiğimiz oransal olarak daha önemsiz verileri giriş verilerinden (Input Data) oluşturduğumuz yeni giriş verileri ile yeni deneyler yapıp Öğrenme Ağı’nın sonuçlarını nasıl etkilediğini bulmak.İlk aşama Giriş ve çıkış verilerini (kan değerleri ve hastalık durumu) çapraz doğrulama (cross-validation) yöntemini kullanılarak rastgele bir şekilde öğrenme ve test verileri olarak ayırıp hastalık teşhisi yapabilen bir Destek Vektör Ağı oluşturmak (Öğrenme verileri ile ag’ı eğitme işlemi gerçekleştirilirken test verileri yardımı ile ağ’ın ne sınıflandırma becerisi ölçülür.) ve bu ağı bir fonksiyon içerisine yerleştirmek. Bu fonksiyonun giriş değeri yumuşak marjin katsayısı, çıkış değeri ise Öğrenme Ağı’nın yüzde cinsinden doğru çıkış verme oranıdır.İlk aşamada oluşturulan fonksiyonların optimum değerini (en yüksek doğruluk oranını verdiği değer) hangi giriş değerinde (yumuşak marjin katsayısı) aldığını öğrenmek için ikinci aşamada Genetik Algoritmalar yardımı ile optimizasyon gerçekleştirildi.İkinci aşamada bulunan optimum marjin katsayısı değeri üçüncü aşamada yeni öğrenme ağları oluşturmak için kullanıldı. Her bir dataset için ayrı ayrı oluşturulan altı farklı destek vektör sınıflandırıcısında en iyi sonucu verdiği parametre değeri (C katsayısı) kullanılanılmak üzere tasarlandı.Üçüncü ve son aşamada her bir hastalığın hormon değerlerine bakılarak tahmin edilmesi işlemini gerçekleştirmek için tasarlanan altı farklı network 10’ar defa test edilip gerekli sonuçlar (doğruluk, hassasiyet ve özgüllük değerleri) elde edildi.  Elde edilen sonuçlar kıyaslanarak hangi hastalığın teşhisi için hangi öznitelik değerlerini içeren veri seti kullanılması gerektiği belirlenmiştir. Ayrıca Genetik Algoritmalar yardımıyla optimizasyon işlemi yaparken dikkat edilmesi gereken bazı parametrelerin değişimini gösteren grafikler incelenerek yorumlanmıştır.
The thyroid gland is the organ that is located on the anterior side of our neck. The duty of thyroid gland is to produce and stock thyroid hormone and to regulate the metabolism by transferring thyroid hormone to the blood when it is needed. When thyroid gland does not secrete enough amount of hormones, pituitary gland makes thyroid gland produce more hormone by increasing TSH secretion.  Shortage of the hormones of thyroid gland is called hypothyroid.  If thyroid gland secretes too much hormones, TSH hormone, secreted from pituitary gland, decreases. That is, the more T3 and T4 hormones are in our blood, the less is the TSH hormone.  This condition is called hyperthyroid. All cells in our body are affected by thyroid hormones. The growth of human in mother’s womb, after birth and all metabolism functions are controlled by thyroid hormones. There is almost no organ or cell that is not affected by  thyroid hormones. Therefore early diagnosis of thyroid disease is undoubtedly important. Support Vector Machine (SVM) is an important learning machine that is based on a search for an optimal separating hyperplane that is able to separate the samples of two different classes. This research aims to construct a system based on classification via SVM for diagnosis of thyroid diseases. Since it is the matter of decision, the diagnosis of diseases can be predicted by classifiers. Having been a quite popular classification algorithm, SVM is among the best classifiers to deal with this duty.  Training and testing data consists of test results of 215 different people taken from a machine learning repository. 35 samples of hyperthyroid patients , 30 samples of hypothyroid patients and 150 healthy samples are used. Input space of data consists of 5 different inputs (T3RU, T4, T3, TSH and MAD-TSH). Feature subset selection is used to increase the accuracy of the corresponding classifier. By using feature selection, one can easily decrease the number of features. In this thesis Fisher Score Algorithm is used to perform this preprocessing procedure. The most important features in classification are obtained by Fisher Score Algorithm. Then the most important features are used to train the network.Another important feature in an SVM classifier is the selection of parameters values used in classification. Parameters are what make a classifier manipulatable in order to successfully classify the patterns. One of the most important parameters in SVM is slack variable. Slack variable is used when the data is not linearly or non-linearly separable (this could happen when there is noise or when it is really impossible to separate the patterns). Using slack variable prevents SVM to create useless optimally separating hyperplanes. The weight of slack variable is adjusted by a coefficient called Soft Margin constant “C”. Normally parameter C is adjusted by the user considering the characteristics of dataset. However, it is not easy to decide which value for C is optimal. This problem is handled by one of the most popular optimization algorithms called “Genetic Algorithm”. Genetic Algorithm is an optimization algorithm that is inspired by the nature of evolutionary process. In this thesis, an expert system is developed for the diagnosis of thyroid diseases, by combining these three methods.
Description: Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2016
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2016
URI: http://hdl.handle.net/11527/15569
Appears in Collections:Mekatronik Mühendisliği Lisansüstü Programı - Yüksek Lisans

Files in This Item:
File Description SizeFormat 
10100172.pdf1.28 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.