Microwave spectroscopy based breast cancer diagnosis using support vector machines

thumbnail.default.placeholder
Tarih
2020-07-16
Yazarlar
Önemli, Emre
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Institute of Science and Technology
Özet
Interactions of electromagnetic (EM) fields with materials relies on their intrinsic dielectric properties. Knowledge of the dielectric values of each material allows to develop electromagnetic technologies in many fields including medical technologies. There are a variety of electromagnetic medical technologies such as Microwave Imaging, Electrical Impedance Tomography and radiofrequency ablation and they promise faster, safer and low-cost applications. They rely on inherent differences among the dielectric properties of various biological tissue groups and health conditions. Hence, knowledge of the tissue dielectric properties of different biological tissues is crucial for developing EM healthcare technologies. Many works have been performed to investigate difference between dielectric properties of healthy and malignant tissues. It has been discovered that healthy and malignant tissues differ for the EM interactions because of the disperancies in their dielectrical properties. This contrast have been attributed to more water presence in malignant tumors. Breast carcinoma became one of the most researched cancer because of its high incidence and mortality rate. It is responsible for twenty three percent of new cancers and fourteen percent of cancer deaths in total. Thus, early diagnosis of the breast cancer is gaining more importance. Currently, there are some diagnostic methods such as mamography or MRI. However, they have some drawbacks such as harmful effects and low accuracy. Lately, microwave imaging (MWI) gained many interests. MWI fundamentally relies on the inherent dielectric contrast between healthy and malignant tissues. In cancer resection surgeries, determination of clear surgical margins is also possible using dielectric properties. Numerous studies were performed to expand the knowledge of the dielectric properties. However, existing dielectric datasets do not include every tissue type, frequency and temperature. Hence, more studies are needed. Open-ended coaxial probe has became the most preferred measurement method, because it is non-destructive, easy and suitable for biological materials. More dielectric data requires fast and accurate classification methods. For medical applications, most preferred one is Support Vector Machines (SVM). Being a supervised classification method, SVM is widely used because of its high classification performance on medical data. In this study, performance of SVM and infinite feature selection was investigated on the dielectric data of female rat normal breast tissues and malignant tumors in microwave frequencies. Measurements were conducted between 0.5 GHz and 6 GHz with 0.55 GHz intervals at 101 frequency points. Relative permittivity, conductivity and combination of them were tested separately. Firstly, they were tested without feature selection, raw dielectric data was also compared with normalization and logarithm of the dielectric data. Raw permittivity and combined data outperformed others resulting in 100% accuracy. Note that cross validation (CV) technique does not allow memorization of the learning model. Selecting top 100 features, the algorithm resulted in 100% accuracy with permittivity data whereas using top 50 features, it resulted in 99.23% accuracy with combined data. Using nested cross validation, features were selected as top 1 to top 100. Raw permittivity data gave more than 99% accuracy for more than sixty features. Using only one feature, 83.69% accuracy was obtained. Logarithm of the conductivity data resulted in 90.31% and 90% accuracy using one feature with linear and RBF kernels respectively. Best result of conductivity data is 98% using raw data and selecting top 70 features. With one feature, frequency of 5.505 GHz resulted in the best result. S11 response was also tested to avoid dielectric property calculation and to design narrow band devices. Note that this response indicates the energy transfer between probe and biological tissue related to tissue intrinsic electrical properties. Logarithm of the data outperformed with 93.85% accuracy using 10-fold linear SVM. Feature selection step was performed with 10-fold CV. With top 100 features, logarithm of data resulted in slightly higher performance as 91.85% accuracy with RBF kernel. With top 50 features, raw data was slightly better with 85.85% accuracy using linear SVM. Nested CV was applied to logarithm of S-parameter data. Selecting top 10 to 100, with decreasing number of features, accuracy dropped from 91.69% to 87.23% for RBF kernel and 91.38% to 87.08% for linear kernel. Besides, using top 1 to 10 features, accuracy dropped from 87.23% to 86.92% for RBF kernel and 87.08% to 83.08% for linear kernel. Best feature was corresponding to real part of S11 response at 610 MHz. The results show that dielectric measurement data can become acceptable diagnostic tool for breast cancer diagnosis. Thus, development of the EM medical technologies requires more tissue dielectric data. This study provides more dielectric data to the literature and it provides a perspective for analysing the dielectric data on the classification manner.
Elektromanyetik alanlarla maddeler arasındaki etkileşim her maddenin kendine özgü dielektriksel özelliğine bağlıdır. Bu özellikler, her bir materyale kendine özgü bir grup elektriksel karakteristik sağlamaktadır. Materyallerin dielektrik özelliklerinin bilinmesi, bir çok alanda elektromanyetik teknolojilerin gelişimine olanak vermektedir. Bu teknolojiler aynı zamanda medikal alandaki uygulamaları da kapsar. Elektromanyetik etkileşimleri baz alan medikal teknolojiler, tanıda ve tedavide kullanılmak amacıyla giderek daha da yaygınlaşmaktadır. Bu teknolojiler daha hızlı, daha güvenli ve daha düşük maliyetli uygulama imkanları vaat etmektedirler. Bu tarz avantajlar özellikle son yıllarda birçok araştırmacıyı, dikkatini elektromanyetik teknolojilere yoğunlaştırmak konusunda teşvik etmektedir. Bu teknolojiler çeşitli doku tipleri arasında ve dokuların farklı sağlık koşulları içerisinde dielektriksel özellikler açısından bir aykırılık bulunduğu varsayımına dayanmaktadır. Bu sebeple, biyolojik dokuların dielektriksel özelliklerinin bilinmesi, elektromanyetik teknolojilerin geliştirilmesi açısından kritik bir rol oynamaktadır. Geçtiğimiz on yıl içerisinde, sağlıklı ve kanserli dokuların dielektriksel özellikleri arasındaki farkı araştıran birçok çalışma gerçekleştirilmiştir. Bu çalışmalarda, sağlıklı ve kanserli dokuların elektromanyetik etkileşim konusunda farklı oldukları keşfedilmiştir. Bu fark dilektrik özelliklerdeki aykırılığa dayandırılmaktadır. Sağlıklı ve kanserli dokular arasındaki bu aykırılığın, kanserli tümörlerde daha fazla su içeriği olmasından kaynaklandığı ileri sürülmektedir. Kanser türleri arasından en çok ilgi çekenlerden biri meme kanseridir. Bunun sebebi meme kanserinin yüksek insidans ve mortalite oranına sahip olmasıdır. Her yıl, tüm dünyada bir milyondan fazla meme kanseri tanı almaktadır. Meme kanseri yeni kanser vakalarının yüzde yirmi üçünden, toplam kanser ölümlerinin yüzde on dördünden sorumlu tutulmaktadır. Özellikle gelişmiş ülkelerde, meme kanseri büyük bir sağlık sorunudur. Ayrıca, batılılaşmaya yönelik yaşam tarzı değişikliklerine bağlı olarak meme kanseri insidansı giderek artmaktadır. Bu yüzden, meme kanserinin erken tanısı zaman geçtikçe daha fazla önem kazanmaktadır. Mevcut durumda, X-ray mamografi ve manyetik rezonans görüntülemesi gibi bazı tanı yöntemleri mevcuttur. Fakat, bu yöntemlerin sağlığa zararlı olma ve düşük doğruluk gibi bazı dezavantajları mevcuttur. Son zamanlarda meme kanserinin erken tanısında mikrodalga görüntüleme yöntemi araştırmacıların oldukça ilgisini kazanmıştır. Çünkü, mikrodalga görüntülemenin daha hızlı, daha güvenli ve daha yüksek doğruluğa sahip bir görüntüleme yöntemi olacağı varsayılmaktadır. Mikrodalga görüntüleme uygulamaları, sağlıklı ve kanserli dokular arasındaki dielektrik özellik farklılığına dayalıdır. Kanser rezeksiyon operasyonlarında, temiz cerrahi sınırların belirlenmesi de doku dielektrik özelliklerinin belirlenmesi ile olası olmaktadır. Bu sebeplerden dolayı, dilelektrik özellik bilgi birikiminin genişletilmesi amacıyla çok sayıda çalışma yürütülmüştür. Buna rağmen, mevcut dielektrik data her doku çeşidini, frekansı ve sıcaklığı içermemektedir. Bu sebeple, biyolojik dokuların dielektrik özelliklerini daha fazla anlamak amacıyla daha fazla çalışmanın yapılmasına ihtiyaç vardır. Doku dielektrik özellikleri farklı ölçüm yöntemleri kullanılarak elde edilmektedir. Bu metotlar iletim hattı, tetrapolar empedans, pertürbasyon kavitesi ve açık uçlu koaksiyel prop tekniklerini içermektedir. Bu ölçüm yöntemleri arasından, açık uçlu koaksiyel prop tekniği en çok tercih edilen yöntemdir. Çünkü bu yöntem tahrip edici olmayıp, örnek hazırlama süreci kolaydır ve biyolojik malzemeler için uygundur. Daha fazla dielektrik verinin ölçümü ve depolanması, hızlı ve yüksek doğruluğa sahip sınıflandırma metotlarını gerektirmektedir. Bu sorunun üstesinden gelmek amacıyla, çeşitli makine öğrenmesi algoritmaları geliştirilmiştir. Medikal uygulamalarda en çok tercih edilen makine öğrenmesi yöntemlerinden biri Destek Vektör Makineleri yöntemidir. Bir denetimli sınıflama yöntemi olarak Destek Vektör Makineleri, medikal verilerdeki yüksek sınıflandırma performansından dolayı yaygın olarak kullanılmaktadır. Bu çalışmada mikrodalga frekanslarında dişi sıçanların normal meme dokusu ve kötü huylu meme tümörlerinin dielektrik verileri sınıflandırılarak, Destek Vektör Makineleri yönteminin bu verilerdeki performansı araştırılmıştır. Bu amaçla ilk olarak, dielektrik veriler hayvan dokularından toplanmıştır. Veri toplama işlemini gerçekleştirmek için, öncelikle 30 adet yetişkin dişi sıçan kontrol ve deney grubu olmak üzere iki gruba bölünmüştür. Meme kanserini başlatmak amacıyla deney grubuna 7,12-Dimetilbenzantrasen (DMBA) kimyasal ajanı uygulanmıştır. Daha sonra, açık uçlu koaksiyel prop tekniği kulanılarak her iki hayvan grubundan ölçümler gerçekleştirilmiştir. S-parametreleri toplanmış ve Vektör Network Analizörü (VNA) ile bilgisayar yazılımı kullanılarak bu parametreler dielektrik özellik verisine dönüştürülmüştür. Ölçümler 0.5 GHz ile 6 GHz arasında 0.55 GHz aralıklarla 101 frekans noktasında gerçekleştirilmiştir. Doku dielektrik ölçümleri sonrasında, hayvan dokuları tumör derecelendirilmesi amacıyla patolojik incelemeye gönderilmiştir. Sağlıklı ve tümör örneklerinin sınıflandırılması amacıyla Destek Vektör Makineleri algoritması kullanılmıştır. Sınıflandırılmada kullanılan veriler 325 adet meme ve 325 adet tümör örneklerinden oluşacak biçimde seçilmiştir. Bu şekilde dengeli bir veri seçilmesi, sınıflandırma algoritmasının performans tahmininin ölçülmesinde doğruluk sonuçlarının kullanılmasını olanaklı kılmıştır. Dielektrik verileri çapraz doğrulama teknikleri kullanılarak eğitim ve test setlerine bölünmüştür. Bu çalışmada 5-kat, 10-kat ve tek-çıkışlı çapraz doğrulama şemaları kullanılmış ve her birinin performansları test edilmiştir. Daha sonra, en ayırt edici frekansları seçmek amacıyla sonsuz öznitelik seçimi metodu kullanılarak öznitelik seçimi uygulanmıştır. Öznitelik seçimi algoritmasının parametrelerini ayarlamak amacıyla nested (iç içe) çapraz doğrulama tekniği farklı sayıda öznitelik kullanılarak uygulanmıştır. Dielektrik özellik verisini sınıflandırmak amacıyla, bağıl geçirgenlik, iletkenlik ve bu iki verinin kombine edilmiş şekli birbirlerinden ayrı olarak test edilmiştir. Farklı çapraz doğrulama şemalarını karşılaştırmak amacıyla, ilk olarak öznitelik seçimi yapılmadan Destek Vektör Makineleri algoritması test edilmiştir. Aynı zamanda ham dielektrik verisiyle, bu verinin normalizasyonu ve logaritmasının performansları karşılaştırılmıştır. Ham geçirgenlik ve kombine verileri diğer kombinasyonlardan daha iyi performans sergileyerek %100 doğrulukla sınıflandırma yapmıştır. Daha sonra Destek Vektör Makineleri algoritması, öznitelik seçimi metodu uygulanarak ham dielektrik verisinde test edilmiştir. En iyi 50 ve 100 öznitelik seçilerek doğruluk sonuçları önceki sonuçlarla karşılaştırılmıştır. En iyi 100 öznitelik seçildiğinde, geçirgenlik ve kombine verileri kullanıldığında algoritma %100 doğruluk sonucu vermiştir. En iyi 50 öznitelik seçildiğinde bile geçirgenlik verisinde %99.23 doğruluk elde edilmiştir. Daha sonrasında, nested çapraz doğrulama geçirgenlik, iletkenlik ve kombine veriler kullanılarak uygulanmıştır. Öznitelikler en iyi 1 ile en iyi 100 arasında sayılar kullanılarak seçilmiştir. İlk olarak, geçirgenlik verileri test edilmiş, en iyi performansı ham geçirkenlik verisiyle lineer kernel (çekirdek) kombinasyonu vermiştir. Ham geçirgenlik verisi altıdan fazla öznitelik kullanıldığında %99 üzerinde doğruluk sonucu vermiştir. Dört adet öznitelik kullanıldığında bile %91.69 doğruluk elde edilmiştir. Tek bir öznitelik seçilmesiyle %83.69 doğruluk sonucu alınmıştır. Geçirgenlik verisinin normalizasyonu veya logaritması yüksek sayıda öznitelik kullanıldığında halen %90 doğruluğun üzerinde sonuç vermektedir. Buna karşılık, RBF kernel kullanıldığında ham geçirgenlik verisinin performansının azalan öznitelik sayısıyla bir noktaya kadar atttığı gözlemlenmiştir. Daha sonra iletkenlik verisi test edilmiştir. Normalize edilmiş iletkenlik verisiyle karşılaştırıldığında, ham ve logaritmik iletkenlik verileri daha iyi sonuçlar vermiştir. En iyi öznitelik seçilerek, ham veriler lineer ve RBF kernel ile kullanıldığında sırasıyla %89.23 ve %89.08 doğruluk sonucu vermiştir. Ek olarak, iletkenlik verisinin logaritması lineer ve RBF kernel kullanılarak tek öznitelik seçildiğinde sırasıyla %90.31 ve %90 doğrulukla sonuç vermiştir. İletkenlik verisinin nested algoritmasındaki en yüksek sonucu en iyi 70 öznitelik seçildiğinde ham veriler ile %98 olarak elde edilmiştir. Kombine dielektrik verisi, nested çapraz doğrulama algoritmasında test edildiğinde en iyi, en iyi 2 ve en iyi 3 özniteliğin iletkenlik verisindeki öznitelikleriden seçildiği gözlemlenmiştir. Buna karşılık, daha çok öznitelik kullanıldığında geçirgenlik verisi önem kazanmaktadır. Nested çapraz doğrulama sürecinde öznitelikler saptanarak takip edilmiştir. Tek bir öznitelik kullanıldığında algoritmanın verdiği en iyi sonuç 5.505 GHz frekansına karşılık gelmektedir. Dielektrik özellik hesaplamasından kaçınmanın ve dar bant ölçüm cihazlarının tasarımının mümkün olup olmadığını araştırmak üzere S11 cevabı da Destek Vektör Makineleri algoritması kullanılarak test edilmiştir. S-parametre verileri reel ve imajiner kısımlara sahip olup, bu iki kısım bir arada kullanılmıştır. Destek Vektör Makineleri, ilk olarak öznitelik seçimi olmadan 5-kat, 10-kat ve tek-çıkışlı çapraz doğrulama şemaları kullanılarak uygulanmıştır. Ham veriler ve verilerin logaritmaları lineer ve RBF kernel kullanılarak test edilerek sonuçları karşılaştırılmıştır. Logaritmik veriler, 10-kat çapraz doğrulama ve lineer kernel kullanıldığında %93.85 doğrulukla en iyi sonucu vermiştir. Daha sonra, öznitelik seçimi 10-kat çapraz doğrulama kullanılarak uygulanmıştır. En iyi 50 ve 100 öznitelik seçilerek sonuçlar önceki sonuçlarla karşılaştırılmıştır. En iyi 100 öznitelik seçildiğinde logaritmik veri RBF kernel kullanılarak biraz daha yüksek performans sergileyerek %91.85 doğrulukla sonuçlanmıştır. Buna karşılık, en iyi 50 öznitelik seçildiğinde, ham veriler lineer kernel ile diğerlerine göre biraz daha iyi performans göstererek %85.85 doğrulukla sonuçlanmıştır. Nested çapraz doğrulama, S-parametre verisinin logaritmasına uygulanmıştır. 10'dan 100'e değişen sayılarda en iyi öznitelikler seçildiğinde, azalan öznitelik sayısıyla birlikte doğruluk sonuçları RBF kernel için %91.69'dan %87.23'e, lineer kernel için %91.38'den %87.08'e düşmüştür. Bunun yanında, 1'den 10'a değişen sayıda en iyi öznitelikler seçildiğinde, öznitelikler azaldıkça, doğruluk sonuçları, RBF kernel için %87.23'ten %86.92'ye, lineer kernel için %87.08'den %83.08'e düşmüştür. Tek bir frekans noktası kullanıldığında algoritma, 610 MHz frekansındaki S11 cevabına karşılık gelen özniteliği seçmiştir. Bu çalışma dielekrik ölçüm verisinin meme kanseri tanısında bir tanı aracı olarak kullanılabileceğini göstermektedir. Ancak göz önünde bulundurulmalıdır ki, elektromanyetik medikal teknolojilerin gelişimi daha fazla doku dielektrik verisine ihtiyaç duymaktadır. Bu sebeple, biyolojik dokuların dielektrik özellikleri konusunda daha fazla çalışma yapılmalıdır.
Açıklama
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2020
Anahtar kelimeler
breast cancer, meme canseri, microwave spectroscopy, mikrodalga spektroskopi
Alıntı