İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi

thumbnail.default.alt
Tarih
2024-07-01
Yazarlar
Aydın, Furkan
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Lisansüstü Eğitim Enstitüsü
Özet
Son yıllarda, genetik kompleks hastalıkların incelenmesi ve doğru bir şekilde tahmin edilebilemesi için birden fazla gen verisinin birleştirilmesini içeren kapsamlı bir analiz gerektiği anlaşılmıştır. Bu kapsamda, Genom Çapında İlişkilendirme Çalışmaları ve Poligenik Risk Skorları, kompleks hastalıkların genetik temellerini anlamamızda önemli ilerlemeler sağlamıştır. Genom Çapında İlişkilendirme Çalışmaları, birçok bireyin genomlarını analiz ederek belirli hastalıklarla ilişkili genetik ayrımları tanımlar ve kompleks özelliklerin genetik yapısına dair fikir sunar. Poligenik Risk Skorları ise Genom Çapında İlişkilendirme Çalışmaları tarafından tanımlanan birçok genetik varyantın etkilerini birleştirerek, bireyin belirli bir hastalığa olan genetik yatkınlığını ölçer. Ayrıca, çok boyutlu gen yolaklarını analiz edebilecek ve eğitilebilir hale getirecek güçlü matematiksel modeller geliştirilmiştir. Makine öğrenmesi ve yapay zeka alanında geliştirilen yeni yöntemler ise gen yolaklarının eğitimi ve test edilmesi için önemli olanaklar sunmaktadır. Bu çalışmada, birden çok gen tarafından etki edilen kalıtımsal hastalıkların belli bir birey için var olup olmadığına karar verecek bir model geliştirilmiştir. Modeli eğitmek ve doğruluğunu test etmek amacıyla iki farklı gen yolağı kullanılmıştır. Bunlar mTOR ve TGF-β gen yolaklarıdır. Tezde kullanılan gen yolakları, gerçek hastalıklara karşılık gelen gen yolaklarının analizleri sonucunda elde edilen verilerin kullanımı ile oluşturulan yapay gen yolaklarıdır. Sırasıyla 31 ve 93 gen içeren bu gen yolakları, insan verisi kullanılmadığı için herhangi bir izne ihtiyaç duymadan kullanılabilir durumdadır. Çalışmada önerilen modelle, gen yolakları öncelikle ön işleme adımına tabi tutulmuştur. Bu adım, özellik çıkartma ve boyut indirgeme olmak üzere iki aşamadan oluşmaktadır. Özellik çıkartma aşamasında, her bir gen için Kaos Oyunu Temsili metodu uygulanmış ve her bir gen, iki boyutlu bir desen ile ifade edilebilir hale getirilmiştir. Daha sonra, bu iki boyutlu desenler gen sırası dikkate alınarak bir Kaos Oyunu Temsilinin kübü oluşturulmuştur. Kaos Oyunu Temsili yöntemi, gen verilerini görselleştirmek ve analiz etmek için güçlü bir araçtır ve gen yolağı analizi gibi çeşitli uygulamalarda yaygın olarak kullanılmaktadır. Ardından, Çok Değişkenliliği Yükseltilmiş Çarpımlar Gösterimi tekniği kullanılarak, üç boyutlu olan Kaos Oyunu Temsili kübü daha düşük boyutlu bileşenlere indirgenmiştir. Bu bileşenler arasından iki boyutlu olanlar seçilerek birleştirilmiştir. Ortaya çıkan Çok Değişkenliliği Yükseltilmiş Çarpımlar Gösteriminin bileşenleri, tüm bir gen yolağını temsil eden bir resim oluşturmuştur. İkinci olarak boyut indirgeme aşaması uygulanmıştır. Boyut indirgeme aşamasında, özellik seçme aşamasıyla oluşturulan ve gen yolağını temsil eden iki boyutlu resim, Temel Bileşen Analizi yöntemi kullanılarak bir vektöre indirgenmiştir. Bu işlem sırasında, temsil resminin her bir satırı bir girdi gibi koordinat düzlemine verilerek Temel Bileşen Analizi yöntemi uygulanmıştır. Bu yöntem sonucunda ortaya çıkan Temel Bileşen Analizinin bileşenleri bu verilerin bir temsili kabul edilmiştir. Bu yaklaşım sayesinde, iki boyutlu bir resim Temel Bileşen Analizinin bileşenleri ile ifade edilebilen bir vektöre dönüştürülmüştür. Vektörün temsildeki tutarlılığını ölçmek için her bileşen seçimi için ayrı ayrı testler yapılmıştır. Ön işleme adımı tamamlandıktan sonra, makine öğrenmesi aşamasına geçilmiştir. Bu aşamada, Destek Vektör Makinesi algoritması kullanılmıştır. Her bir gen yolağı için oluşturulan vektör, algoritmaya girdi olarak verilmiş ve 5-katlı Çapraz Doğrulama yöntemi ile eğitim ve testler gerçekleştirilmiştir. 5-katlı Çapraz Doğrulama yöntemi sayesinde, sağlıklı ve hasta grupları bağımsız iki alt gruba ayrılarak eğitim ve test veri setlerinin ayrılması sağlanmıştır. 5-katlı olduğu için bu işlem birbirinden bağımsız beş farklı şekilde gerçekleştirilmiştir. Bu yöntemle elde edilen sonuçlar, eğitim ve test kümelerinin seçiminden kaynaklı hataları minimize etmiştir. Elde edilen sonuçlar grafiklerle gösterilmiş ve analiz edilmiştir. Python ve MATLAB, çalışmada çeşitli hesaplama tekniklerini ve algoritmaları uygulamak için kullanılmıştır. Python, NumPy, Pandas ve Scikit-learn gibi geniş kütüphaneleriyle veri manipülasyonu, istatistiksel analiz, Kaos Oyunu Temsili yöntemi ve makine öğrenmesi uygulamaları için kullanılmıştır. MATLAB ise güçlü matematiksel ve görselleştirme araçlarıyla karmaşık sayısal hesaplamalar ve Çok Değişkenliliği Yükseltilmiş Çarpımlar Gösterimi yönteminin sonuçlarının görselleştirilmesi için kullanılmıştır. Bu iki güçlü programlama ortamının kombinasyonu, genetik verilerin etkin bir şekilde işlenmesi ve analiz edilmesini sağlamış, doğru ve tekrarlanabilir sonuçlar elde edilmesine yardımcı olmuştur. Geliştirilen model ile mTOR ve TGF-β gen yolakları için sırasıyla \%99 ve \%90'ın üzerinde doğruluk elde edilmiştir. Sonuç olarak, önerilen model, karmaşık gen yolakları için sağlam ve tutarlı bir sınıflandırma sağlamış, genotipe dayalı hasta ve sağlıklı gruplar arasında ayrım yapmada umut verici sonuçlar elde etmiştir. Bu bulgular, genetik hastalıkların tahmini ve teşhisi açısından önemli sonuçlar içerir. Gelecekte, modelin daha büyük ve çeşitli veri setleriyle uygulanması, farklı makine öğrenmesi algoritmalarının entegrasyonu, modelin performansını daha da artırabilir ve genetik biliminin daha geniş bir alanınında uygulanabilirliğini sağlayabilir. Bu iyileştirmeler, daha doğru ve kapsamlı modellerin geliştirilmesine katkıda bulunabilir, böylece sağlık sonuçlarını iyileştirme ve genetik hastalıkları anlama konusundaki bilgi birikimimizi artırabilir.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2024
Anahtar kelimeler
Destek vektör makineleri, Support vector machines, Gen analizi, Gene analysis, Çok boyutlu ölçekleme, Multidimensional scaling, Yapay zeka, Artificial intelligence
Alıntı