Machine learning-based prediction of FTIR spectral peaks for biomass characterization

thumbnail.default.alt
Tarih
2025
Yazarlar
Sağiş, Fahreddin Talha
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
ITU Graduate School
Özet
This thesis explores how machine learning (ML) can be integrated with Fourier Transform Infrared (FTIR) spectroscopy to rapidly characterize lignocellulosic biomass. Traditional wet-chemical methods (e.g., Soxhlet extraction, Klason lignin assay) are accurate but time-consuming, motivating the use of FTIR as a faster, non-destructive tool. By capturing specific transmittance dips (absorbance peaks) tied to functional groups (e.g., O–H, C=O, aromatic rings), FTIR provides a detailed "fingerprint" of biomass components such as cellulose, hemicellulose, lignin, and extractives. This research aims to develop machine learning models that transform FTIR spectra into meaningful compositional or structural information. Three phases of investigation are designed for increasingly focused prediction targets: •Phase 1 (Full Spectrum): A multi-output regression approach predicts every wavenumber's intensity (3551 points) from nine input features (including biomass category, moisture, ash, volatile matter, holocellulose, lignin, etc.). We compare algorithms such as Partial Least Squares (PLS), Ridge Regression, Random Forest, and a Multi-Layer Perceptron (MLP). •Phase 2 (Broad-Range Classification): Instead of predicting each intensity, we classify whether a strong absorbance peak appears within broad wavenumber intervals (e.g., 3700–3000 cm⁻¹, 1800–1500 cm⁻¹). We employ multi-label classification (Logistic Regression, Random Forest, Gradient Boosting, SVM) to determine "peak present/absent" in each interval. •Phase 3 (Targeted Narrow Ranges): We zoom in on crucial intervals (like 3000–2800 cm⁻¹, 1800–1500 cm⁻¹, 1150–900 cm⁻¹) that directly link to chemical properties (e.g., lignin's aromatic ring signals, carbohydrate fingerprints). Classification models identify specific dips within these smaller spectral windows. Key Findings •Full-spectrum regression (Phase 1) is challenging, yielding low R² values (~0.04–0.21). MLP performed best overall for this high-dimensional task. •Broad-range classification (Phase 2) achieved higher accuracies (Hamming accuracy up to ~0.75) since "peak vs. no peak" is less complex than predicting all intensities. •Targeted intervals (Phase 3) gave the most robust classification (Hamming accuracy up to ~0.81) and better interpretability, as each narrow band strongly correlates with a known chemical feature. Conclusion & Implications By tailoring the ML approach to the desired level of spectral detail—ranging from full-spectrum regression to broad or narrow-interval classification—this thesis demonstrates that FTIR combined with data-driven modeling can effectively screen and characterize biomass. The findings support the hypothesis that simplified or chemically targeted outputs (Phase 2 and 3) can outperform fully detailed predictions (Phase 1). Ultimately, ML-enhanced FTIR offers a rapid, cost-saving alternative to classical assays, facilitating large-scale, real-time biomass characterization for bioenergy and bioproduct applications.
Bu tez, lignoselülozik biyokütlenin hızlı ve güvenilir şekilde karakterizasyonu amacıyla Fourier Dönüşümlü Kızılötesi (FTIR) spektroskopi ile makine öğrenmesi (ML) yöntemlerinin bütünleştirilmesini ele almaktadır. Geleneksel yaş kimyasal analiz yöntemleri (örneğin Soxhlet ekstraksiyonu, Klason lignin tayini) hassas sonuçlar verse de oldukça zaman alıcıdır. FTIR ise, materyalin kızılötesi ışığı nasıl soğurduğunu yansıtan bir spektrum sunarak çok daha kısa sürede ölçüm yapma avantajına sahiptir. Biyokütlenin temel bileşenleri—selüloz, hemiselüloz, lignin ve ekstraktifler—kendilerine özgü fonksiyonel gruplara sahip olduğundan, 3700–2800 cm⁻¹ gibi bölgelerde O–H ve C–H gerilme bantları, 1800–1500 cm⁻¹ aralığında karbonil ve aromatik titreşimler gözlenmektedir. Böylece FTIR, numunenin kimyasal "parmak izi" verilerini sağlar. Ancak bu spektrumların nicel yorumlanması, özellikle bantların üst üste binmesi ve çeşitli fiziksel etkiler nedeniyle zordur. Tezde, FTIR verilerini istatistiksel ve makine öğrenmesi yaklaşımlarıyla işleyerek, biyokütlenin bileşim ve yapısına dair parametrelerin (örneğin selüloz/lignin içeriği veya geniş bantlardaki pik varlığı) otomatik biçimde tahmin edilmesi hedeflenmiştir. Bu çalışma üç aşamada kurgulanmıştır: Faz 1 (Tüm Spektrumun Regresyonu): 9 girdi özelliğinden (biyokütle kategorisi, nem, kül, uçucu madde, sabit karbon, vb.) hareketle 3551 dalgaboyu noktasının her birinde ölçülen FTIR şiddetinin öngörülmesi hedeflenmiştir. Çoklu çıkışlı (multi-output) regresyon olarak tasarlanan bu yaklaşımda, PLS (kısmi en küçük kareler), Ridge Regresyonu, Random Forest ve Yapay Sinir Ağı (MLP) gibi modeller denenmiştir. Böylece her dalgaboyunun transmittans/absorptans değeri tahmin edilmeye çalışılmıştır. Faz 2 (Geniş Dalgaboyu Aralıklarında Sınıflandırma): Ayrıntılı regresyon yerine, hangi geniş aralıklarda (örneğin 3700–3000 cm⁻¹, 3000–2800 cm⁻¹, 1800–1500 cm⁻¹, 1500–1150 cm⁻¹, 1150–900 cm⁻¹ gibi) belirgin bir pik oluştuğunun "var/yok" şeklinde sınıflandırılması yapılmıştır. Her aralık için "pik mevcut (1)" ya da "pik yok (0)" etiketine karar veren çok-etiketli (multi-label) sınıflandırıcılar (Lojistik Regresyon, Random forest, Gradient Boosting, SVM) eğitilmiştir. Amaç, yüksek çözünürlüklü spektrum yerine seçili bantların varlığını belirleyerek yorumlamayı kolaylaştırmaktır. Faz 3 (Hedeflenmiş Dar Aralıklar): Daha spesifik kimyasal ilişkileri yakalayabilmek için 3000–2800 cm⁻¹ (alifatik C–H titreşimleri), 1800–1500 cm⁻¹ (aromatik/lignin sinyalleri) ve 1150–900 cm⁻¹ (karbonhidrat ayakizi) gibi dar bantlara odaklanılmıştır. Burada sınıflandırma ya da dar bant regressiyonu (pik şiddetini tahmin etme) uygulanarak, lignin veya selüloz gibi belirli fonksiyonel grupların varlığı daha yüksek doğrulukla öngörülmüştür. Temel Bulgular •Faz 1 (Tüm Spektrum): Çok sayıda dalgaboyu noktasını tek seferde tahmin etmek zordur. R² değerleri 0.04–0.21 arasında kalmıştır. MLP, en iyi sonuçları verse de veri boyutunun fazlalığı ve örnek sayısının sınırlılığı yöntemi zorlamaktadır. •Faz 2 (Geniş Bant Sınıflandırma): "Pik var mı?" yaklaşımı, tüm yoğunluğu modellemekten kolay olduğundan, Hamming doğruluğu ~%75'e ulaşmıştır. Lojistik Regresyon çoğu zaman en iyi sonucu sağlamıştır. •Faz 3 (Dar Bantlar): 3000–2800, 1800–1500 ve 1150–900 cm⁻¹ gibi spesifik aralıklara odaklanmak, daha kararlı ve yüksek doğruluklu (yaklaşık %80 üzerinde) sınıflandırma imkânı sunmuştur. Random forest özellikle bu odaklı bantlarda iyi performans göstermiştir. Sonuç ve Öneriler Bu tezde, FTIR verisinin makine öğrenmesiyle işlenerek biyokütle karakterizasyonunda hem hızlı hem de oldukça güvenilir tahminlerin yapılabildiği gösterilmiştir. Tüm spektrumun tahmini (Faz 1) kapsamlı ancak karmaşık bir görev olup verisetinin boyutu nedeniyle sınırlı başarı kaydetmiştir. Buna karşın, geniş bant (Faz 2) ve hedeflenmiş dar bant (Faz 3) yaklaşımları, kimyasal olarak anlamlı bölgeleri vurgulayarak daha yüksek doğruluk ve yorumlanabilirlik sağlamıştır. Random forest ve MLP gibi gelişmiş modeller, doğrusal yöntemlerin ötesine geçerek spektral veri içindeki doğrusal olmayan etkileşimleri yakalayabilmiştir. Ayrıca verilerin önişlemesi (normalize etme, bant seçimi) model performansında kritik rol oynamıştır. Gelecekte, bu yaklaşımın daha geniş bir biyokütle yelpazesinde, daha çok sayıda örnekle test edilmesi ve derin öğrenme modelleri gibi daha sofistike yöntemlerle kıyaslanması planlanabilir. Sonuç olarak, tez bulguları, FTIR ve ML entegrasyonunun hızlı biyokütle analizinde önemli bir yenilik ve pratik fayda sunduğunu göstermektedir. Bu entegrasyon hem laboratuvar maliyetlerini azaltıp hızı artırmakta hem de farklı biyokütle türlerini ayrıntılı şekilde ayırt edebilme becerisi sağlamaktadır.
Açıklama
Thesis (M.Sc.) -- Istanbul Technical University, Graduate School, 2025
Anahtar kelimeler
kimya mühendisliği, chemical engineering, biomass, biomas, fourier dönüşüm kızılötesi spektroskopisi, fourier transform infrared spectroscopy, makine öğrenmesi, machine learning, derin öğrenme, deep learning
Alıntı