İnsansı Robot Destekli Etkileşimli İşaret Dili Eğitimi İçin İşaret Tanıma

thumbnail.default.alt
Tarih
2015-10-23
Yazarlar
Ertuğrul, Bekir Sıtkı
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Instıtute of Science and Technology
Özet
Son yıllarda robot teknolojilerindeki hızlı ilerlemeye bağlı olarak, robotların sosyal hayatta kullanılması amacıyla çesitli uygulamalar geliştirilmeye çalışılmaktadır. Bu noktada robot teknolojilerindeki ilerlemenin yanında robotların sosyal yaşamda nasıl kullanılmaları gerektiği, sınırları, robotların insanlar ile etkileşimlerinin nasıl olması gerektiği konularında araştırmalar yapılması kaçınılmaz olmuştur. Robotlar başta endüstriyel alan olmak üzere hayatın çeşitli alan ve seviyelerinde insanlarla iç içe olmaya başlamışlardır. Robotların insanlarla bu tarz etkileşimlerini belirlemek amacıyla insan robot etkileşimi araştırma alanı olarak ortaya çıkmıştır. İnsanlar birbirleriyle karşılıklı iletişim kurmak istedikleri zaman bir etkileşim noktasına ihtiyaç duyarlar. Bu etkileşim noktası genellikle sözlü olmakla beraber, sözlü iletişim kuramayan insanlarda iletişim işaret diliyle gerçekleşir. Sözlü olarak iletişim kurabilen insanlar bile ifadelerini güçlendirmek için jest ve mimiklerini kullanırlar. Dolayısıyla işaret dili, etkileşimin önemli bir parçasıdır. Bu çalışmada son yıllarda gelişen robot teknolojisinin ve insansı robotların yardımıyla, işaret dilinin taklit bazlı ve robotların insanlarla sıralı olarak etkileşmesiyle öğretilmesi amaçlanmıştır. Projenin asıl amacı, iletişim sorunları yaşayan çocukların işaret dilini öğrenerek iletişim bozukluğu olmayan insanlarla etkileşimlerini artırabilmeleridir. Projenin hedef topluluğu işitme engelli çocuklar ve Otizm Spektrum Bozukluğu (ASD) olan çocuklardır. ASD kısıtlı sosyal etkileşim sorunları, iletişim sorunları ve kısıtlı hayal gücü gibi sorunları kapsar. ASD'li bir çocuk öğretmeniyle veya diğer insanlarla iletişim kurmakta güçlük çeker. Fakat yapılan denemelerde çocukların robotlara diğer insanlardan daha fazla ilgi gösterdiği görülmüştür. Bu nedenle robotların, çocuklar ve öğretmenleri/ebeveynleri arasında sosyal etkileşim kurma konusunda destek olarak kullanılabileceği düşünülmüştür.  Çalışma kapsamında önceden belirlenen bazı işaret dili hareketlerinin ve basit üst vücut hareketlerinin, izleme ve taklit yoluyla çocuklara öğretilmesi hususunda öğretmenlere NAO H25 isimli insansı robot kullanılarak  yardımcı olunmaktadır. Nao robotun insansı ve oyuncak gibi görünmesi çocukların daha fazla ilgisini çekmesine sebep olmuştur. Nao robot üzerindeki kameralar ile birlikte Microsoft firmasının Kinect isimli RGBD kamerası da proje kapsamında kullanılmıştır. Kinect algılayıcısı, insan iskeleti yapısını ve eklem pozisyon bilgilerini alabilme kabiliyeti, kullanım kolaylığı, kullanıcıya hareket serbestliği sağlaması gibi yetenenekleri nedeniyle kullanılmıştır.  Tez kapsamında yapılan sistem bir oyun üzerine kurgulanmıştır. Bu oyunda öğretilecek her hareket için bir oyun kartı oluşturulmuştur. Öğretici, herhangi bir kartı seçerek robota gösterir, robot kartı tanır ve o kartla ilişkilendirilen hareketi yapar. Hareketi tamamladıktan sonra sırayı karşısındaki çocuğa bırakır. Robot hareketi yapacak kişinin hareketlerini takip eder ve hareketi doğru yapıp yapmadığını anlamaya çalışır. Eğer katılımcı hareketi doğru yaptıysa görsel ve sesli olarak hareketi doğru yaptığına dair geri bildirimde bulunur. Eğer hareteket katılımcı tarafından yanlış yapıldıysa, katılımcıya hareketi yanlış yaptığına dair görsel ve sesli uyarıda bulunularak, katılımcının hareketi tekrar denemesi istenir.  Bu oyunun gerçekleştirilmesinde iki önemli adım vardır. Birinci adım oyun kartının tanıınması, ikinci adım ise işaret dilinin tanınmasıdır. Oyun kartlarının tanınmasında BoVW(Bag of visual words) denilen bir yöntem kullanılmıştır. Bu yöntemde kartların tanımlayıcı özellikleri çıkarılarak, bu tanımlayıcı özellikler K-Means denilen bir algoritma vasıtasıyla gruplanır. Bu grupların merkezleri sistemdeki tüm görsel sözlüğümüzü oluşturur. Daha sonra gelen bir resmin tanımlayıcı özellikleri çıkarılarak bu sözlükteki kelimelere göre histogramı oluşturulur ve histogram karşılaştırma yöntemi kullanılarak kartlar tanınır. Tez kapsamında asıl üzerinde durulan konu ise işaret dili tanımadır. Bu kapsamda üç yaklaşım denenmiştir. Birinci metotta K-means ile beraber Saklı Markov Modeli(SMM) kullanılmış daha sonra ise Yapay Sinir Ağı (YSA) ile beraber Saklı Markov Modeli kullanılmıştır. Son olarak dinamik zamak bükmesi(DTW) algoritması sisteme eklenerek sonuçların iyileşmesi sağlanmıştır. Kullanılan üç metotta da temel olarak Saklı Markov Modeli önemli yer tutar. SMM sonlu sayıda stokastik sıralı gözlem kümesi üzerinde çok kullanılan bir yöntemdir. Projede işaret dili hareketleri Kinect'ten gelen sıralı veriler ile ifade edilmiştir. Her işaret dili hareketinin n adet durumdan oluşmaktadır. Örneğin kolları yana doğru açma hareketi (side) 'nin 3 durumdan oluştuğu varsayılmaktadır. Bu durumlar; kolların vücuda yapışık olduğu durumdan, omuzların vücut ile 45 derecelik açı yaptığı durum ve kolların yere paralel olduğu durumlardır. Eğer kollar, bahsedilen 3 durumda sıralı olarak görülebilirse kişinin bu hareketi doğru olarak yaptığı söylenilebilir. Bu durumda hareketin durumlarının iyi belirlenmesi ve bu durumların zaman sıralı olarak doğru gelmesi gerekmektedir. Fakat bu durumlar doğrudan gözlemlenemez. Gelen verilere çeşitli işlemler uygulanarak anlık pozisyonlar gözlem dizisine çevrilir. Çalışmada veri olarak Kinect'ten  elde edilen bir gözlem dizisi kullanılmakta  ve bu gözlem dizisine bakarak sistemin istenilen durumlardan sıralı olarak geçmiş olma olasılığı hesaplanıp buna görede reaksiyon verilmektedir.  Bu noktada bazı problemler ile karşılaşılmaktadır.  Mesela Kinectten alınan veriler derinlik bilgilerini içeren  vektörlerden oluşmaktadır. Bu vektörlerin yorumlanarak SMM'in anlayacağı gözlem dizisine ve parametrelerine çevrilmesi gerekmektedir.Sorunların çözümü için kinematic, K-means, DTW ve YSA'dan oluşan metotlar kullanılmıştır.  Yukarıda bahsedilen üç yaklaşımda da sensörden uzamsal verilerin alınarak açı verilerine çevrilmesi ve sistem kapsamında kullanılacak olanların değerlendirilmesi aynı yolla yapılmıştır. Fakat bu sonuçların SMM'nin  anlayacağı parametreleri dönüştürme işleminde farklılıklar vardır. Birinci yaklaşımda sisteme gelen sensör verilerinin değerlendirilerek gözlem dizisine dönüştürülme işlemi K-means ile yapılmıştır. İkinci yaklaşımda ise SMM'nin ihtiyaç duyduğu gözlem dizisinin olasılıklarını hesaplama işlemi YSA modelleri ile yapılmaktadır. Son yaklaşımda iki yöntemin birleşmesinden oluşmaktadır. Birinci yöntemde SMM'nin ihtiyaç duyduğu gözlem dizisinin olasılıklarını hesaplama işlemi yine YSA modelleri ile yapılmaktadır. İkinci metotta ise DTW kullanılmatadır. DTW içingözlem dizisine çevirme işlemi gerekmemektedir. DTW'ye açı değerlerine çevrilen uzamsal koordinatlar doğrudan gönderilmektedir. Birinci yaklaşımda, Baumwelch isimli bir algoritma ile SMM eğitimi yapılmıştır. Bu algoritma zaman bakımından ikinci yaklaşıma gore çok masraflıdır. Bu da eğitim zamanının çok artmasına neden olmaktadır. Fakat bu algoritma sonucunda oluşan gözlem olasılıkları matrisi sayesinde test zamanında ikinci yaklaşıma gore üstünlük sağlamaktadır. Bunun sebebi ise ikinci yaklaşımda SMM eğitiminin olmamasıdır. SMM başlangıç ve geçiş matrisleri sisteme doğrudan verilir. Bu yaklaşımda sadece YSA eğitilir ve SMM, gözlem olasılığı istediğinde matristen değil YSA'dan hesaplama istenerek, buradan sağlanmaktadır. Sonuç olarak ikinci yaklaşımda etiketleme işleme doğru yapılarak, en uygun parametreler ile eğitilebilirse ikinci yaklaşımın birinci yaklaşımdan daha başarılı olduğu görülmüştür.  Üçüncü yaklaşımda ise ikinci yaklaşıma ek olarak DTW eklenmiştir. Bu yaklaşımda, DTW açı değerlerini doğrudan alarak her hareketin kendi DTW modeline gönderir ve her hareket modeli gelen açı dizisinin o hareket olup olmadığını gösteren bir olasılık değeri hesaplar. Diğer taraftan eş zamanlı olarak ikinci yaklaşımdaki metod yardımıyla, her hareket modeline(SMM'li YSA modeli) gelen açı dizisi gönderilir. Her hareket modeli(SMM'li) gelen açı dizisinin o hareket olup olmadığını gösteren bir olasılık değeri hesaplar. Bu iki algoritmadan dönen olasılık değerleri, eğitim verisinden elde edilen ağırlık değerleriyle ağırlıklandırma yapılarak birleştirilir ve sonuç elde edilir. Sistemin performansı DTW ve ikinci yaklaşımın birleştirilmesiyle daha da artmıştır.
In the recent years, depending on the rapid progress in the robotic technology, the researchers develop various applications on Human-Robot Interaction. At this point, besides the rapid progress in the robotic field, some topics like, how robots behave in the social life, what their limits are and how a robot communicates with people, become inevitable for researchers. Robots are in use with the people in the industry and many fields, including therapy, entertainment and education.  When the people communicate with each other, they need an interaction point. Usually this interaction point is verbal; but if the people cannot communicate verbally, gestures and sign language are in use. Especially hearing-impaired people use sign language including upper torso gestures and/or mimics to improve their expressions. Consequently, the sign language is an important part of interaction for people who have communication disorders including people with autism spectrum disorder (ASD). In this work, it is intended to teach sign language to the children with imitation based turn taking games with the help of humanoid robots, which are significantly developed in the recent years. Hearing-impaired children and children with ASD are focused in this project. In this study, a humanoid robot (NAO H25 or R3) helps the human teacher in teaching some signs and basic upper torso actions, which are observed and imitated by the participants. Along with the robots cameras, RGB-D sensor camera (Kinect) is used in the user tests. Due to its capability of capturing the human skeletal data and joint position information, the Kinect sensor is used instead of regular RGB cameras. Besides, it gives more motion freedom to the users than the wearable motion capture devices, and do not require additional markers, or special gloves. The system developed within the scope of this thesis is focused on the gesture/sign recognition part of this work. With the use of Kinect, the upper torso information of the human participants is gathered and with using the proposed methods, it is recognized in real-time so the robot is able to give feedback to the participants about their actions. We propose three methods to recognize the signs/gestures namely; K-Means with Hidden Markov Model (HMM), Neural Networks (NN) with HMM and Real Time Gesture Recognition. All of the methods work base on the Hidden Markov Model. HMM is the very typical model for a stochastic sequence of a finite number of observations. In this study, every sign or gesture is represented with a sequence of frames. Each gesture/sign is composed of n states that are based on these frames. However, these states are hidden, not directly observable. The representation of frames as a sequence of observations is an issue in this solution. To overcome this issue, other heuristics such as the kinematics, k-means and ANN based methods are proposed within the thesis.  In the first method that is named as K-Means with HMM, frames are transformed into observation sequence by means of k-means algorithm. In the second method (ANN with HMM), generation of observation sequence is handled by a neural network. Therefore, HMM takes the emission probabilities from this ANN module. In the last method the DTW is added to the ANN with HMM method and result of DTW and ANN with HMM methods is combined.  In the first method, Baumwelch training algorithm is used for HMM training and it is not cost effective. The training time of second method is better than the first method. Nevertheless, in the test step, the first method is faster than the second method. In terms of effectiveness, if the data for NN is labeled correctly, and an optimum parameter set is selected (hidden layer count and node counts per layers), the second method has higher success rates than the first approach. The results is empowered with the adding of third method to the system. The system is used in the recognition phase of the above-summarized user cases with children and the results are discussed and published in the related conferences and publications.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2015
Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2015
Anahtar kelimeler
İşaret Dili Tanıma, Sign Language/gesture Recognition
Alıntı