Words as art materials: Generating paintings with sequential generative adversarial networks

thumbnail.default.placeholder
Tarih
2020-06-14
Yazarlar
Özgen, Azmi Can
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Institute of Science And Technology
Fen Bilimleri Enstitüsü
Özet
Generative models are one of the most popular topics and widely researched area of computer vision. They have been developed a couple of years ago as an unsupervised learning method. However, these models can easily be utilized as feature learners. And they are used in many interesting applications such as generating realistic images, generating sketch images, image-to-image translation, 3D object generation, image inpainting, generating super-resolution images, voice/music generation, anomaly detection, generating synthetic datasets, adversarial attacks. We focused on text-to-image synthesis in this work. Specifically, we synthesize painting images from a given set of keywords. The aim is to generate unique artificial painting images that reflect given keywords in their contents. Converting text descriptions into images using Generative Adversarial Networks has become a popular research area. Visually appealing images have been generated successfully in recent years. There is a remarkable amount of studies in the literature regarding this topic. Inspired by these studies, we investigated the generation of artistic images on a large variance dataset. As an important part of this work, we created our dataset. Dataset has 3492 images with classical paintings and also digital paintings. They both provided a mixture of different painting styles for our work and we believe that this dataset will be a good resource for other researchers as well. Therefore, we shared our dataset publicly to be used in artificial art generation studies. One major characteristic of our work is that we used keywords as image descriptions, instead of sentences. Therefore, our dataset consists of image-keyword pairs and includes images with variations, for example, in shape, color, and content. These variations in images provide originality which is an important factor for artistic essence. However, those variations make learning difficult at the same time. As a result of this difficulty, we designed a sequential deep neural network model. As our neural network model, we proposed a sequential Generative Adversarial Network model which consists of three separate stages to handle images and keyword sets simultaneously. Keyword and image pairs are processed through the stages of neural network layers. The first stage of this sequential model processes the word vectors and creates a base image whereas the next stages focus on creating high-resolution artistic-style images without working on word vectors. To deal with the unstable nature of GANs, we proposed a mixture of techniques like Wasserstein loss, spectral normalization, and minibatch discrimination. Besides, we set a special hyper-parameter set separately for all the networks used in the model. Ultimately, we were able to generate painting images, which have a variety of styles. Evaluation of the results is one very critical part of the work. We provided both quantitative and qualitative analyses for them. As a quantitative analysis, we evaluated our results by using the Fréchet Inception Distance score. For the qualitative analysis, we conducted an extensive user study with 186 participants. Both analysis objectively supported that our painting images can be considered as artworks.
Yapay zekanın sanat üretme yeteneği, bilgisayar biliminin tartışmalı konularından biridir. Yapay zeka gerçek sanat yaratabilir mi, yoksa bilgisayarla üretilen eserler sıkıcı sayılar ve denklemlerden oluşan bir matristen daha fazlası değil mi? Bu sorunun cevabı araştırmacılar arasında ve hatta yapay zeka ile ilgilenen insanlar arasında uzun zamandır düşünülüyordu. Bu çalışmaya başlamadan önce bu sorunun cevabını merak ediyorduk ve başlarken en büyük motivasyonumuz bu oldu. Çoğu zaman sanat, duyguları ve fikirleri aktarma çabası olduğu için bir insan eylemi olarak kabul edilir. Öte yandan, sanatsal üretimin deterministik ve mantıksal süreçlerin sonunda ortaya çıktığını iddia edenler de var. Mantıksal bir süreç olsa bile, sanat üretmenin sadece insan beyninin üstesinden gelebileceği bir şey olabileceği ya da sadece insan beyni tarafından üretildiğinde bir sanat eseri olarak düşünülebileceği de söz konusu olabilir. Başka bir deyişle, bir eseri yalnızca insan zihni, duyguları ve deneyimleri sonucunda üretildiğinde bir sanat eseri olarak değerlendiriyor olabiliriz. Tersine, eğer bir sanat eseri insan aklının bir sonucu değilse, o zaman onu rastgele bir üretim olarak düşünme eğiliminde olmamız olası. Tüm bu soru ve fikirleri düşünmeyi okuyuculara ve uzmanlara bırakıyoruz, çünkü bu fikirler bu çalışmanın felsefeye dokunan kısmı. Tezin amacına odaklanırsak, sanat eserleri olarak kabul edilen insan yapımı resimlerle eğitilmiş bir yapay sinir ağı modeliyle yapay resimler üretmeyi ve bu yapay resimlerin sanat eserleri olup olmadığını sorgulamayı amaçladık. Diğer amaçlardan biri ise, yazarlar ve ressamlar gibi sanatsal üretim yapmak için ilham alması gereken kişiler tarafından kullanılabilecek bir uygulama prototipi oluşturmaktır. Bu insanlar, modelimiz tarafından üretilen görüntüleri stok fotoğraf internet sitelerinde sunulan görüntülere benzer şekilde kullanabilirler. Çünkü çalışmadaki modelimiz bir anahtar kelime listesini girdi olarak alıyor ve bu kelimeleri sanatsal bir resme dönüştürülebiliyor. Bu çalışmamının ve benzerlerinin sanatsal üretim yapabilen bir bilgisayar programı olarak kendi başların değerli olduğunu düşünmemizin yanı sıra, böyle programların endüstrinin bazı alanlarında kullanabilecek çeşitli uygulamaların kaynağı da olabileceğini düşünüyoruz. Bunlardan bazıları olarak grafik tasarım, oyun tasarımı ve reklamcılık gibi sanatsal tasarımın ürünün önemli bir parçası olduğu alanları sayabiliriz. Yine de, böyle çalışmaların endüstride kullanılabilecek seviyelere gelmesi için daha büyük ekipler ve daha büyük yatırımlarla desteklenmesi gerektiği kanaatindeyiz. Son olarak, çalışma kapsamında oluşturduğumuz verikümesinin yapay zeka ile sanat üretimi alanında çalışan araştırmacılar için yararlı bir kaynak olacağına inanıyoruz. Bu amaçla bu verikümesini internet ortamında herkese açık olacak şekilde paylaştık. Bu tarz çalışmaların kapsamlarının genişlemesi için böyle verikümelerinin boyutlarının yeterince büyük olmasının ve sayılarının da çok olmasının önemli olduğunu düşünüyoruz. Üretici modeller, bilgisayarlı görünün en çok çalışılan ve en gözde konularından bir tanesi. Bu modeller, birkaç sene öncesinde eğiticisiz öğrenme yöntemi olarak geliştirildiler. Ancak onlar, rahatlıkla öznitelik öğrenici modeller olarak da kullanılabilirler. Bazı uygulamaları olarak; gerçekçi resim üretimi, eskiz üretimi, resimden resme çevrim, 3B obje üretimi, resim tamamlama, yüksek çözünürlüklü resim üretimi, ses/müzik üretimi, anomali tespiti, yapay verikümesi üretimi, yanıltıcı saldırılar vb. Biz bu çalışmada, metinden görsel üretimine odaklandık. Özellikle, verilen bir kelime kümesinden sanat resimleri sentezleme üzerinde çalıştık. Amacımız, içeriğinde verilen anahtar kelimeleri doğru yansıtan, eşsiz yapay sanat resimleri üretmektir. Metin, görüntü, ses, video gibi veri tiplerini üretmek ve bunlar arasında dönüşüm yapmak, Üretici Çekişmeli Ağlar (ÜÇA) yardımıyla popülerlik kazanmıştır. Son yıllarda literatürde bu farklı veri türlerini kullanarak yine bu fraklı veri türlerini üretmeye çalışan birçok çalışma yapılmıştır. Son yıllarda da ÜÇA'lar bu amaç için kullanılan bir numaralı sinir ağı modeli haline geldi. Biz de bu çalışmada ÜÇA'ları temel sinir ağı mimarisi olarak kullanmayı tercih ettik. ÜÇA'lar, üretici ve ayırıcı olarak adlandırılan iki ayrı ağı eğiterek, verilen veri dağılımının en iyi temsillerini öğrenmek için tasarlanmıştır. Ayırıcı, hangi girdilerin gerçek veriden ve hangilerinin üretilmiş veriden geldiğini ayırt etmek için güncellenirken; üretici de ayırıcıyı en çok yanıltabilecek sahte veriyi üretmek için güncellenir. Her iki ağ da diğerini yenmeye çalışır ve sonuç olarak üretici tek başına yapay çıktıları sentezlemek için kullanılır. Üreticiye saf bir gürültü kaynağının yanı sıra, istenen diğer veri tipine dönüştürmek için koşullu veri adı verilen anlamlı veriler de verilebilir. Bu koşullu veriler dönüştürülmek istenen orijinal kaynaktır, çıktıda bu kaynakla ilişkilendirilecek yapay bir çıktı alınır. Üretici ağın bu iki veri arasında bir eşleme öğrenmesi beklenirken, ayırıcının da aynı eşlemeyi hem gerçek hem de yapay veri için öğrenmesi amaçlanır. Biz bu çalışmada koşullu veri olarak olarak anahtar kelimeleri kullanırken, saf gürültüyü de bu girdilerin bir parçası yaptık. Girdilerde gürültü kullanmanın detayları tez boyunca paylaştığımız birden fazla faydası bulunmaktadır. Verilen metin açıklamalarından elde edilen görüntü sentezi, önemli miktarda yayınlanmış eser içeren popüler araştırma alanlarından biridir. Bu çalışmaların çoğu, metin içeriğini öğrenmeye ve bunları verikümesindeki benzer görüntülere dönüştürmeye çalıştıkları yaygın verikümelerine odaklanmıştır. Biz bunların aksine, ÜÇA'ları gerçekçi görüntüler yerine sanatsal resim görüntüleri oluşturmak için kullandık. Bu nedenle, verikümemizi daha fazla yaratıcılığa sahip olması için şekil, renk, çizim tekniği ve içerik bakımından çok çeşitli stillerle oluşturduk. Verikümesi, klasik sanat resimleri ve dijital sanat resimleriyle toplamda 3492 tane görsel içeriyor. Ayrıca, resimler için açıklayıcı cümleler kullanmak yerine, verilen resmin özelliklerini yansıtan anahtar kelimeleri tercih ettik. Yalnızca anahtar kelimeler kullanıldığında, kelime sırası önemsiz ve aralarındaki ilişkiler belirsiz hale geldiğinden kelimeleri görüntülerle ilişkilendirmek zorlaşır. Bununla birlikte, bu, modelimize orijinal bir resim yaratma esnekliğini sağlar ve bu da sanat yaratımı için önemli bir faktördür. İnanıyoruz ki bu verikümesi diğer araştırmacılar için de iyi bir kaynak oluşturacaktır. Bundan dolayı, çalışmamızı yapay sanat üretimi çalışmalarında kullanılması için erişime açtık. Çalışmamızın karakteristik özelliklerinden bir tanesi, görsellerin tanımları için cümleler yerine anahtar kelimeler kullanmamızdır. Bu yüzden verikümemiz görsel-anahtar kelimeler çiftlerinden oluşuyor ve şekil, renk ve içerik gibi çeşitliliklere sahip görseller içeriyor. Bu çeşitlilik sanatsal öz için önemli bir etken olan özgünlüğü sağlıyor. Ancak, bu çeşitlilik aynı zamanda öğrenmeyi de zorlaştırıyor. Bu zorluğun üstesinden gelebilmesi için derin ve birkaç aşamadan oluşan bir yapay sinir ağı mimarisi tasarladık. Yapay sinir ağı modeli olarak, görselleri ve anahtar kelimeleri aynı anda işleyebilecek üç ayrı aşamalı Seri Üretici Çekişmeli Ağ modeli önerdik. Anahtar kelime ve görsel çiftleri sinir ağının katmanları boyunca işlenir. Bu seri modelin ilk aşaması kelime vektörlerini işler ve temel bir görüntü yaratırken, bir sonraki aşama kelime vektörleri üzerinde çalışmadan yüksek çözünürlüklü sanatsal tarzda görüntüler oluşturmaya odaklanır. Seri üretici modelimize beselenebilmeleri için anahtar kelimeler kelime vektörlerine (gerçek sayıların vektörleri) eşlenmelidir. Geleneksel yöntem n-gram modelleri kullanırken, sinir ağları son zamanlarda popüler hale geldi. Sinir ağı olarak Word2Vec algoritmasını kullandık. Kelime girdilerini bir metin grubu olarak alır ve istenen boyutta (genellikle yüzlerce) bir vektör kümesi üretir. Sözlükteki her kelime, kelime uzayındaki benzersiz bir vektöre eşlenir, böylece ilgili kelimeler bu vektör uzayında birbirine yakın olacak şekilde toplanır. Bu kelime vektörlerini, görüntü üretme modelimizin girdileri olarak kullandık. Word2Vec algoritmasını optimize etmek için vektör boyutu, pencere boyutu, dönem sayısı gibi birkaç hiper-parametre vardır. Görüntü oluşturma modeli için çoğunlukla evrişimsel ve evrişimsel olmayan katmanlar içeren ÜÇA'lar tasarladık. Görüntülerin büyük çeşitliliğini öğrenmek için, ÜÇA'ların üç aşamadan oluşan sıralı bir mimarisi önerdik. Her aşama, daha ayrıntılı ve daha yüksek çözünürlüklü görüntüler üretir ve bir öncekinden daha sanatsal stiller ekler. Bu çok aşamalı yapı, her aşama görüntüler üzerinde ayrı ayrı çalıştığı için daha soyut öğrenme sağlar. ÜÇA'larda karşılaşılan en yaygın zorluk, ağırlıkları birbirini yenecek şekilde güncellendiğinden üreticiyi ve ayırıcıyı aynı anda güncellemektir. Bu çoğu zaman dengesiz bir eğitim eğrisine neden olmaktadır. ÜÇA'ların dengesiz doğası, böyle bir sıralı modelle çok hızlı biriktiğinden, dengesiz öğrenme eğrilerini ve mod çöküşü olarak bilinen fenomeni önlemek için, Wasserstein kaybı, spektral normalizasyon ve küçükküme ayrılması gibi bazı dengeleyici optimizasyon tekniklerini kullandık. Ayrıca, modelde kullanılan tüm ağlar için ayrı bir özel hiper-parametre kümesi belirledik. Sonuçta, çeşitli stillere sahip resim görüntüleri üretebildik. Sonuçların değerlendirilmesi çalışmanın kritik bölümlerinden bir tanesi. Bunun için niceliksel ve niteliksel analiz yaptık. Niceliksel analiz olarak, sonuçlarımızı Frechet Başlangıç Mesafesi puanını kullanarak değerlendirdik. Niteliksel analiz olarak, 186 katılımcı ile bir kullanıcı anketi gerçekleştirdik. Bu iki analizin de sonuçlarını tablolar ve grafiklerle paylaştık. İki analiz de ürettiğimiz resimlerin sanat eseri olabileceğini destekledi. Ayrıca modelimizin ürettiği resimlerden bazılarını girdi olarak kullanılan anahtar kelimelerle birlikte en son kısımda paylaştık. Bu görsel sonuçların değerlendirilmesini okuyucuya bırakıyoruz.
Açıklama
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2020
Tez (Yüksek Lisans)-- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2020
Anahtar kelimeler
Artificial neural networks, Yapay sinir ağları
Alıntı