Türk işaret dilinde kelime tabanlı derin öğrenme uygulaması
Abstract
İşaret dili, işitme sorunu olan kişilerin kendilerini ifade etmek için kullandıkları bir görsel
iletişim şeklidir. Bu çalışmanın temel amacı, işitme sorunu olan kişilerin yaşamını
kolaylaştırmaktır.
Bu çalışma kapsamında, üç farklı kişiden alınan 32 sınıf için 3200 adet RGB görüntü
kullanılarak bir veri seti elde edilmiştir. Veri kümelerine veri artırma yöntemleri uygulanmış,
görüntü sayısı her bir sınıf için 600 adet olacak şekilde toplam 3200’den, 19200’e
yükseltilmiştir. İşaretlerin sınıflandırılması için hem problemin çözümüne yönelik 10
katmanlı bir evrişimli derin ağ modeli oluşturulmuş hem de derin öğrenme yöntemlerinden
biri olan aktarımlı öğrenme yöntemi kullanılarak hazır modellerden VGG166, Inception ve
ResNet derin ağ mimarileri kullanılmıştır. Ayrıca derin öğrenmenin öznitelik çıkarımı
tekniğinden faydalanılarak elde edilen öznitelik vektörü ile geleneksel makine öğrenme
yöntemlerinden olan Destek Vektör Makineleri (Support Vector Machines, SVM) ve K- En
Yakın Komşu(K- Nearest Neighbor, K-NN) yöntemleri ile sınıflandırılmıştır. Elde edilen
sonuçlar zaman ve başarım oranlarına göre kıyaslanarak, en başarılı yöntem belirlenmiştir.
Bu çalışmada, görsel bir dil olan Türk İşaret Dili (TİD)’ne ait durağan kelimelerin yapılan
analizler sonucunda başarılı bulunan derin öğrenme yöntemlerinden biri olan aktarımlı
öğrenme kullanılarak gerçek zamanlı yazılı dile çevrilmesi sağlanmıştır. Ayrıca, tasarlanan
bu gerçek zamanlı sistem ile TİD durağan kelimelere ait işaretleri tanıma ve tahminini
bilgisayar ekranına yazdırmasındaki başarısı değerlendirilmiştir.
Sign language is a form of visual communication used by people with hearing problems to
express themselves. The main purpose of this study is to make life easier for people with
hearing problems.
In this study, a data set was obtained using 3200 RGB images for 32 classes taken from three
different people. Data development methods were applied to the data sets and the number of
images was increased from 3200 to 19200, 600 per class. For the classification of the signs,
both a 10-layer convolutional deep network model was created for the solution of the
problem, and VGG166, Inception and ResNet deep network architectures, which are one of
the deep learning methods, were applied by using transfer learning method. In addition, the
signs are classified using the Support Vector Machines (SVM) and K- Nearest Neighbor (KNearest
Neighbor, K-NN) methods, which are the traditional machine learning methods,
with the feature vector obtained by using the feature extraction technique of deep learning.
The most successful method was determined by comparing the obtained results according to
time and performance ratios.
In this study, stationary words belonging to Turkish Sign Language (TSL), which is a visual
language, are translated into real time written language by using transfer learning with one
of the deep learning methods, which is successful as a result of the analysis. In addition, with
the real-time system designed, its success in recognizing the stationary words of TSL signs
and printing its prediction on the computer screen were evaluated.