Matematiksel sembollerin tanınmasına yönelik yeni bir algoritma
Abstract
Matematiksel İfadelerin Tanıma (MİT), matematiksel ifadelerin bilimsel yazındaki
yaygınlığı nedeniyle önemli bir gerekliliktir. Standart Yazı Tanımanın (SYT) aksine
MİT'de simgeler yatay olarak sıralanmazlar ve yakın büyüklükte olmayabilirler.
Sonuç olarak, matematiksel ifadelerin tanınması standart yazıya göre çok daha
zor olabilir. Bu nedenle günümüzde MİT üzerine yapılan akademik çalışmalar
etkin olarak devam etmektedir. Bu tez çalışması, Simge Ayrıştırma, Simge
Tanıma ve Yapısal Çözümleme algoritmalarından oluşan İstatiksel Örüntü Tanıma
temelli çevrimdışı bir MİT sistemi önermektedir. Ayrıca, Simge Tanıma
aşamasının doğruluğunu ve hızını arttırmak için tezde Yetim-Piksel-Oranı/Yerel-
Yetim-Piksel-Oranı (YPO/YYPO) olarak isimlendirilen yeni bir istatistiksel nitelik
ailesi önermektedir. YPO/YYPO nitelikleri simgeyi oluşturan siyah piksellerin,
beyaz pikselleri ne şekilde çevrelediklerine göre tanımlanırlar. Bu tezde
YPO/YYPO nitelikleri kullanılarak oluşturulmuş bir nitelik vektörünün, sistemin
yabancı simgeleri tanıma başarısını ve tanıma hızını önemli ölçüde artırabileceği
diğer yaygın nitelik vektörleri ile karşılaştırılarak incelenecektir. Bu amaçla,
YPO/YYPO nitelik vektörü üç farklı sınıflandırma yöntemi (Kstar, MLP, KNN) ile
sınıflandırılıp elde edilen sonuçlar tanıma hızı ve doğruluğu açısından diğer iki
yaygın nitelik vektörü (3 x 3 Bitmap, dalgacık) ile karşılaştırılacaktır. Önerilen
çevrimdışı MİT sistemi Java tabanlı Weka yazılım paketi kullanılarak
gerçekleştirilmiştir.
Mathematical Expression Recognition (MER) is an important requirement in
science because of the prevalence of the mathematical expressions in the
science literature. The symbols are not lined up horizantally and their size may
not be similar in MER in contrast with Standart Text Recognition (STR). Thus,
recogniton of the mathematical expression can be very difficult in comparison
with STR. So, academical studies on MER are goes on effectively today. In this
thesis, a software system; which is composed of Symbol Segmentation, Symbol
Recognition and Spatial Analysis steps; are proposed. Also, A new statistical
feature family called Orphan-Pixel-Rate/Local-Orphan-Pixel-Rate (OPR/LOPR)
are introduced. OPR/LOPR features are defined by how black pixels of the binary
image encloses its white pixels. In this thesis, it will be shown that a feature
vector mainly created by using OPR/LOPR can increase significantly the
accuracy of recogniton. For that purpose, OPR/LOPR vector will be compared
with two other common feature vectors.(3 x 3 Bitmap, wavelet) according to their
results of recognition speed and accuracy after its classification with three
different method (Kstar, MLP, KNN). This offline MER sistem have been
implemented using Weka software packet based on Java.