Müzik üst-veri tahmini için Türkçe şarkı sözü madenciliği
Özet
Müzik geri getirimi, internet ve ilgili teknolojilerin eğlence amaçlı yaygın kullanımı ile birlikte önemli bir problem haline gelmiĢtir. Kullanıcının aradığı Ģarkıya daha kolay ulaĢabilmesi, aradığı Ģarkıya benzer diğer Ģarkıları daha kolay bulabilmesi, dinlemek isteyebileceği Ģarkıları listeleyebilmesi için müzik geri getirim sistemleri geliĢtirilmiĢtir. Uygulanacak yöntem ne olursa olsun müzik nesnelerinin analiz edilmesi ve bu analizlere bağlı olarak müzik nesnelerinin anlamlandırılması gerekmektedir. Müzik analizi ile ilgili bu çalıĢmalar iki veri türü üzerine yoğunlaĢmıĢtır. Bunlar; müzik geri getirim sistemleri için melodik ve aranjman özniteliklerin kullanıldığı içerik sinyali ve Ģarkının adı, türü, bestecisi gibi verilerin bulunduğu üst-veri bilgileridir. ġarkı sözü metninin kullanımı çok azdır. Bu çalıĢma müzik geri getirim uygulamalarında Türkçe Ģarkı sözü metninden müzik üst-verilerinin tahmin edilebilirliğine dayalı bir altyapı sağlamaktadır. Hazırlanan Ģarkı sözleri veri kümeleri üzerinden Türkçe metnine ve dilbilgisi yapısına göre öznitelikler seçilmiĢtir. Seçilen öznitelikler kullanılarak bir makine öğrenme algoritması ile Ģarkı sözü yazarını, türünü ve yayın tarihini tahmin edebilen bir sistem önerilmiĢ ve farklı tarzlardaki söz yazarlarından oluĢturulan geniĢ bir Ģarkı veri kümesinde performansı değerlendirilmiĢtir. Elde edilen sonuçlar böyle bir yaklaĢımın müzik veri madenciliği ve bilgi geri getirimi çalıĢmalarında faydalı olabileceğini göstermektedir.
Music retrieval has become an important problem with the widespread use of internet and related technologies for entertainment purposes. Music retrieval systems were developed for users to find songs they are looking for and similar ones in an easier manner, and list songs they might want to listen. Music objects should be analyzed and interpreted according to those analyses independent of the method that is going to be implemented. These studies on music analysis are mainly focused on two data types; content signal that is based on melodic and musical arrangement properties for music retrieval systems and meta-data information, such as name, genre, composer of the song. The use of lyrics text is very few. This study provides a basis for the prediction of meta-data of music from lyrics text in music retrieval applications. Features were chosen on the song lyrics data sets prepared according to the Turkish text and grammar structure. A system that can predict the writer, genre and relaese date of the song using the chosen features and a machine learning algorithm was presented and its performence on a large song data set generated from song writers with different styles was evaluated. Results show that this kind of an approach might be useful for music data mining and information retrieval studies.