Türkçe mikroblog metinlerinde derin öğrenme dil modeli tabanlı konu tespiti
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Mikroblog yazıları insanların sosyal medyada görü şlerini ifade ettikleri ve herhangi bir düzene bağlı olmayan kısa metinlerdir. Sosyal medya mikroblog metinlerinin konularına göre sınıflandırılması anlamsal bir altyapı oluştururken birçok uygulamaya da yardımcı olur. Bu çalışmada, mikroblog metinlerinde konu tespiti problemi için geleneksel kelime torbası ve derin öğrenme tabanlı modellerin karşılaştırıldığı bir analiz sunulmaktadır. Veri kümesinin oluşturulması için Türkiye’de yaşanan güncel olaylarla ilgili mikroblog metinleri içeren Türkçe "tweet"ler toplanmıştır. Oluşturulan veri kümesindeki "tweet"ler içerdikleri "hashtag" ifadelerine göre etiketlenmiştir. Son haline getirilen veri kümesinde bir adet geleneksel kelime torbası (TFIDF tabanlı SVM) ve iki adet güncel derin öğrenme yöntemi (BERT ve BERTurk) ile eğitim yapılmıştır. Modellerin başarısı ağırlıklı F1 skoru ile ölçülmüştür. TF-IDF tabanlı SVM 0,807, BERT 0,831 ve BERTurk 0,854 F1 skoru elde etmiştir.
Microblogs are short and irregular texts in which people express their opinions in social media. While classification of social media microblog texts according to their topics constitutes a semantic substructure, it helps implementation of various applications. In this study, an analysis comparing conventional bag-of-words and deep-learning based models for the problem of topic detection in microblogs is presented. Turkish tweets containing microblog texts related to current events in Turkey are collected for preparation of the dataset. Tweets in dataset are labeled according to the hashtags they contain. One conventional bag-of-words (TF-IDF based SVM) and two deep learning based models (BERT and BERTurk) are trained on dataset. Performances of the models are measured by using weighted F1 score. TF-IDF based SVM model, BERT and BERTurk perform with F1 scores of 0.807, 0.831 and 0.854 respectively.
Description
Date of Conference: 9-11 June 2021