Türkçe mikroblog metinlerinde derin öğrenme dil modeli tabanlı konu tespiti

buir.contributor.authorŞahinuç, Furkan
buir.contributor.authorKoç, Aykut
buir.contributor.orcidKoç, Aykut|0000-0002-6348-2663
dc.citation.epage4en_US
dc.citation.spage1en_US
dc.contributor.authorŞahinuç, Furkan
dc.contributor.authorToraman, Çağrı
dc.contributor.authorKoç, Aykut
dc.coverage.spatialIstanbul, Turkeyen_US
dc.date.accessioned2022-01-31T11:06:57Z
dc.date.available2022-01-31T11:06:57Z
dc.date.issued2021-07-19
dc.departmentDepartment of Electrical and Electronics Engineeringen_US
dc.descriptionConference Name: 2021 29th Signal Processing and Communications Applications Conference (SIU)en_US
dc.descriptionDate of Conference: 9-11 June 2021en_US
dc.description.abstractMikroblog yazıları insanların sosyal medyada görü şlerini ifade ettikleri ve herhangi bir düzene bağlı olmayan kısa metinlerdir. Sosyal medya mikroblog metinlerinin konularına göre sınıflandırılması anlamsal bir altyapı oluştururken birçok uygulamaya da yardımcı olur. Bu çalışmada, mikroblog metinlerinde konu tespiti problemi için geleneksel kelime torbası ve derin öğrenme tabanlı modellerin karşılaştırıldığı bir analiz sunulmaktadır. Veri kümesinin oluşturulması için Türkiye’de yaşanan güncel olaylarla ilgili mikroblog metinleri içeren Türkçe "tweet"ler toplanmıştır. Oluşturulan veri kümesindeki "tweet"ler içerdikleri "hashtag" ifadelerine göre etiketlenmiştir. Son haline getirilen veri kümesinde bir adet geleneksel kelime torbası (TFIDF tabanlı SVM) ve iki adet güncel derin öğrenme yöntemi (BERT ve BERTurk) ile eğitim yapılmıştır. Modellerin başarısı ağırlıklı F1 skoru ile ölçülmüştür. TF-IDF tabanlı SVM 0,807, BERT 0,831 ve BERTurk 0,854 F1 skoru elde etmiştir.en_US
dc.description.abstractMicroblogs are short and irregular texts in which people express their opinions in social media. While classification of social media microblog texts according to their topics constitutes a semantic substructure, it helps implementation of various applications. In this study, an analysis comparing conventional bag-of-words and deep-learning based models for the problem of topic detection in microblogs is presented. Turkish tweets containing microblog texts related to current events in Turkey are collected for preparation of the dataset. Tweets in dataset are labeled according to the hashtags they contain. One conventional bag-of-words (TF-IDF based SVM) and two deep learning based models (BERT and BERTurk) are trained on dataset. Performances of the models are measured by using weighted F1 score. TF-IDF based SVM model, BERT and BERTurk perform with F1 scores of 0.807, 0.831 and 0.854 respectively.en_US
dc.identifier.doi10.1109/SIU53274.2021.9477781en_US
dc.identifier.eisbn978-1-6654-3649-6
dc.identifier.isbn978-1-6654-3650-2
dc.identifier.issn2165-0608
dc.identifier.urihttp://hdl.handle.net/11693/76911
dc.language.isoTurkishen_US
dc.publisherIEEEen_US
dc.relation.isversionofhttps://dx.doi.org/10.1109/SIU53274.2021.9477781en_US
dc.source.titleIEEE Signal Processing and Communications Applications (SIU)en_US
dc.subjectBERTen_US
dc.subjectBERTurken_US
dc.subjectDerin öğrenmeen_US
dc.subjectKelime torbasıen_US
dc.subjectKonu tespitien_US
dc.subjectMikroblogen_US
dc.subjectTweeten_US
dc.subjectDeep learningen_US
dc.subjectBag-of-wordsen_US
dc.subjectTopic detectionen_US
dc.titleTürkçe mikroblog metinlerinde derin öğrenme dil modeli tabanlı konu tespitien_US
dc.title.alternativeTopic detection based on deep learning language model in Turkish microblogsen_US
dc.typeConference Paperen_US

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Topic_Detection_based_on_Deep_Learning_Language_Model_in_Turkish_Microblogs.pdf
Size:
390.04 KB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.69 KB
Format:
Item-specific license agreed upon to submission
Description: