Parametrik olmayan yoğunluk tahmincileri ile ardışık anomali tespiti
Date
Editor(s)
Advisor
Supervisor
Co-Advisor
Co-Supervisor
Instructor
Source Title
Print ISSN
Electronic ISSN
Publisher
Volume
Issue
Pages
Language
Type
Journal Title
Journal ISSN
Volume Title
Series
Abstract
Bu bildiride, gözlemlenen verideki anomalileri, gözetimsiz bir çerçevede, iki aşamalı yöntemle bulmak için anomali tespit algoritması tanıtılmıştır. İlk aşamada, ardışık olarak gözlemlenen verinin yoğunluğu çekirdek temelli özgün bir yöntemle tahmin edilmektedir. Bu amaçla, gözlem alanı bölünmekte ve her bölgede parametrik olmayan Çekirdek Yoğunluk Tahmincisi (ÇYT) veri dağılımına dair hiçbir varsayımda bulunulmadan kullanılmaktadır. Sonra, yoğunluk tahmini eşik değeriyle karşılaştırılarak verinin anomali olup olmadığına karar verilmektedir. Ayrıca, çekirdek temelli yöntemlerdeki bant genişliği seçimi problemi de verimli bir şekilde çözülmektedir. Bu amaçla, her bir bölgeye çekirdek bant genişliği seti atanmakta ve her tahmincinin ait olduğu bölgeye göre en iyi bant genişliği seçeneğine zamanla ulaşması sağlanmaktadır. Sayısal örneklerde, tanıtılan algoritmanın literatürde sıklıkla kullanılan anomali tespit metodlarına göre yüksek performans artışı elde ettiği gösterilmektedir.
In this paper, we introduce an online anomaly detection algorithm to detect the anomalies in the observed data with two step approach in an unsupervised framework. In the first step, we estimate the density of the sequentially observed data with a novel kernel based approach. To this end, we partition the observation space and use nonparametric Kernel Density Estimator (KDE) in each region on a partition such that we do not assume any underlying distribution for the data. Then, we compare the estimated density of the data with a threshold to decide whether it is anomalous. We also solve the bandwidth selection problem in kernel based approaches in an efficient way. For this, we assign a set of kernel bandwidth values to each region, and make each estimator to converge to the best bandwidth choice for the corresponding subspaces in time. In our experiments, we show that our algorithm significantly outperforms the anomaly detection algorithms, which are highly used in the literature.