
DEEP ANOMALY DETECTION
IN DISTRIBUTED SOFTWARE SYSTEMS
vorgelegt von
M.Sc.
Sasho Nedelkoski
an der Fakultät IV–Elektrotechnik und Informatik
der Technischen Universität Berlin
zur Erlangung des akademischen Grades
Doktor der Ingenieurwissenschaften
- Dr.-Ing. -
genehmigte Dissertation
Promotionsausschuss:
Vorsitzender: Prof. Dr. Florian Tschorsch
Gutachter: Prof. Dr. Odej Kao
Gutachter: Prof. Dr. Ingo Weber
Gutachter: Prof. Dr. Gjorgji Madjarov
Tag der wissenschaftlichen Aussprache: 12. April 2021
Berlin 2021

Sasho Nedelkoski
Deep Anomaly Detection in Distributed Software Systems

To my family.

ABSTRACT
Artificial Intelligence for IT Operations (AIOps) combines big data and ma-
chine learning to replace a broad range of IT Operations tasks. The task of
anomaly detection has a prominent position in ensuring the required reliabil-
ity and safe operation in distributed software systems. However, the frequent
software and hardware updates, system heterogeneity, and massive amount
of data create a challenging environment. The detection of anomalies in these
systems predominantly relies on metric, log, and trace data. Each of them
provides a different view of the internal states of the systems. By induction,
improving the detection in every data source increases the overall anomaly
detection performance in the system.
This thesis provides the following contributions. (1) We present a method
based on variational inference and recurrent neural network to address the
detection of anomalies in system metric data that possibly exhibit multiple
modes of normal operation. (2) We propose a novel log parsing through lan-
guage modelling that enables learning of log representations for downstream
anomaly detection. We identify the learning of log representations as a major
challenge toward a robust anomaly detection. Therefore, we additionally de-
sign a method that learns log representations by distinguishing between nor-
mal data from the system of interest and easily accessible anomaly samples
obtained through the internet. (3) We describe a self-supervised anomaly de-
tection task that utilizes the entire trace information to robustly detect anoma-
lies that propagate through system components. (4) In a rule-based approach,
we combine the presented methods for a multi-view anomaly detection.
The methods presented in this thesis were implemented in prototypes
and evaluated on various datasets including production data from a cloud
provider. They provided (1) an F1score of 0.85 on metric data, (2) parsing
accuracy of 99% and F1score improvement of 0.25 in log anomaly detection,
(3) increase in F1score of 7% in trace anomaly detection over the state of
the art, and (4) broadened spectrum of detected anomalies. The results were
peer-reviewed and published at renowned international conferences.
iv

ZUSAMMENFASSUNG
Für den Betrieb großer und komplexer IT-Infrastrukturen in Rechenzentren
werden immer häufiger KI-gestützte Methoden und Werkzeuge eingesetzt.
Durch das Kombinieren von großen Mengen an Daten mit Machine Learn-
ing Prinzipien, können viele klassische Aufgaben in dem Betrieb und der
Wartung von IT-Systemen ersetzt werden. Die Anomalieerkennung nimmt
dabei eine besondere Stellung ein, um die geforderte Zuverlässigkeit und den
sicheren Betrieb in verteilten Softwaresystemen zu gewährleisten. Die große
Anzahl von heterogenen Komponenten und Diensten, häufige Software- und
Hardware-Updates, die steigende Anzahl von Benutzern und Anwendungen
sowie die riesigen zu verarbeitenden Datenmengen stellen eine signifikante
Herausforderung dar. Die Anomalieerkennung in diesen Systemen basiert
an mehreren komplementären Datenquellen (Metriken, Logs, Traces) zur
Beschreibung und Analyse des aktuellen Systemzustandes, die zusammen
einen einen gesamtheitlichen Einblick in das laufende System ermöglichen.
Die Verbesserung der Anomalieerkennung in jeder der Datenquellen würde
daher die Leistung der Anomalieerkennung im gesamten System verbessern.
In dieser Arbeit liefern wir die folgenden Beiträge. (1) Wir stellen eine Meth-
ode zur Anomalieerkennung in metrischen Daten (von Monitoringsystemen)
vor, die auf Variationsinferenz und rekurrenten neuronalen Netzen basiert,
um eine zuverlässige Detektion trotz des wechselnden Systemmodi und des
Vorhandenseins von Rauschen zu ermöglichen. (2) Wir erwähnen eine neuar-
tige Log-Parsing Methode die auf Sprachmodellierung basiert ist. Diese Meth-
ode ermöglicht das Lernen von Log-Repräsentationen für die Anomalieerken-
nung, was einen wichtigen Meilenstein für eine robuste Anomalieerken-
nung darstellt. Aus diesem Grund haben wir im Zusatz einen klassifikation-
basierten Ansatz entwickelt, der Log-Repräsentationen durch die Unterschei-
dung zwischen normalen Daten des untersuchten Systems und online ver-
fügbaren Anomalie-Muster lernen kann. (3) Wir beschreiben eine sich selbst
überwachende Pseudo-Anomalie-Erkennungsaufgabe, welche die gesamten
Trace-Information nutzt, um robust Anomalien zu erkennen, die sich auf
mehrere Systemkomponenten verteilen. (4) In einem regelbasierten Ansatz
kombinieren wir die vorgestellten Methoden, um Anomalieerkennung mit-
tels mehrere Datenquellen zu ermöglichen.
Die in dieser Arbeit vorgestellten Methoden wurden in Prototypen imple-
mentiert und auf verschiedenen Datensätzen, in experimentellen Testbeds
v
Loading more pages...