Abstract | Sigurnosni napad je neovlašteni pokušaj krađe, oštećenja ili izlaganja podataka
iz informacijskog sustava. Izvoditelji tih sigurnosnih napada oslanjaju se na sve
sofisticiraniju tehnologiju i svakim danom raste broj novih vrsta cyber napada. Nekad su
se sigurnosni napadi mogli izbjeći. U današnje vrijeme, s internetskom vezom dostupnom
svugdje i kako sve više softvera zahtijeva internetsku vezu, više nije pitanje hoće li se
dogoditi sigurnosna prijetnja, nego je pitanje vremena kada će se dogoditi narušavanje
online sigurnosti. Danas postoji softver za otkrivanje prijetnji (eng. Intrusion Detection
System, IDS) koji nadgleda mrežni promet i traži poznate prijetnje i sumnjive ili
zlonamjerne aktivnosti, a dolazi u nizu različitih vrsta i mogućnosti.
Zadatak ovog završnog rada jest izraditi model koji, uz pomoć učenja na
određenom dijelu podataka, može prediktirati je li ili nije riječ o sigurnosnom napadu..
Rješenje je implementirano binarnom i višeklasnom klasifikacijom. Algoritmi korišteni za
predikciju su Gaussov Naive Bayes algoritam, K-sljedećih susjeda i stablo odlučivanja.
Sam programski kod je pisan u Python programskom jeziku. Kao razvojno okruženje
koriste se Jupyter Notebook i Anaconda IDE. Za procese nad podatcima korišteni su
NumPy, Pandas, Scikit-learn i Imblearn. Za vizualne prikaze koriste se Matplotlib i
Seaborn.
U uvodnom dijelu opisuje se utjecaj strojnog učenja i sigurnosnih napada u
današnje vrijeme. U teoretskom dijelu ovog rada ukratko su objašnjeni Python
programski jezik, razvojno okruženje Anaconda i Jupyter Notebook te individualne
biblioteke potrebne za procese nad podatcima i izradu modela. Također je objašnjena
teorija iz strojnog učenja i osnovna podjela te neki od popularnijih algoritama za učenje.
Opisani su algoritmi korišteni za predikciju. Nakon toga opisana je procedura izrade
prediktivnog modela koja se sastoji od validacije podataka (prikupljanje, unos, čišćenje,
analiza, vizualiziranje, transformacija), treniranja podataka te na kraju implementacija
na setu za testiranje uz prikaze performansi s klasifikacijskim izvještajem i konfuzijskim
matricama. |