Le but de ce projet est d’identifier les anomalies dans le flux de données à l’aide d’algorithmes d’apprentissage automatique. Pour atteindre cet objectif, nous avons utilisé des méthodes d’apprentissage automatique supervisées et non supervisées. Les détails de ce projet, publiés dans la ICISP 2022: 16. International Conference on Imaging and Signal Processing, sont résumés ci-dessous.
Méthode supervisée
Dans cette méthode, nous avons formé plusieurs méthodes d’apprentissage automatique à l’aide d’ensembles de données publics et avons conservé la méthode qui avait le meilleur résultat dans la phase de test off-line comme modèle entrainée. Ensuite, pour assurer l’efficacité de ce modèle dans la phase en ligne, nous avons construit un réseau local et évalué les données échangées entre ordinateurs à l’aide du modèle entraîné. Le système conçu est capable de reconnaître les anomalies, qui ont été simulées par nos experts, avec une précision de 95 %.
Méthode non-supervisée
Dans cette partie, nous utilisons un réseau de graphes temporels dont le titre fait référence à des graphes pouvant être représentés comme une séquence d’événements horodatés, tels que l’ajout ou la suppression d’une arête ou d’un nœud. Dans lequel les nœuds représentent des machines d’un réseau dont le nombre est constant, et les bords représentent le trafic réseau (paquets échangés entre machines) et sont donc en constante évolution dans le temps. La figure ci-dessous est un exemple de ce graphe avec 10 ordinateurs.
Les interactions générées par chaque machine sont divisées en deux catégories : aléatoires et déterministes. Chaque machine interagit aléatoirement avec ses voisines selon une distribution de probabilité qui lui est propre ; ce sont des interactions aléatoires. Chaque machine réagit aux interactions qu’elle reçoit selon cinq règles simples ; ce sont les interactions déterministes. Dans ce réseau, chaque interaction est associée à quatre caractéristiques. L’un d’eux est binaire, et les trois autres sont continus, suivant une distribution normale. Chaque machine a ses paramètres de distribution régissant les caractéristiques associées à ses interactions. Dans l’étape suivante, nous avons simulé des interactions anormales, qui suivent trois scénarios :
Scénario n°1 : Envoi de messages entre deux machines qui n’interagissent pas normalement les uns avec les autres ;
Scénario n°2 : Envoi d’un message similaire d’une machine à l’un de ses voisins plusieurs fois en peu de temps
Scénario n°3 : Modification des paramètres de la règle de probabilité d’une caractéristique associée à un message
Enfin, nous générons un jeu de données d’apprentissage sans anomalies pour le graph et un jeu de données de test incluant des anomalies dans les données normales.
Cette méthode de simulation a un problème, qui est que notre ensemble de données expérimentales n’est pas une table avec des interactions normales et anormales indépendantes les unes des autres, donc elle ne nous permet pas d’évaluer un classificateur simple. Parce que les anomalies simulées sont mises en œuvre dans le réseau à un moment précis et ne peuvent être séparées des interactions normales. Alors pour résoudre ce problème, nous avons divisé la période globale en petites fenêtres, chaque fenêtre étant considérée comme un échantillon test. Dans les deux cas suivants, la classification est effectuée correctement : (1) la fenêtre contient une anomalie, et l’indicateur d’anomalie, A, dépasse le seuil au moins une fois au cours de la période ; (2) la fenêtre n’a pas d’anomalie, et A ne dépasse jamais le seuil. Ce seuil a été obtenu par la méthode d’essai et d’erreur. Le système ainsi conçu est capable de reconnaître les anomalies avec une précision de 96 %
Le but de ce projet est d’identifier les anomalies dans le flux de données à l’aide d’algorithmes d’apprentissage automatique. Pour atteindre cet objectif, nous avons utilisé des méthodes d’apprentissage automatique supervisées et non supervisées. Les détails de ce projet, publiés dans la ICISP 2022: 16. International Conference on Imaging and Signal Processing, sont résumés ci-dessous.
Méthode supervisée
Dans cette méthode, nous avons formé plusieurs méthodes d’apprentissage automatique à l’aide d’ensembles de données publics et avons conservé la méthode qui avait le meilleur résultat dans la phase de test off-line comme modèle entrainée. Ensuite, pour assurer l’efficacité de ce modèle dans la phase en ligne, nous avons construit un réseau local et évalué les données échangées entre ordinateurs à l’aide du modèle entraîné. Le système conçu est capable de reconnaître les anomalies, qui ont été simulées par nos experts, avec une précision de 95 %.
Méthode non-supervisée
Dans cette partie, nous utilisons un réseau de graphes temporels dont le titre fait référence à des graphes pouvant être représentés comme une séquence d’événements horodatés, tels que l’ajout ou la suppression d’une arête ou d’un nœud. Dans lequel les nœuds représentent des machines d’un réseau dont le nombre est constant, et les bords représentent le trafic réseau (paquets échangés entre machines) et sont donc en constante évolution dans le temps. La figure ci-dessous est un exemple de ce graphe avec 10 ordinateurs.
Les interactions générées par chaque machine sont divisées en deux catégories : aléatoires et déterministes. Chaque machine interagit aléatoirement avec ses voisines selon une distribution de probabilité qui lui est propre ; ce sont des interactions aléatoires. Chaque machine réagit aux interactions qu’elle reçoit selon cinq règles simples ; ce sont les interactions déterministes. Dans ce réseau, chaque interaction est associée à quatre caractéristiques. L’un d’eux est binaire, et les trois autres sont continus, suivant une distribution normale. Chaque machine a ses paramètres de distribution régissant les caractéristiques associées à ses interactions. Dans l’étape suivante, nous avons simulé des interactions anormales, qui suivent trois scénarios :
Scénario n°1 : Envoi de messages entre deux machines qui n’interagissent pas normalement les uns avec les autres ;
Scénario n°2 : Envoi d’un message similaire d’une machine à l’un de ses voisins plusieurs fois en peu de temps
Scénario n°3 : Modification des paramètres de la règle de probabilité d’une caractéristique associée à un message
Enfin, nous générons un jeu de données d’apprentissage sans anomalies pour le graph et un jeu de données de test incluant des anomalies dans les données normales.
Cette méthode de simulation a un problème, qui est que notre ensemble de données expérimentales n’est pas une table avec des interactions normales et anormales indépendantes les unes des autres, donc elle ne nous permet pas d’évaluer un classificateur simple. Parce que les anomalies simulées sont mises en œuvre dans le réseau à un moment précis et ne peuvent être séparées des interactions normales. Alors pour résoudre ce problème, nous avons divisé la période globale en petites fenêtres, chaque fenêtre étant considérée comme un échantillon test. Dans les deux cas suivants, la classification est effectuée correctement : (1) la fenêtre contient une anomalie, et l’indicateur d’anomalie, A, dépasse le seuil au moins une fois au cours de la période ; (2) la fenêtre n’a pas d’anomalie, et A ne dépasse jamais le seuil. Ce seuil a été obtenu par la méthode d’essai et d’erreur. Le système ainsi conçu est capable de reconnaître les anomalies avec une précision de 96 %