هدف هذا المشروع هو تحديد الشذوذ في تدفق البيانات باستخدام خوارزميات التعلم الآلي. لتحقيق هذا الهدف، استخدمنا طرق التعلم الآلي الإشرافية وغير الإشرافية. تم تلخيص تفاصيل هذا المشروع، والتي نُشرت في ICISP 2022: المؤتمر الدولي السادس عشر لمعالجة الصور والإشارات، أدناه.
طريقة خاضعة للإشراف
في هذه الطريقة، قمنا بتدريب عدة طرق للتعلم الآلي باستخدام مجموعات بيانات عامة واحتفظنا بالطريقة التي أعطت أفضل نتيجة في مرحلة الاختبار الغير متصل كنموذج مدرب. بعد ذلك، لضمان فعالية هذا النموذج في المرحلة المتصلة، قمنا ببناء شبكة محلية وتقييم البيانات المتبادلة بين الحواسيب باستخدام النموذج المدرب. النظام المصمم قادر على التعرف على الشذوذ، والتي تمت محاكاتها من قبل خبرائنا، بدقة تصل إلى 95%.
طريقة غير خاضعة للإشراف
في هذا الجزء، نستخدم شبكة الرسوم البيانية الزمنية التي يشير عنوانها إلى رسوم بيانية يمكن تمثيلها كتسلسل لأحداث موقوتة، مثل إضافة أو حذف حافة أو عقدة. حيث تمثل العقد الآلات في شبكة ذات عدد ثابت، وتمثل الحواف حركة المرور في الشبكة (الحزم المتبادلة بين الآلات) وبالتالي هي في تطور مستمر مع الزمن. الشكل أدناه هو مثال على هذا الرسم البياني مع 10 حواسيب.
تنقسم التفاعلات الناتجة عن كل آلة إلى فئتين: عشوائية وحتمية. تتفاعل كل آلة بشكل عشوائي مع جيرانها وفقا لتوزيع الاحتمالات الخاص بها ؛ هذه تفاعلات عشوائية. تتفاعل كل آلة مع التفاعلات التي تتلقاها وفقا لخمس قواعد بسيطة. هذه هي التفاعلات الحتمية. في هذه الشبكة ، يرتبط كل تفاعل بأربع خصائص. واحد منهم ثنائي ، والثلاثة الأخرى مستمرة ، بعد التوزيع الطبيعي. كل آلة لها معلمات التوزيع الخاصة بها التي تحكم الخصائص المرتبطة بتفاعلاتها. في الخطوة التالية ، قمنا بمحاكاة التفاعلات الشاذة ، والتي تتبع ثلاثة سيناريوهات:
السيناريو 1: إرسال رسائل بين جهازين لا يتفاعلان عادة مع بعضهما البعض ؛
السيناريو 2: إرسال رسالة مماثلة من جهاز إلى أحد جيرانه عدة مرات في فترة زمنية قصيرة
السيناريو 3: تغيير إعدادات قاعدة الاحتمال لسمة مقترنة برسالة
في النهاية، نولد مجموعة بيانات تدريب خالية من الشوائب للرسم البياني ومجموعة بيانات اختبار تشمل شوائب ضمن البيانات الطبيعية.
تواجه طريقة المحاكاة هذه مشكلة ، وهي أن مجموعة البيانات التجريبية الخاصة بنا ليست جدولا به تفاعلات طبيعية وشاذة مستقلة عن بعضها البعض ، لذلك لا تسمح لنا بتقييم مصنف بسيط. لأن الحالات الشاذة المحاكاة يتم تنفيذها في الشبكة في نقطة زمنية محددة ولا يمكن فصلها عن التفاعلات العادية. لحل هذه المشكلة ، قسمنا الفترة الكلية إلى نوافذ صغيرة ، مع اعتبار كل نافذة عينة اختبار. في الحالتين التاليتين ، يتم إجراء التصنيف بشكل صحيح: (1) تحتوي النافذة على حالة شاذة ، ويتجاوز مؤشر الشذوذ ، A ، العتبة مرة واحدة على الأقل خلال الفترة ؛ (2) النافذة ليس لها شذوذ ، ولا تتجاوز A أبدا العتبة. تم الحصول على هذه العتبة بطريقة التجربة والخطأ. النظام الناتج قادر على التعرف على الحالات الشاذة بدقة 96٪
الهدف من هذا المشروع هو تحديد الحالات الشاذة في تدفق البيانات باستخدام خوارزميات التعلم الآلي. لتحقيق هذا الهدف ، استخدمنا أساليب التعلم الآلي الخاضعة للإشراف وغير الخاضعة للإشراف. تفاصيل هذا المشروع ، المنشورة في CIPHI 2022: 16. المؤتمر الدولي للتصوير ومعالجة الإشارات ، ملخصة أدناه.
طريقة خاضعة للإشراف
في هذه الطريقة، قمنا بتدريب عدة طرق للتعلم الآلي باستخدام مجموعات بيانات عامة واحتفظنا بالطريقة التي أعطت أفضل نتيجة في مرحلة الاختبار الغير متصل كنموذج مدرب. بعد ذلك، لضمان فعالية هذا النموذج في المرحلة المتصلة، قمنا ببناء شبكة محلية وتقييم البيانات المتبادلة بين الحواسيب باستخدام النموذج المدرب. النظام المصمم قادر على التعرف على الشذوذ، والتي تمت محاكاتها من قبل خبرائنا، بدقة تصل إلى 95%.
طريقة غير خاضعة للإشراف
في هذا الجزء، نستخدم شبكة الرسوم البيانية الزمنية التي يشير عنوانها إلى رسوم بيانية يمكن تمثيلها كتسلسل لأحداث موقوتة، مثل إضافة أو حذف حافة أو عقدة. حيث تمثل العقد الآلات في شبكة ذات عدد ثابت، وتمثل الحواف حركة المرور في الشبكة (الحزم المتبادلة بين الآلات) وبالتالي هي في تطور مستمر مع الزمن. الشكل أدناه هو مثال على هذا الرسم البياني مع 10 حواسيب.
تنقسم التفاعلات الناتجة عن كل آلة إلى فئتين: عشوائية وحتمية. تتفاعل كل آلة بشكل عشوائي مع جيرانها وفقا لتوزيع الاحتمالات الخاص بها ؛ هذه تفاعلات عشوائية. تتفاعل كل آلة مع التفاعلات التي تتلقاها وفقا لخمس قواعد بسيطة. هذه هي التفاعلات الحتمية. في هذه الشبكة ، يرتبط كل تفاعل بأربع خصائص. واحد منهم ثنائي ، والثلاثة الأخرى مستمرة ، بعد التوزيع الطبيعي. كل آلة لها معلمات التوزيع الخاصة بها التي تحكم الخصائص المرتبطة بتفاعلاتها. في الخطوة التالية ، قمنا بمحاكاة التفاعلات الشاذة ، والتي تتبع ثلاثة سيناريوهات:
السيناريو 1: إرسال رسائل بين جهازين لا يتفاعلان عادة مع بعضهما البعض ؛
السيناريو 2: إرسال رسالة مماثلة من جهاز إلى أحد جيرانه عدة مرات في فترة زمنية قصيرة
السيناريو 3: تغيير إعدادات قاعدة الاحتمال لسمة مقترنة برسالة
في النهاية، نولد مجموعة بيانات تدريب خالية من الشوائب للرسم البياني ومجموعة بيانات اختبار تشمل شوائب ضمن البيانات الطبيعية.
تواجه طريقة المحاكاة هذه مشكلة ، وهي أن مجموعة البيانات التجريبية الخاصة بنا ليست جدولا به تفاعلات طبيعية وشاذة مستقلة عن بعضها البعض ، لذلك لا تسمح لنا بتقييم مصنف بسيط. لأن الحالات الشاذة المحاكاة يتم تنفيذها في الشبكة في نقطة زمنية محددة ولا يمكن فصلها عن التفاعلات العادية. لحل هذه المشكلة ، قسمنا الفترة الكلية إلى نوافذ صغيرة ، مع اعتبار كل نافذة عينة اختبار. في الحالتين التاليتين ، يتم إجراء التصنيف بشكل صحيح: (1) تحتوي النافذة على حالة شاذة ، ويتجاوز مؤشر الشذوذ ، A ، العتبة مرة واحدة على الأقل خلال الفترة ؛ (2) النافذة ليس لها شذوذ ، ولا تتجاوز A أبدا العتبة. تم الحصول على هذه العتبة بطريقة التجربة والخطأ. النظام الناتج قادر على التعرف على الحالات الشاذة بدقة 96٪