Machine Learning for Security Analysts - Part 2: Building a Spam Filter

Netsec Explained

8 Aug 201923:45

Summary

TLDRفي هذا الفيديو، يتم شرح عملية بناء نموذج تعلم آلي للكشف عن البريد العشوائي باستخدام البيانات الخام. يبدأ الفيديو بتوضيح كيفية تحميل البيانات وتحضيرها، ثم ينتقل إلى تحويل النصوص باستخدام تقنيات مثل Count Vectorizer وTF-IDF. بعد ذلك، يتم تدريب واختبار أربعة نماذج مختلفة (Naive Bayes و Logistic Regression) باستخدام بيانات التدريب واختبار الأداء باستخدام مقاييس مثل دقة النموذج ومصفوفة الارتباك. في النهاية، يتم تحسين النماذج باستخدام تعديل معلمات النموذج للحصول على أفضل أداء. هذا الفيديو يعرض كيفية تطبيق هذه التقنيات خطوة بخطوة.

Takeaways

😀 استخدمنا Jupyter Notebooks وأدوات عبر الإنترنت مثل Google Colab وMyBinder لتطوير النموذج.
😀 تم شرح كيفية معالجة البيانات الأولية بما في ذلك تنظيف النصوص من الكلمات التوقفية والتقطيع.
😀 تم مقارنة تقنيتي التمثيل العددي للنصوص: Count Vectorizer وTF-IDF.
😀 تعلمنا كيفية بناء وتدريب نموذج تصنيف باستخدام Naive Bayes وLogistic Regression.
😀 تم تقييم النماذج باستخدام مقاييس مثل دقة التصنيف ومصفوفة الالتباس.
😀 تم إجراء تحسينات على النماذج باستخدام المعايرة الذاتية للمعلمات (Hyperparameter Tuning).
😀 تم استخدام مكتبات Python مثل NLTK وscikit-learn في بناء النموذج.
😀 قدمنا مثالًا عمليًا على تصنيف البريد الإلكتروني كرسائل عادية أو غير مرغوب فيها (Spam vs. Ham).
😀 تم توضيح كيفية إجراء التقطيع (Tokenization) واستخدامها لتحويل النصوص إلى معالم قابلة للاستخدام في النماذج.
😀 شمل الفيديو خطوات متكاملة لبناء نموذج تعلم آلي من البداية إلى النهاية.

Q & A

ما هو الهدف من الفيديو؟
-الهدف من الفيديو هو توضيح كيفية استخدام تعلم الآلة من خلال تطبيق عملي يبدأ من البيانات الخام حتى الحصول على نموذج تعلم آلة عامل باستخدام الأكواد والبيانات المتاحة في مستودع GitHub.
ما هي بيئات العمل التي يوصي بها الفيديو؟
-يوصي الفيديو باستخدام بيئتين هما: Google Colab التي توفر موارد مجانية مثل وحدة معالجة رسومية (GPU)، وMyBinder التي تتيح بناء بيئات من مستودعات GitHub.
ما هي المكتبات البرمجية المستخدمة في هذا الفيديو؟
-المكتبات البرمجية المستخدمة في الفيديو تشمل OS وstring وnumpy وrandom وmatplotlib، بالإضافة إلى NLTK لتحليل اللغة الطبيعية، وscikit-learn لموديلات تعلم الآلة.
ما هي وظيفة الـ tokenizer في الفيديو؟
-الـ tokenizer يستخدم لتحويل النصوص إلى كلمات فردية قابلة للتحليل من خلال إزالة الحروف الكبيرة، علامات الترقيم، والكلمات غير الهامة (stop words)، واستخدام الجذور للكلمات.
ماذا يعني الـ vectorization في تعلم الآلة؟
-الـ vectorization يعني تحويل النصوص إلى تمثيلات رقمية بحيث يمكن للنماذج فهمها، ويتم ذلك باستخدام تقنيتين: count vectorizer التي تحسب عدد الكلمات، وtf-idf vectorizer التي تعطي وزنًا للكلمات بناءً على تكرارها في النصوص.
ما الفرق بين count vectorizer و tf-idf vectorizer؟
-count vectorizer ببساطة يعد تكرار الكلمات في النصوص، بينما tf-idf vectorizer يخصص وزنًا لكل كلمة بناءً على تكرارها في النصوص (term frequency) وعلاقتها ببقية المستندات (inverse document frequency).
ما هو الفرق بين الـ multinomial naive Bayes و الـ logistic regression؟
-الـ multinomial naive Bayes هو نموذج يعتمد على الاحتمالات للتصنيف بناءً على توزيع الكلمات في فئات معينة، بينما الـ logistic regression هو نموذج يعتمد على التنبؤ بالاحتمالات باستخدام دالة لوجستية.
ما هي خطوات إنشاء النماذج في الفيديو؟
-الخطوات تتضمن تحميل البيانات، معالجتها، تحويلها إلى تمثيلات رقمية باستخدام vectorizers، تدريب النماذج (مثل multinomial naive Bayes و logistic regression)، ثم اختبار النماذج باستخدام البيانات الاختبارية وتقييم أدائها باستخدام مقاييس مثل الدقة (accuracy) و مصفوفة الارتباك (confusion matrix).
كيف يمكن تحسين نتائج نموذج multinomial naive Bayes؟
-يمكن تحسين نتائج نموذج multinomial naive Bayes من خلال تعديل قيمة alpha (التي تمثل معلمة التنعيم)، حيث يمكن تقليلها لزيادة دقة النموذج، كما تم في المثال الذي رفع دقة النموذج من 87.5% إلى 93.7%.
ما هي أفضل نتيجة حققها النموذج في الفيديو؟
-أفضل نتيجة تم تحقيقها هي 98% دقة باستخدام نموذج logistic regression مع count vectorizer، حيث تم تصنيف معظم رسائل البريد المزعج بشكل صحيح مع تصنيف قليل للبريد الشرعي على أنه بريد مزعج.