The matrix math behind transformer neural networks, one step at a time!!!

StatQuest with Josh Starmer

8 Apr 202423:43

Summary

TLDRفي هذا الفيديو، يشرح جوش ستارمر بالتفصيل الرياضيات وراء شبكات المحولات العصبية، مع التركيز على كيفية استخدام التراكيب المصفوفية لتحويل جملة إنجليزية بسيطة إلى الإسبانية. يبدأ الفيديو بتغطية المفاهيم الأساسية مثل تضمين الكلمات والتشفير المكاني، ثم ينتقل إلى حساب القيم الاستعلامية والمفاتيح والقيم باستخدام عمليات ضرب المصفوفات. يوضح أيضًا كيفية استخدام الانتباه الذاتي والانتباه بين المشفر والمفكك لفهم كيفية عمل المحولات بشكل فعال في الترجمة. هذه الدورة موجهة لمن لديهم خلفية مسبقة في الشبكات العصبية والمعادلات المصفوفية.

Takeaways

😀 الفهم العميق للرياضيات وراء شبكات الترنسفورمر يسهل كتابة الأكواد لها.
😀 يتضمن الترنسفورمر عملية تحويل جمل من لغة إلى أخرى باستخدام بنية الشبكة العصبية من نوع المُشفّر والمُفكّك.
😀 يُستخدم الرمز SOS (بداية تسلسل) لتحديد بداية الجملة المدخلة عند التدريب.
😀 عملية تضمين الكلمات (Word Embedding) تتم عبر ضرب قيم المدخلات في مصفوفات الأوزان الخاصة بكل مدخل.
😀 يتم إضافة تشفير المواقع (Positional Encoding) لكل كلمة لتحديد ترتيب الكلمات في الجملة المدخلة.
😀 لحساب الانتباه الذاتي (Self-Attention)، يتم حساب قيم الاستعلامات (Queries)، المفاتيح (Keys)، والقيم (Values) لكل كلمة في المدخل.
😀 استخدام ضرب المصفوفات هو المفتاح لحساب التشابه بين الاستعلامات والمفاتيح باستخدام عملية ضرب النقاط (Dot Product).
😀 يتم تحسين نتائج ضرب النقاط عبر قسمة القيم على الجذر التربيعي لأبعاد المصفوفة للحصول على التشابه المقاس.
😀 وظيفة الـ Softmax تستخدم لتحديد الأوزان النسبية بين الكلمات بناءً على التشابه المقاس بعد إجراء التعديلات.
😀 في أثناء التدريب، تُستخدم تقنية Teacher Forcing لتمرير النتائج المعروفة بين وحدات فك الشيفرة (Decoder).
😀 في عملية الانتباه بين المُشفّر والمُفكّك، يتم استخدام نتائج المُشفّر لإنتاج قيم المفاتيح والقيم التي يستند إليها المُفكّك.

Q & A

ما هو الهدف من تعلم التدوين المصفوفي في الشبكات العصبية المحولّة؟
-الهدف من تعلم التدوين المصفوفي هو تسهيل فهم كيفية ترميز وتحويل البيانات في الشبكات العصبية المحولّة، مما يساعد على تسريع عملية البرمجة والتدريب وتحسين الأداء العام للنموذج.
ما هو المقصود بالرمز SOS في شبكة المحول؟
-رمز SOS (Start of Sequence) هو الرمز الذي يُستخدم للإشارة إلى بداية تسلسل البيانات في نموذج المحول، ويُضاف إلى بداية المدخلات لتحديد نقطة البداية في الترجمة أو المعالجة.
كيف يتم تحويل الكلمات إلى تمثيلات متجهية في الشبكة العصبية المحولّة؟
-يتم تحويل الكلمات إلى تمثيلات متجهية باستخدام شبكة تضم مصفوفات مخصصة للأوزان التي تمثل الكلمات، حيث يتم ضرب المدخلات بالمصفوفات، ثم جمع الناتج ليتم استخدامه في وظائف التنشيط.
ما هي أهمية إضافة ترميز المواقع (Positional Encoding) في المحول؟
-إضافة ترميز المواقع يُتيح للنموذج فهم ترتيب الكلمات في التسلسل. بدون هذا الترميز، لن يستطيع النموذج التمييز بين الكلمات في تسلسل معين.
ماذا يعني الحساب الذاتي الانتباه (Self-Attention) في نموذج المحول؟
-الحساب الذاتي الانتباه هو آلية تقوم بتحديد مدى تأثير كل كلمة على الكلمات الأخرى في التسلسل، مما يساعد النموذج في التركيز على الكلمات الأكثر أهمية أثناء المعالجة.
لماذا نستخدم التحويل المصفوفي بين مصفوفات الاستعلامات (Q) والمفاتيح (K) في المحولات؟
-يتم استخدام التحويل المصفوفي بين مصفوفات الاستعلامات والمفاتيح لحساب مدى التشابه بين الكلمات في التسلسل، وهذا يساعد في تحديد أي الكلمات لها تأثير أكبر على الكلمات الأخرى.
ما هو الفرق بين التشابه غير المقيس (Unscaled Similarity) والتشابه المقيس (Scaled Similarity) في حسابات المحول؟
-التشابه غير المقيس هو مقياس أولي للتشابه بين الكلمات دون أي تعديل، بينما التشابه المقيس يتم تعديله باستخدام الجذر التربيعي للبعد الخاص بمصفوفة المفاتيح لضبط القيم وتسهيل المعالجة.
ما فائدة استخدام وظيفة الـ SoftMax في شبكة المحول؟
-وظيفة الـ SoftMax تُحوّل القيم إلى احتمالات مئوية بحيث تكون مجموع القيم في كل صف يساوي 1، مما يساعد في تحديد مدى تأثير كل كلمة في التسلسل على الكلمات الأخرى.
ما المقصود بالاتصال المتبقي (Residual Connection) في المحولات؟
-الاتصال المتبقي هو إضافة المدخلات الأصلية إلى النتائج الناتجة من العمليات الحسابية في المحول، مما يساعد على الحفاظ على المعلومات الأساسية وعدم فقدانها خلال العمليات المعقدة.
كيف يختلف حساب الانتباه بين المحول في التدريب وفي مرحلة الترجمة؟
-في التدريب، يتم استخدام ما يُسمى بالقوة التعليمية (Teacher Forcing)، حيث يتم تغذية المدخلات المتوقعة من الترجمة بشكل متسلسل، بينما في مرحلة الترجمة الفعلية، يبدأ المحول فقط برمز SOS ويتوقع الإكمال بناءً على ما تم تدريبه عليه.