غوغل تعلمت رسم اللوحات

تتعرف الشبكات العصبية لغوغل على القطط وترسم اللوحات. يحكي فريق من الباحثين في محرك البحث العملاق كيف يعمل هذا.

أدت الشبكات العصبية الاصطناعية إلى تقدم رهيب في تصنيف الصور والتعرف على الكلام. ولكن رغم كل فائدة هذه الأدوات التي ترتكز على طرائق رياضية معروفة جيداً، لا نعرف إلا القليل جداً عن سبب نجاح بعض النماذج وفشل بعضها الآخر. فهيا بنا نتعرف على بعض الوسائل البسيطة لفحص الشبكات العصبية من داخلها.

ندرِّب شبكة عصبية اصطناعية حيث نعطيها ملايين الأمثلة ثم نقوم بتوليفها حتى نحصل على النتائج المرجوة. تتألف الشبكة من 10−30 طبقة من العصبونات الاصطناعية. تُدخَل كل صورة في طبقة الدخل فتنقل المعلومات إلى الطبقة التالية، وهكذا بالتسلسل حتى تصل إلى طبقة الخرج، ونحصل على «جواب» الشبكة بجمع المعلومات من الطبقة الأخيرة.

واحدة من مشاكل الشبكات العصبية هي ضعف فهمنا للعمليات التي تجري في كل طبقة. نعرف أن بعد التدريب تستخرج كل طبقة تالية تفاصيل أعلى مستوىً للصورة، وأخيراً تتخذ الطبقة الأخيرة القرار حول ماهية الأغراض الموجودة فيها. مثلاً، الطبقة الأولى قد تكون حساسة للزوايا والحدود، ثم تعالج الطبقات الوسطى الملامح الرئيسية بحثاً عن الأشكال والمكونات العامة مثل الباب أو الورقة. تجمع الطبقات الأخيرة التفاصيل في تفسير مكتمل، فهذه العصبونات تستجيب للبنى بالغة التعقيد، مثل بيت كامل أو شجرة كاملة.

أحد أساليب دراسة ما يحدث في داخل الشبكة هو قلبها رأساً على عقب وتكليفها بمعالجة صورة داخلة بحيث نحصل في الخرج على غرض محدد. مثلاً، تريد أن تعرف كيف يجب أن تكون صورة الدخل لتحصل في الخرج على موزة. ابدأ من صورة مليئة بنقاط عشوائية، ثم قم بترتيبها تدريجياً لتحصل على ما تعتبره الشبكة العصبية موزة. هذه الطريقة بحد ذاتها لا تعمل جيداً، ولكن عند تحديد تقييدات يمكن الحصول على نتائج مقبولة. مثال على أحد هذه التقييدات: الصورة يجب أن تتصف بإحصائيات تشبه صورة الغرض، مثلاً، يجب أن تترابط البكسلات المتجاورة بين بعضها.

تنتظرنا هنا مفاجأة: فالشبكات العصبية المدربة على تمييز أنماط الأغراض تحوي كمية كافية من المعلومات لتكون قادرة على إنشاء هذه الأغراض بنفسها. وفيما يلي عدة أمثلة من أصناف مختلفة.

وما أهمية ذلك؟ ندرب الشبكات على أمثلة عديدة أملاً بأنها ستستخرج جوهر الأغراض المدروسة (مثلاً شوكة الطعام يجب أن يكون لها مقبض وسنان إلى أربعة أسنان) وتتجاهل الخصائص غير الهامة (الشوكة يمكن أن يكون لها أي شكل أو لون أو حجم). ولكن كيف نعرف أن الشبكة «درست» الخصائص الصحيحة؟ هنا يساعدنا تجسيم تصور الشبكة عن الغرض بشكل مرئي.

يتبين في بعض الحالات أن الشبكة تبحث بالفعل عن خصائص غير تلك التي فكرنا بها. مثلاً، هذا تصور واحدة من شبكاتنا حول مظهر الدمبل.

الدمبل فيها موجود، ولكن يبدو أن جميع الصور فيها يد الرياضي الذي يرفعه. في هذه الحالة لم تستطع الشبكة أن تدرك بالكامل جوهر الدمبل، فمثلاً، لم تُعرَض عليها ولا مرة صورة دمبل بلا يد تمسكه. يسمح التجسيم بتصحيح مثل هذه العيوب في التدريب.

لا نجبر الشبكة على تقوية هذه المكونة أو تلك بل نعطيها الحق باتخاذ القرار. في هذه الحالة تدخل إلى الشبكة صورة عشوائية (مرسومة أو فوتوغرافية) ونتيح لها المجال بتحليلها. ثم نختار إحدى الطبقات ونطلب إظهار كل ما اكتشفته. تعمل كل طبقة من طبقات الشبكة على مستوى تجريد مختلف، لذا يعتمد تعقيد الأشكال على الطبقة التي اخترناها للإظهار. مثلاً، الطبقات الدنيا عادةً تظهر ملامح منفردة متفرقة أو أشكالاً هندسية بسيطة لأنها حساسة للعناصر الأساسية كالزوايا واتجاهاتها.

إلى اليسار الصورة الأصلية التي التقطها زاكي إفينور، إلى اليمين معالجة مهندس البرمجيات غونتر نواك

إلى اليسار: اللوحة الأصلية بريشة جورج سيرا، إلى اليمين: الصور المعالجة من قبل المبرمج ماتيو ماكناختون

تميز الطبقات العليا أشكالاً أكثر تعقيداً أو الملامح المركّبة أو حتى الأغراض بكاملها. نبدأ كالعادة من صورة موجودة ونحمِّلها في الشبكة العصبية، ثم نطلب منها تسريع التعرف على ما اكتشفته. هكذا تتشكل دارة التلقيم الراجع. إذا كانت سحابةٌ تشبه قليلاً طيراً فستجعلها الشبكة أكثر شبهاً به. في المرحلة التالية سيكون الطير أوضح، وتستمر العملية حتى يتكوَّن شكل تفصيلي لطير يبدو أنه ظهر من لا شيء.

النتائج تثير الاهتمام، إذ يمكن استخدام شبكة عصبية بسيطة نسبياً للحصول على تأويل جديد للصورة الأصلية.

هذا يشبه ما كنا نتسلى به في الطفولة حين كنا نراقب السحاب ونتخيل الأشكال من هيئاتها العشوائية. هذه الشبكة تم تدريبها على صور الحيوانات، ولذلك تستوعب بصورة طبيعية ملامح الحيوانات. بما أن المعلومات تتصف بمستوىً عالٍ من التجريد، نجد في الخرج خليطاً ممتعاً من الأشكال التي استوعبتها الشبكة.

طبعاً، لا تقتصر هذه التقنية على تحليل السحاب فقط، بل يمكن تطبيقها على أي صورة. تختلف النتائج بشدة وتعتمد على الصورة الأصلية لأن ملامحها النموذجية تحمل الشبكة على طرح تأويلات محددة. مثلاً، الأفق يمتلئ كقاعدة بالأبراج والباغودات، وتتحول الصخور والأشجار إلى بيوت، والأوراق تصبح طيوراً وحشرات.

تحدد صورة الدخل أنماط الأغراض التي سنحصل عليها في الخرج

تمنحنا هذه الطريقة فهماً نوعياً لمستوى التجريد الذي وصلت إليه كل طبقة في تحليلها. نسميها Inceptionism، من اسم بنيان الشبكة العصبية المستخدم.

نتعمق أكثر: التكرارات

إذا طبّقنا الخوارزمية بصورة متكررة على نتائجها واستخدمنا التضخيم بعد كل تكرارة يمكننا أن نحصل على سيل لامتناهي من الأشكال الجديدة. تساعد هذه الأشكال على فحص الأغراض التي تعرفها الشبكة. يمكن الابتداء من نمط عشوائي، وفي هذه الحالة نحصل على نتيجة صافية لعمل الشبكة العصبية، كما في الصور التالية:

«أحلام» الشبكات العصبية التي ابتكرتها من صور ذات محتوى عشوائي شبكةٌ عصبية تم تدريبها على المناظر الطبيعية. مختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا

تسمح الطرائق المستعرضة هنا بفهم وتصور الأسلوب الذي تستخدمه الشبكات العصبية لتنفيذ مهام التصنيف المعقدة وتحسين بنيانها والتحقق من المعارف التي اكتسبتها خلال التعلم. نتساءل ما إذا يمكن أن تصبح الشبكات العصبية أداة للإبداع، أي طريقة جديدة لإعادة إدراك المفاهيم البصرية، أو ربما قد توضح مصادر العملية الإبداعية ككل.