خدعنا الذكاء الاصطناعي بلعبة الهاتف.. والنتيجة صادمة!
تتطور نماذج توليد الصور المدعومة بالذكاء الاصطناعي بوتيرة سريعة، لكن لا يزال من الشائع أن تُنتج صوراً مشكوكًا فيها. نظرًا لسهولة افتراض أن المطالبات البشرية هي المشكلة، قررت اختبار ما إذا كان الذكاء الاصطناعي يعمل بشكل أسهل باستخدام مطالبات مولّدة بواسطة الذكاء الاصطناعي فقط. فعملية توليد الصور بالذكاء الاصطناعي، مثل ChatGPT و Gemini، تعتمد بشكل كبير على جودة ودقة المطالبات. فهل ستختلف النتائج باستخدام مطالبات آلية؟ هذا ما سنكتشفه في هذه التجربة.
قواعد التجربة
عندما ظهرت نماذج توليد الصور بالذكاء الاصطناعي AI قبل بضع سنوات، اعتقدنا جميعًا أنها ستمثل ناقوس خطر لكل العاملين في مجال الوسائط المرئية. لكن لم يكن الأمر كذلك. فعلى الرغم من قدرتها على إنشاء صور واقعية للغاية، غالبًا ما تقع صور الذكاء الاصطناعي في فئة غير المتوقعة، خاصة إذا كنت بحاجة إلى شيء أكثر تعقيدًا (على سبيل المثال، يميل الذكاء الاصطناعي AI إلى مواجهة صعوبة في توليد صور الأيدي).
يمكنك إما إلقاء اللوم على نماذج الذكاء الاصطناعي AI نفسها بشأن هذه المشكلة أو على قصور البشر ومهاراتنا غير المتسقة في كتابة المطالبات. الطريقة الطبيعية لاختبار من المسؤول هي معرفة ما إذا كانت نماذج توليد الصور تقدم نتائج أفضل إذا أدخلت مطالبات مولدة.
هل يمكن للذكاء الاصطناعي AI أن يمنحنا منظورات جديدة حول اللحظات التاريخية؟
لاختبار هذه الفرضية، سأستخدم Gemini لإنشاء سلسلة من المطالبات التي تتجنب استخدام اسم الكائن أو الصورة التي أحاول إنشاءها. سيساعد هذا في التحقق من مدى “قراءة” الذكاء الاصطناعي AI للتعليمات. من المسلم به أنه لا يزال هناك احتمال أن يستلهم النموذج بشكل كبير من البيانات التي تم تدريبه عليها (خاصة عند إعادة إنشاء الصور الموجودة)، ولكن هذا هو الواقع كما يقول الشباب.
ستكون أداة اختياري لإنشاء الصور هي Bing (نعم، Bing لا يزال موجودًا) Image Creator، والذي يعتمد على DALL-E 3. لوضع النموذج على المحك، سأبدأ بأشكال بسيطة، ثم أنتقل إلى صور أكثر تعقيدًا مع تقدم التجربة.
إذا كنت قد استخدمت ChatGPT وما شابه، فأنت تدرك بالفعل مدى عدم جدوى بعض إجاباته، ولم يكن الأمر مختلفًا مع المطالبات التي طرحها عليّ النموذج أثناء التشغيل “التجريبي”. لذلك، قررت أن أقصر نفسي على 500 حرف من أجل الحفاظ على اتساق المطالبات.
كيف يتعامل الذكاء الاصطناعي مع الأشكال البسيطة
لنبدأ بمربع بسيط. طلبت من Gemini وصف مربع دون الإشارة إليه باسمه، فتوصل إلى هذا:
“شكل رباعي الأضلاع، جميع أضلاعه متساوية في الطول. كل زاوية داخلية قياسها 90 درجة بالضبط. إنه شكل رباعي منتظم ذو جوانب متقابلة متوازية.”
بعد إدخال الوصف في DALL-E، حصلت على هذه النتائج:
إنه مربع، حسنًا، على الرغم من أنني أعتقد أنه بالغ في الهندسة. حان الوقت لزيادة مستوى الصعوبة، لذلك طلبت من الذكاء الاصطناعي تفصيل مكعب.
“شكل ثلاثي الأبعاد ذو ستة أوجه متطابقة. كل وجه عبارة عن شكل رباعي منتظم بأربعة جوانب متساوية وأربع زوايا قائمة. له 12 حرفًا متساوي الطول و8 رؤوس. جميع الزوايا داخل الشكل قائمة.”
النتائج مُدهشة:
هل تذكر ما قلناه عن عدم القدرة على التنبؤ بنماذج الذكاء الاصطناعي؟ حسنًا، هنا، قام DALL-E بإنشاء مكعب، ولكنه اختلط عليه الأمر قليلاً وجعله مكعب روبيك. على الرغم من تجنب الكلمة الدقيقة تمامًا، إلا أن الذكاء الاصطناعي أخطأ جزئيًا – يمكن أن نُرجع ذلك إلى شعبية لعبة الألغاز المجرية.
نظرة الذكاء الاصطناعي على التصوير الفوتوغرافي مع الأشخاص
يوضح موقف المكعب أنه حتى مع وصف دقيق “غير متحيز”، لا يزال بإمكان الذكاء الاصطناعي إساءة تفسير التعليمات المباشرة إلى حد ما. لذلك، دعونا نرى مدى جودة أدائه مع الأوصاف التي تم إنشاؤها بواسطة الذكاء الاصطناعي للصور الكلاسيكية، مثل صورة “الأم المهاجرة” لدوروثيا لانج. إليكم الصورة الأصلية:
تظهر صورة امرأة، وجهها محفور بالقلق، تنظر بعيدًا عن الكاميرا. يحيط بها أطفالها، ووجوههم مخفية أو ملتفتة. تستريح يدها بالقرب من وجهها، تعبر عن الإرهاق والضيق. يوحي المشهد بالفقر والمعاناة. ملابس المرأة مهترئة، والتركيبة العامة قاتمة، مما يؤكد ثقل ظروفها.
هذه هي رؤية DALL-E للصورة الشهيرة:
قريبة جدًا! لكن ليست دقيقة تمامًا، حيث تجاهل DALL-E بوضوح عبارة “يحيط بها أطفالها، ووجوههم مخفية أو ملتفتة” وبدلاً من أن تضع “الأم” يدها بالقرب من وجهها، قام أحد الأطفال بهذا الدور.
لنجرب شيئًا أكثر تعقيدًا. ربما تكون قد شاهدت الصورة الشهيرة “غداء فوق ناطحة سحاب” “Lunch atop a Skyscraper”:
“يَجْلِسُ أحدَ عَشَرَ رَجُلًا على عارضة فولاذية، على ارتفاع شاهق، يتناولون غداءهم، وأرجلهم مُتدلية. تُعَلَّق العارضة فوق مدينة مُترامية الأطراف. يَبدو الرجال مُسترخين، على الرغم من الارتفاع الشديد. يرتدون ملابس العمل، وقد تم التقاط المشهد من زاوية مُنخفضة قليلاً، مما يُؤكد الارتفاع.”
أثمرت هذه المُطالبة الرائعة نتائج رائعة:
بمجرد تجاهل العلامات الكلاسيكية للصورة المُولَّدة بالذكاء الاصطناعي (الأواني المُتطابقة والمواضيع “المُنسوخة والملصوقة”)، فإنها تُصبح مثيرة للدهشة تقريبًا من حيث التكوين والشعور العام. ليس مُفاجئًا، مع ذلك – فهذه الصورة ليست شائعة للغاية فحسب، بل إنها أيضًا في المجال العام، لذا لديَّ شكٌ خفي بأن DALL-E قد استعاد مُحتوياتها بالفعل أثناء التدريب.
هل يمكن للذكاء الاصطناعي التعامل مع الصور المعقدة؟
بما أن هذا هو “الاختبار” الأخير في التجربة، فقد حان وقت الجد! في حين أن الذكاء الاصطناعي جيد في التعامل مع الصور البشرية، إلا أنه غالبًا ما يفشل عند مواجهة مشاهد معقدة وغامضة. فماذا عن صورة “شروق الأرض” الشهيرة الملتقطة من مدار القمر على متن أبولو 8؟
“كُرةٌ مُضاءة جزئيًا تُعلق في فضاءٍ مُظلم. كُرةٌ أصغر ذات لون رمادي ترتفع فوق أُفُقها. تُظهر الكُرة الأكبر بُقعًا زرقاء وبيضاء، تُشير إلى الماء والغيوم. يُؤكد التباين الصارخ بين الكُرتين والسواد على هشاشة وعزلة الكُرة الأصغر الصاعدة.”
أخفق Gemini (أو بالأحرى أقول الكرة) في هذا الوصف. نظرًا لكونه مُجردًا للغاية، أضفتُ عبارة “مُلتقطة من مدار قمري قريب” إلى المُطالبة، لكنها لم تُساعد كثيرًا:
إنه غلاف ألبوم روك مُتطور رائع، لكنه لا علاقة له بـ “شروق الأرض Earthrise”. لإنهاء التجربة، اخترتُ الصورة الأكثر غموضًا حتى الآن، التحفة الصناعية “Armco Steel” لإدوارد ويستون Edward Weston:
“تملأ الإطار سلسلة من الخزانات الصناعية المعدنية المستديرة. أشكالها ناعمة ومنتفخة، مما يخلق نمطًا متكررًا. ينعكس الضوء على الأسطح، مما يُبرز أشكالها المنحنية ويخلق إحساسًا بالحجم. يُركز التكوين على الجوانب التجريدية للأشياء الصناعية، مع التركيز على الشكل والملمس بدلاً من وظيفتها. المشهد بسيط وحديث، مع تركيز قوي على الضوء والظل.”
يبدو هذا مُدخلاً جيدًا، دعونا نرى ما إذا كان Dall-E يتفق معنا:
على الرغم من أنني أُقدّر طابع الخيال العلمي، إلا أنها لا تشبه الصورة الأصلية على الإطلاق. لم أُرد إنهاء التجربة بفشل ذريع، لذلك قررت مساعدة الآلة بإضافة مُصطلح “صورة فوتوغرافية من عشرينيات القرن العشرين 1920s photograph” في نهاية المُدخل.
كان تفكيري أن هذا المُصطلح بالتحديد قد يُساعد في توضيح الصورة التي أشير إليها. لسوء الحظ، خيّب Dall-E ظني مرة أخرى وصنع غلاف ألبوم موسيقى روك تقدمي آخر:
كانت نتائج هذه التجربة مثيرة للاهتمام، والاستنتاج الذي يُمكننا استخلاصه هو أن توليد الصور بالذكاء الاصطناعي لا يُمكن التنبؤ به إلى حد كبير، خاصةً مع المفاهيم الأكثر تجريدًا. لا يهم ما إذا كان المُدخل مُولّدًا بواسطة الذكاء الاصطناعي ودقيقًا، أو بشريًا وغير كامل – تبدو النتائج عشوائية.
لذا، في المرة القادمة التي تُحاول فيها لوم نفسك وأسلوبك في كتابة المُدخلات، تذكر أن النتائج ستكون على الأرجح متشابهة إلى حد كبير حتى لو كان هناك جهازان يتواصلان مع بعضهما البعض.