Nvidia تُساهم في حلّ أكبر تحديات توليد الصور بالذكاء الاصطناعي

0

تُعدّ متطلبات الطاقة والحوسبة العالية إحدى المشكلات الأساسية في مجال الذكاء الاصطناعي، خاصةً في مهام مثل إنشاء الوسائط. ففي الهواتف المحمولة، عند تشغيل هذه المهام محليًا، لا يمكن سوى لعدد قليل من الأجهزة باهظة الثمن ذات المعالجات القوية تشغيل مجموعة الميزات. وحتى عند تنفيذها على نطاق واسع في السحابة، فإنها تُعدّ عملية مكلفة.

ربما تكون Nvidia قد عالجت هذا التحدي بهدوء بالشراكة مع معهد ماساتشوستس للتكنولوجيا وجامعة تسينغهوا. فقد ابتكر الفريق أداة هجينة لإنشاء الصور بالذكاء الاصطناعي تسمى HART (محول تلقائي هجين) تجمع بشكل أساسي بين اثنتين من أكثر تقنيات إنشاء الصور بالذكاء الاصطناعي استخدامًا. والنتيجة هي أداة سريعة للغاية مع متطلبات حوسبة أقل بشكل كبير.

ولإعطائكم فكرة عن مدى سرعتها، طلبت منها إنشاء صورة لببغاء يعزف على جيتار باس. وقد أعادت الصورة التالية في حوالي ثانية واحدة فقط. بالكاد استطعت متابعة شريط التقدم. عندما استخدمت نفس المُدخل مع نموذج Google Imagen 3 في Gemini، استغرق الأمر ما يقرب من 9-10 ثوانٍ على اتصال إنترنت بسرعة 200 ميجابت في الثانية.

Image of a parrot generated by HART.

طفرة هائلة في توليد الصور بالذكاء الاصطناعي

عندما بدأت صور الذكاء الاصطناعي تجذب الانتباه، كانت تقنية الانتشار هي القوة الدافعة وراء كل ذلك، حيث دعمت منتجات مثل مُولد الصور Dall-E من OpenAI، وImagen من Google، وStable Diffusion. تتميز هذه الطريقة بإنتاج صور عالية الدقة والتفاصيل. ومع ذلك، فهي تتطلب خطوات متعددة لإنشاء الصور بالذكاء الاصطناعي، مما يجعلها بطيئة ومكلفة من الناحية الحسابية.

أما النهج الثاني الذي اكتسب شعبية مؤخرًا فهو النماذج ذاتية الانحدار، والتي تعمل بشكل مشابه لروبوتات الدردشة وتُولد الصور باستخدام تقنية توقع البكسل. تُعد هذه الطريقة أسرع، ولكنها أيضًا أكثر عرضة للأخطاء في إنشاء الصور باستخدام الذكاء الاصطناعي.

قام فريق في MIT بدمج كلتا الطريقتين في حزمة واحدة تسمى HART. تعتمد هذه التقنية على نموذج ذاتي الانحدار للتنبؤ بعناصر الصور المضغوطة كرموز منفصلة، بينما يتولى نموذج انتشار صغير باقي العملية لتعويض فقدان الجودة. ويقلل هذا النهج عدد الخطوات المُستخدمة من أكثر من عشرين خطوة إلى ثماني خطوات فقط.

يزعم الخبراء وراء HART أن هذه التقنية “تُولد صورًا تُطابق أو تتجاوز جودة أحدث نماذج الانتشار، ولكنها تفعل ذلك أسرع بتسعة أضعاف تقريبًا”. تجمع HART بين نموذج ذاتي الانحدار مع نطاق 700 مليون مُعامل ونموذج انتشار صغير يُمكنه التعامل مع 37 مليون مُعامل.

Evolution of image training for HART.

حل أزمة تكلفة الحوسبة

من المثير للاهتمام أن هذه الأداة الهجينة HART كانت قادرة على إنشاء صور تضاهي جودة النماذج المتطورة بسعة 2 مليار معيار. والأهم من ذلك، أن HART تمكنت من تحقيق هذا الإنجاز بمعدل توليد صور أسرع بتسع مرات، مع تقليل موارد الحوسبة بنسبة 31%.

وفقًا للفريق، يسمح النهج منخفض الحوسبة لـ HART بالعمل محليًا على الهواتف وأجهزة الكمبيوتر المحمولة، وهو ما يعتبر نجاحًا كبيرًا. حتى الآن، تتطلب منتجات السوق الشائعة مثل ChatGPT و Gemini اتصالاً بالإنترنت لتوليد الصور حيث تتم الحوسبة في خوادم السحابة.

في فيديو الاختبار، عرض الفريق تشغيلها محليًا على جهاز كمبيوتر محمول MSI مزود بمعالج Intel Core series وبطاقة رسومات Nvidia GeForce RTX. وهذا مزيج يمكنك أن تجده في غالبية أجهزة الكمبيوتر المحمولة المخصصة للألعاب المتوفرة في السوق، دون الحاجة إلى إنفاق ثروة.

تحليل مقارن لصور الذكاء الاصطناعي.

HART قادرة على إنتاج صور بنسبة عرض إلى ارتفاع 1:1 بدقة 1024 × 1024 بكسل. مستوى التفاصيل في هذه الصور مثير للإعجاب، وكذلك التنوع الأسلوبي ودقة المشهد. خلال الاختبارات، لاحظ الفريق أن أداة الذكاء الاصطناعي الهجينة كانت أسرع بما يتراوح بين ثلاث إلى ست مرات وقدمت إنتاجية أعلى بأكثر من سبع مرات.

الإمكانات المستقبلية مثيرة، خاصة عند دمج إمكانيات HART للصور مع نماذج اللغة. يقول فريق معهد ماساتشوستس للتكنولوجيا: “في المستقبل، يمكن للمرء التفاعل مع نموذج توليدي موحد للرؤية واللغة، ربما عن طريق مطالبته بإظهار الخطوات الوسيطة المطلوبة لتجميع قطعة أثاث”.

إنهم يستكشفون هذه الفكرة بالفعل، ويخططون حتى لاختبار نهج HART في توليد الصوت والفيديو. يمكنك تجربتها على لوحة تحكم الويب الخاصة بمعهد ماساتشوستس للتكنولوجيا.

بعض العيوب

قبل الخوض في نقاش الجودة، تجدر الإشارة إلى أن HART لا يزال مشروعًا بحثيًا في مراحله الأولى. من الناحية التقنية، هناك بعض العقبات التي أبرزها الفريق، مثل زيادة الحمل خلال عمليات الاستدلال والتدريب. ويُتوقع أن يشهد هذا البرنامج تطورات كبيرة في المستقبل القريب.

Failures of HART.

يمكن إصلاح هذه التحديات أو التغاضي عنها، لأنها ثانوية في المخطط الأكبر للأمور هنا. علاوة على ذلك، بالنظر إلى الفوائد الهائلة التي يقدمها HART من حيث كفاءة الحوسبة والسرعة وزمن الوصول، فقد تستمر هذه التحديات دون أن تؤدي إلى أي مشاكل كبيرة في الأداء.

خلال تجربتي القصيرة لاختبار HART باستخدام المطالبات النصية، اندهشت من سرعة توليد الصور. لم أصادف سيناريو استغرق فيه البرنامج المجاني أكثر من ثانيتين لإنشاء صورة. حتى مع المطالبات التي تمتد لثلاث فقرات (ما يقرب من 200 كلمة)، تمكن HART من إنشاء صور تتوافق تمامًا مع الوصف.

AI images sample generated with HART.

بصرف النظر عن دقة الوصف، كان هناك الكثير من التفاصيل في الصور. ومع ذلك، يعاني HART من عيوب برامج توليد الصور بالذكاء الاصطناعي النموذجية. حيث يواجه صعوبة في توليد الأرقام والرسومات الأساسية مثل تناول الطعام، واتساق الشخصيات، والتقاط المنظور.

الواقعية في السياق البشري هي أحد المجالات التي لاحظت فيها عيوبًا واضحة. في بعض المناسبات، أخطأ البرنامج في مفهوم الأشياء الأساسية، مثل الخلط بين الخاتم والقلادة. ولكن بشكل عام، كانت هذه الأخطاء قليلة ومتوقعة. لا تزال العديد من أدوات الذكاء الاصطناعي غير قادرة على فعل ذلك بشكل صحيح، على الرغم من وجودها منذ فترة.

بشكل عام، أنا متحمس للغاية للإمكانيات الهائلة لـ HART. سيكون من المثير للاهتمام معرفة ما إذا كانت MIT وNvidia ستنشئان منتجًا منه، أو ببساطة ستتبنيان نهج توليد الصور الهجين بالذكاء الاصطناعي في منتج موجود. في كلتا الحالتين، إنها لمحة عن مستقبل واعد للغاية.

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.