اختبرت تجسيد Gemini Live لفهم العالم: صدمة!

0

من المثير للقلق سماع الذكاء الاصطناعي يتحدث بنبرة ودية بشكل غريب ويطلب مني تنظيف الفوضى الموجودة على محطة العمل الخاصة بي. أنا فخور بذلك إلى حد ما، ولكن أعتقد أن الوقت قد حان لتكديس الأدوات المتناثرة بشكل عشوائي وترتيب فوضى الأسلاك.

ستوافق أختي أيضًا. ولكن القفز إلى العمل بعد أن “يرى” الذكاء الاصطناعي طاولتي، ويتعرف على الفوضى، ويقدم نصائح التدبير المنزلي هو الصورة الأكبر. يمكن لروبوت الدردشة Gemini AI من Google أن يفعل ذلك الآن. وأكثر من ذلك بكثير.

الصلصة السرية هنا هي تحديث ميزة حديثة تسمى Project Astra. لقد كان قيد التطوير لسنوات، وبدأ أخيرًا في طرحه في وقت سابق من هذا الشهر. الفكرة الشاملة هي تقديم ذكاء اصطناعي كلي الرؤية والسمع وذكي بشكل علني على هاتفك.

تسوق Google هذه القوى الخارقة تحت اسم غير ملهم إلى حد ما: Gemini Live مع الكاميرا ومشاركة الشاشة. بدأت الشركة، التي تم تطويرها في وحدة DeepMind التابعة للشركة، تطويرها كمساعد ذكاء اصطناعي عالمي. إنه لأمر مخز أن الاسم النهائي ليس طموحًا.

Home screen of Gemini Live with camera and screen sharing.

لنبدأ بوضع الوصول. القدرة متاحة الآن لمستخدمي Pixel 9 و Galaxy S25. ولكن إذا كان لديك هاتف Android مع اشتراك Gemini Advanced لاستخدامه معه، فيمكنك الوصول إلى مجموعة الأدوات الجديدة.

سيكون ذلك 20 دولارًا شهريًا، بالمناسبة. لقد جربته على الهاتفين المذكورين أعلاه وأصبح الآن جاهزًا للعمل على OnePlus 13 الخاص بي أيضًا. الجزء الألطف؟ ليس عليك المرور بأي حلقات فنية للوصول إليه.

مجموعة أزرار الطاقة/الصوت، أو تمرير زاوية الشاشة لاستدعاء Gemini هو كل ما تحتاجه. لا يهم التطبيق الذي تقوم بتشغيله، يمكنك الوصول إلى كاميرا جديدة ومشاركة الشاشة كتراكب في كل زاوية من نظام التشغيل.

فهم العالم من حولك

بدأت بتوجيه الكاميرا نحو لوحة وسألت عنها. تمكن Gemini Live من اكتشافها بدقة كلوحة بأسلوب Madhubani، وفك شفرة الاستخدام الجريء للألوان وتصوير الحيوانات.

Identify painting using Gemini Live with camera and screen sharing.

ثم شرع في إعطائي درسًا موجزًا في التاريخ والاختلافات التي تطورت على مر السنين. كانت المعلومات دقيقة، وصولاً إلى أدق المستويات. لحسن الحظ، يمكنك أيضًا اختيار إجراء محادثة نصية مع Gemini، إذا كنت في مكان قد تكون فيه المحادثات الصوتية غير مريحة.

أكثر ما يعجبني في ميزة الكاميرا الجديدة ومشاركة الشاشة في Gemini Live هو أنها ليست ثرثارة بشكل مفرط. يمكنك مقاطعتها في أي لحظة، مما يزيد من جاذبية المحادثات “الطبيعية”.

لقد جربت Gemini في مجموعة متنوعة من السيناريوهات. لم أكن مستعدًا لذلك.

عادةً ما تكون الإجابات التي يقدمها موجزة، كما لو كان يريد أن يمنحك فرصة (أو حتى دفعة) لطرح سؤال متابعة بدلاً من إعطاء إجابة طويلة للغاية. يتفوق في مجموعة كاملة من الموضوعات والسيناريوهات المرئية، ولكن هناك بعض المزالق.

Talking via text using Gemini Live with camera and screen sharing.

لا يمكنه استخدام Google Lens حتى الآن، مما يعني أن Gemini لا يستطيع مقارنة الصور التي يراها على شاشة هاتفك بنتائج مطابقة على الويب. علاوة على ذلك، لا يمكنه الوصول إلى المعلومات في الوقت الفعلي إذا طلبت من Gemini البحث عن آخر التطورات حول موضوع أو شخصية ما.

سألته عن أنواع النباتات، وقوائم المطاعم، والتقاط البيانات من لوحات الإعلانات، وفهم الوصفة الطبية الخاصة بي لنوبة إنفلونزا حديثة. كان أداء Gemini جيدًا جدًا، أكثر مما جربته من قبل من أداء روبوت الدردشة AI حتى الآن.

إطلاق العنان لبنك المعرفة: تحليل متعمق

بعد ذلك، دفعت Gemini إلى فهم المواد الأكاديمية المعقدة. وضعت كتابًا عن Machine Learning في إطار الكاميرا. لم يتعرف Gemini Live عليه فحسب، بل شرع أيضًا في إعطائي نظرة عامة على محتويات الكتاب وموضوعاته الأساسية. هذه القدرة تعكس فهمًا متقدمًا لـ Machine Learning وقدرة على تلخيص المعلومات المعقدة.

Understanding Hindi with Gemini Live with camera and screen sharing.

بشكل مثير للفضول، بدأت في تصفح الصفحات ووصلت إلى قائمة الفصول. تعرف الذكاء الاصطناعي على التقدم، وتوقف عن الحديث، وسألني عما إذا كنت مهتمًا بأي فصل معين الآن بعد أن كنت أتفقد قائمة الموضوعات. هذه الميزة تُظهر قدرة Gemini على التكيف والاستجابة في الوقت الفعلي لتفاعل المستخدم، مما يجعله أداة قوية للتعلم التفاعلي.

لقد فوجئت تمامًا في هذه اللحظة.

طلبت من الذكاء الاصطناعي تحليل بعض الموضوعات المعقدة، وقام بعمل محترم، بل وتجاوز نطاق المواد الموجودة على الصفحة واستمد المعلومات من بنك المعرفة الواسع الخاص به.

على سبيل المثال، عندما سألته عن محتويات الصفحة التمهيدية لرواية “تاماس” للمؤلف بيشام ساهني، التقط الذكاء الاصطناعي بشكل صحيح الإشارة إلى جائزة Sahitya Akademi. ثم ذكر تفاصيل لم تكن مدرجة حتى في الصفحة، مثل العام الذي فازت فيه بالجائزة الأدبية المرموقة وما تدور حوله الرواية. هذا يدل على قدرة الذكاء الاصطناعي على فهم السياق واستخلاص معلومات إضافية.

على الجانب الآخر، كانت قراءة اللغة الهندية بواسطة Gemini Live مروعة. لم يكن الأمر مجرد لهجة رديئة، بل إن Gemini كان ينطق بكلمات غير مفهومة وهراء بشكل متكرر. أثناء محاولة قراءة الأردية والفارسية والعربية، قام بعمل أفضل إلى حد كبير، لكنه غالبًا ما خلط الكلمات من سطور عشوائية. هذا يشير إلى أن أداء Gemini يختلف باختلاف اللغة، وقد يحتاج إلى تحسينات كبيرة في بعض اللغات.

Reading Urdu using Gemini Live with camera and screen sharing.

في محاولتي الأولى مع الشعر الأردي، لم يتعرف فقط على النص الأردي، بل قدم أيضًا ملخصًا دقيقًا للقصيدة. كان التحدي الأكبر، مرة أخرى، هو السرد. سماع نسخة إنجليزية من الأردية آذت أذني حقًا. هذا يسلط الضوء على أهمية جودة النطق واللهجة في تجربة المستخدم، خاصة عند التعامل مع اللغات الأجنبية.

يتفوق في أماكن غير متوقعة

الذكاء الاصطناعي هو أداة رائعة لحل المشكلات، وهناك العديد من المعايير لإثبات ذلك. قمت باختباره على مسائل فيزيائية تتعلق بالديناميكا الحرارية، والمعادلات الكهروكيميائية، والمسائل الإحصائية التي تظهر في دفتر ملاحظات مكتوب بخط اليد. وقد قام Gemini Live بعمل رائع في هذه المهام.

حتى أنه تفوق في المهام الإبداعية أيضًا. عرضت أختي، وهي مصممة أزياء، أحد رسوماتها في عرض الكاميرا، وطلبت ملاحظات بالإضافة إلى تحسينات. بدأ Gemini Live بالإشادة بالتصميم، وعقد مقارنات مع أيديولوجية تصميم عدد قليل من العلامات التجارية للأزياء، وقدم عددًا قليلًا من التوصيات. وقد كانت هذه التوصيات مفيدة للغاية في تحسين التصميم.

Scanning a book using Gemini Live with camera and screen sharing.

عندما تم حث الذكاء الاصطناعي على تقديم المزيد، نصح أختي أيضًا بشأن أفضل الأدوات لتحويل الرسومات المرسومة يدويًا إلى مفاهيم رقمية. وقد تبع هذه الكلمات من الإرشاد من خلال تقديم معلومات مفيدة حول حزمة البرامج وأين يمكن للمرء أن يجد مواد تعليمية. وقد كانت هذه النصيحة قيمة للغاية في تبسيط عملية التصميم الرقمي.

عندما وضعت زوجين من بطاريات Duracell في عرض الكاميرا، لم يتعرف عليها بدقة فحسب، بل أخبرني أيضًا بالمنصات المحلية للتجارة الإلكترونية التي يمكنها توصيلها لي في غضون دقائق. وقد كانت هذه القدرة مفيدة بشكل خاص في تحديد المنتجات وتوافرها المحلي.

الخدمات – المسماة Blinkit و Swiggy Instamart – متاحة فقط في الهند ومخصصة في الغالب للمواقع الحضرية. حتى في غرفة ذات إضاءة خافتة، تمكن من تحديد زوج من سماعات الأذن السلكية في المحاولة الأولى. وهذا يدل على قدرة الذكاء الاصطناعي على التعرف على الأشياء في ظروف مختلفة.

الوعي الظرفي هو نقطة قوته الرئيسية.

بالمقارنة مع دردشة Gemini المعتادة أو ما تجده في قسم نظرة عامة الذكاء الاصطناعي في بحث Google، تتخذ محادثات Gemini Live نهجًا أكثر حذرًا في توزيع المعرفة، خاصة إذا كانت حساسة بطبيعتها. لقد لاحظت أن موضوعات مثل توصيات الطعام والعلاج الطبي يتم التعامل معها بنهج حذر بشكل متزايد، وغالبًا ما يتم توجيه المستخدمين للعثور على مورد الخبراء المناسب. هذا الحذر يعكس تركيز Google على تقديم معلومات دقيقة وموثوقة، خاصة في المجالات التي تتطلب خبرة متخصصة.

بعض التحديات المألوفة

Scanning a sticker using Gemini Live with camera and screen sharing.

استنتاجي الأهم هو أن تحول “Project Astra” في Gemini مثير للإعجاب للغاية. إنها لمحة عن مستقبل ما يمكن أن تحققه الهواتف الذكية. مع بعض التحسينات والتكاملات وسير العمل عبر التطبيقات، يمكن أن تجعل “بحث Google” يبدو وكأنه أثر قديم. ولكن في الوقت الحالي، هناك بعض العيوب الصارخة.

في عدد قليل من المناسبات، لاحظت أن نظام الذاكرة يختل. عندما طُلب من الذكاء الاصطناعي تحديد سوار لياقة بدنية في عرض الكاميرا، تعرف عليه بشكل صحيح على أنه Samsung Galaxy Fit 3. ولكن عندما طرحت سؤالاً متابعًا، اعتبر الجهاز خطأً على أنه سوار لياقة بدنية من Huawei.

يمكن أن يكذب أيضًا بشكل صارخ. وبثقة تامة، قد أقول. على سبيل المثال، عندما طلبت منه تلخيص مراجعتي للجهاز القابل للارتداء، رد الذكاء الاصطناعي بأن Digital Trends لم يراجعها بعد. في الواقع، نُشر المقال قبل أسبوع.

بعد ذلك، طلبت منه تصفح بعض المقالات على صفحة المؤلف الخاصة بي بعد تمكين مشاركة الشاشة. قام Gemini بعمل لائق في شرح القصص، لكنه تعثر أحيانًا في الفهم السياقي. على سبيل المثال، ذكر بشكل غير صحيح أن Intel و AMD فقط يمكنهما صنع وحدات معالجة عصبية (NPUs) مؤهلة لشارة Copilot+.

Alert for Gemini Live with camera and screen sharing.

من ناحية أخرى، يذكر المقال بوضوح أن Qualcomm كانت أول من استوفى هذا المعيار، متقدمة على المنافسة. وأنه لم يكن حتى أواخر العام الماضي أن AMD و Intel تمكنتا أخيرًا من الارتقاء وتلبية خط الأساس لشريحة الذكاء الاصطناعي بمجموعة جديدة من المعالجات.

في منتصف المحادثة حول مقال ما، واجه مرة أخرى مشكلة في الذاكرة. بدلاً من تلخيص القصة التي كانت قيد المناقشة، عاد إلى الحديث عن المقال الأول الذي شاهده عبر مشاركة الشاشة. عندما قاطعته في منتصف السرد، أصلح Gemini خطأه.

هناك مشكلة أخرى لاحظتها في سرد اللغات غير الإنجليزية وهي أن Gemini Live قام بتغيير الصوت والسرعة بشكل عشوائي في منتصف السرد. كان الأمر مزعجًا للغاية، وكان النطق آليًا تمامًا، ويختلف تمامًا عن مهاراته اللغوية الإنجليزية الشبيهة بالبشر.

Reading a passage with Gemini Live with camera and screen sharing.

تظهر أيضًا صعوبات الرؤية الآلية مع الخطوط الأنيقة. في عدد قليل من المناسبات، بصق بثقة معلومات خاطئة، وعندما طُلب منه تصحيح نفسه، أعرب الذكاء الاصطناعي عن عدم قدرته على العثور على أحدث المعلومات حول هذا الموضوع. هذه السيناريوهات نادرة، لكن أخطاء Gemini باقية.

لتلخيص كل شيء، أعتقد أن Gemini Live مع الكاميرا ومشاركة الشاشة هو أحد أكبر القفزات التي حققها الذكاء الاصطناعي حتى الآن. إنه أحد أكثر التطبيقات العملية والمجزية للذكاء الاصطناعي التوليدي حتى الآن. كل ما يحتاجه هو قليل من التنوع وإصلاح لمتلازمة “الكاذب الواثق”.

الأمور تسير بالتأكيد على الطريق الصحيح الآن، وبشكل ساحق، ولكن لا تزال على بعد بضعة معالم حاسمة من أن تكون الرفيق المثالي للذكاء الاصطناعي لأحلام تكنو-مستقبلية.

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.