مواجهة عمالقة البحث بالذكاء الاصطناعي: Claude، ChatGPT، Perplexity، و Gemini – النتائج صادمة!

البحث عن إجابات

0

بعد سنوات من اختبار ومقارنة روبوتات الدردشة بالذكاء الاصطناعي وميزاتها، طورتُ حسًا سادسًا نوعًا ما لتمييز متى يكون هؤلاء الرفقاء الرقميون على دراية بما يتحدثون عنه ومتى يخدعون. يُقدم هذا المقال مقارنة بين قدرات البحث في ChatGPT، وGemini، وClaude، وPerplexity.

معظمها يمكنه البحث عن إجابات عبر الإنترنت، مما يساعد بالتأكيد، لكن الجمع بين البحث والذكاء الاصطناعي يمكن أن يؤدي إلى بعض الاستجابات الثاقبة بشكل مدهش (وبعض الاستطرادات الأقل ثاقبة).

Basset Hound Puppies

تخيل لو كان لديك صديق واسع المعرفة دخل في غيبوبة في أكتوبر 2024 واستيقظ اليوم للتو. قد يكون بارعًا في أي شيء حدث قبل غيبوبته لكنه جاهل بكل شيء منذ ذلك الحين. هذا هو بالأساس ما يشبه الذكاء الاصطناعي بدون بحث.

عادةً ما أركز على روبوت دردشة واحد بالذكاء الاصطناعي أو أقارن بين اثنين في كل مرة، لكن البحث يبدو مهمًا بما يكفي لزيادة هذا الجهد. قررتُ أن أضع أربعة من روبوتات الدردشة الرائدة بالذكاء الاصطناعي وقدراتها في البحث ضد بعضها البعض: ChatGPT من OpenAI، وGemini من Google، وClaude من Anthropic، وPerplexity AI.

الاختبارات الأكثر كشفًا هي تلك التي تحاكي سيناريوهات الاستخدام في العالم الحقيقي. لذلك، توصلتُ إلى بعض المواضيع، وعشوائية بعض التفاصيل للاختبارات أدناه، ثم قررتُ تصنيفها في قدراتها البحثية.

التقويم

AI Search Test

بدأتُ باختبار حول الأخبار والأحداث الجارية. بالتفكير في عودة رائدي فضاء مؤخرًا، طلبت من روبوتات الدردشة الأربعة بالذكاء الاصطناعي البحث عن: “تلخيص النقاط الرئيسية من أحدث بيان صحفي لوكالة NASA حول مهمتهم القادمة.”

اخترت هذا لأن أخبار الفضاء تشغل تلك البقعة المميزة لكونها تُحدّث بانتظام وخاصة بما يكفي لأنّ الاستجابات الغامضة تصبح واضحة على الفور. بدأت جميع روبوتات الدردشة اختباراتها بأسلوب حافظت عليه في الغالب طوال الوقت.

كان ChatGPT موجزًا بشكل لا يصدق في إجابته، بثلاث جمل فقط، كل منها يذكر المهمات القادمة دون الكثير من التفاصيل. اتجه Gemini إلى قائمة نقطية بمهام مختلفة، مضيفًا بعض المهام التي أُنجزت مؤخرًا وتفاصيل عن الخطط المستقبلية. اتجه Claude إلى كتابة مقال عن المهام الحالية والقادمة، والجدير بالذكر أنه لم يكرر الكثير من بحثه ولكنه قام بالكثير من إعادة الصياغة.

بالنسبة لسؤال كهذا، حيث قد أرغب فقط في بعض الحقائق الرئيسية وأخطط لمتابعة أي شيء يلفت انتباهي، كانت طريقة Perplexity هي المفضلة لدي. فهي تحتوي على تفاصيل أكثر من ChatGPT ولكنها مُشكّلة في قائمة مُرقّمة لطيفة، لكل منها رابط الاستشهاد الخاص بها.

لا يمكنني حقًا أن ألوم أيًا من الآخرين، لكن الأسلوب يناسب السؤال.

السكان والأرقام

AI Search Test

لا يُعد أسلوب القائمة هذا هو ما تريده دائمًا عند طرح سؤال حول الحقائق الأساسية والمقارنة الأكثر دقة. طلبتُ حقيقتين مترابطتين يُمكن لبرامج الدردشة بالذكاء الاصطناعي البحث عنهما بسرعة، ولكن ستحتاج بعد ذلك إلى مقارنتهما، باستخدام المُطالبة: “ما هو عدد سكان أوكلاند، نيوزيلندا الحالي، *وكيف نما منذ عام 1950؟”*

الغريب أنه كان هناك اختلاف بين Perplexity و ChatGPT، اللذان قدّما عدد السكان الحالي 1,711,130، و Claude و Gemini، اللذان أبلغا عن 130 شخصًا أقل في أوكلاند. ومع ذلك، فقد اتفقوا جميعًا على عدد السكان في عام 1950.

ومع ذلك، من حيث كيفية عرض كل منهم للمعلومات، أعجبتني إجابة Claude السردية، بما في ذلك العديد من التفاصيل حول التغير السكاني الذي افتقر إليه ChatGPT والذي جعلته Gemini و Perplexity في قوائم.

ماذا يحدث؟

AI Search Test

في اختباري الثالث، أردتُ طرح شيءٍ يُمكن أن يُشكّل تحديًا لقدرات هذه الأنظمة على التعامل مع المعلومات المُتعلقة بموقعٍ وزمنٍ مُحددين، وهو نوع الاستعلام الذي قد تُجريه عند التخطيط لرحلةٍ في عطلة نهاية الأسبوع أو استضافة زوار.

هنا تكمن الصعوبة بالنسبة لمساعدي الذكاء الاصطناعي. فمعرفة الحقائق التاريخية أو المعلومات العامة شيء، ومعرفة ما يحدث في مكانٍ مُحدد في وقتٍ مُعين شيءٌ آخر تمامًا.

إنه الفرق بين المعرفة النظرية والمعرفة المحلية، وتاريخيًا، كانت أنظمة الذكاء الاصطناعي أفضل بكثير في الأولى من الثانية.

بدون سببٍ مُحدد، اخترتُ مدينةً لطالما استمتعتُ بها وسألتُ: “ما هي الأحداث الثقافية التي ستُقام في فانكوفر، كولومبيا البريطانية، في عطلة نهاية الأسبوع القادمة؟”

كان هناك بعض الاختلاف الحقيقي في هذا الأمر. حافظ كل من Perplexity و Claude على دقتهما وأسلوبهما في تقديم قائمة مُرقّمة ونقاشٍ أكثر حوارية. ومع ذلك، ذهب Claude بشكلٍ ملحوظ نحو التوسع بدلاً من التعمق، وبدا أشبه بـ Perplexity.

انحرف Gemini تمامًا عن منافسيه ورفض الإجابة بشكلٍ أساسي. فبدلاً من مُشاركة قائمة مُماثلة من الأحداث والأنشطة، قدّم Gemini استراتيجيات للعثور على أماكن للذهاب إليها. لا يُعد التحقق من مواقع السياحة الرسمية وصفحات Eventbrite فكرةً سيئة، لكنها بعيدة كل البعد عن قائمة مُباشرة من الاقتراحات. كان الأمر أشبه بإجراء بحث Google عادي بهذه الطريقة.

في هذه الأثناء، عاد ChatGPT بما كنتُ أتوقعه من Gemini. على الرغم من أن أوصاف الأحداث ظلت قصيرة، إلا أن الذكاء الاصطناعي لديه قائمة قوية من الأنشطة المُحددة مع التواريخ والأماكن، وروابط لمعرفة المزيد، وحتى صور مُصغّرة لما ستجده في الروابط.

فحص حالة الطقس

AI Search Test

في اختباري الرابع، اخترتُ على الأرجح أكثر سؤال يُطرح على أي ذكاء اصطناعي، ولكنه يتطلب بيانات آنية ليكون مفيدًا: وهو حالة الطقس. تُعد تنبؤات الطقس مثالية لاختبار استرجاع البيانات الآنية لأنها تُحدّث باستمرار، ومتاحة على نطاق واسع، ويسهل التحقق منها. كما أن لها تاريخ انتهاء صلاحية طبيعي؛ فتوقعات الأمس قديمة بالفعل، مما يجعل من الواضح متى تكون المعلومات غير محدثة.

سألت روبوتات الدردشة بالذكاء الاصطناعي: “ما هي توقعات الطقس في طوكيو للأيام الثلاثة القادمة؟” كانت الردود معاكسة تقريبًا لاستعلام فانكوفر.

قدّم Claude ملخصًا نصيًا مفيدًا للطقس في نقاط زمنية مختلفة خلال الأيام الثلاثة القادمة، ولكن هذا كل شيء. أظهر ChatGPT رمزًا صغيرًا للشمس أو السحابة بجوار ملخصه للطقس لكل يوم، لكنني أحببتُ كثيرًا الرسم البياني الخطي لـ Perplexity لدرجة الحرارة مُطابقًا لما ستبدو عليه السماء.

بدون أي إضافات، استحوذ Google Gemini على إعجابي من خلال الرسم المعلوماتي الملون. عندما أفكر في معرفة الطقس الحالي والقادم، فهذا كل ما أحتاجه أو أريده إلى حد كبير.

إذا كنتُ أرغب في طلب المزيد من التفاصيل، فسأفعل، لكن السؤال عن الطقس يعني أنني أريد الحد الأدنى اللازم لمعرفة كيفية اختيار ملابسي المناسبة.

ناقد سينمائي

AI Search Test

في اختباري الأخير، أردتُ أن أرى كيف ستؤدي محركات البحث التي تعمل بالذكاء الاصطناعي في إيجاد وجهات نظر متعددة حول موضوع ما ووضعها في نظرة عامة متماسكة. تتطلب هذه المهمة ميزة بحث مرنة والقدرة على فهم وجهات النظر المختلفة. قررتُ أن أرى كيف ستؤدي مع طلب: “لخص مراجعات النقاد المحترفين لآخر فيلم Paddington.”

تطلب الطلب استرجاعًا واقعيًا والقدرة على تحديد الأنماط والمواضيع عبر مصادر متعددة دون فقدان الفروق الدقيقة المهمة. إنه الفرق بين تجميع بسيط للآراء وتوليفة مدروسة تجسد الإجماع النقدي.

اتجه كل من Gemini وPerplexity إلى قوائمهما المعتادة، مُرتبة حسب الإيجابيات والسلبيات لمختلف النقاد، والتي كانت غنية بالمعلومات إن لم تكن مفيدة بالضرورة كملخص. ومن الغريب أن ChatGPT كتبت أطول إجابة لها على هذا الطلب، بمقال قصير يغطي معلومات مماثلة وخاتمة حول كيفية تقييمها، ولكن بأسلوب يُذكرنا بطالب في المرحلة الإعدادية يتعلم حول بنية الفقرة الأساسية: جملة الموضوع والجمل الداعمة والخاتمة.

كان لدى Claude بالتأكيد أقوى استجابة، مع تلخيص في الأعلى متبوعًا بتفسيرات وإشارات إلى ما قاله النقاد. بدا الأمر تقريبًا وكأنه مراجعة قصيرة وغير مبتكرة من قِبل ناقد، خُففت بالجزء المقتبس من النقاد الذين استشهد بهم. خرجتُ منه بشعور أنني أمتلك فهمًا أفضل لكيفية تخفيف توقعاتي لفيلم Paddington in Peru مما كنت عليه مع الآخرين.

ترتيب روبوتات الدردشة للبحث

بعد اختبار روبوتات الدردشة بالذكاء الاصطناعي من خلال مسار بحثي المخصص، أصبح لديّ تصور واضح لنقاط قوتها وضعفها. ChatGPT، Gemini، Perplexity و Claude هي من بين أفضل روبوتات الدردشة التي قمت بتجربتها.

لا يوجد منها ما هو سيئ في الواقع، ولكن إذا سألني أحدهم أيها يجب أن يجربه أولاً أو أخيراً عندما يتعلق الأمر بالبحث عن معلومات عبر الإنترنت وتجميعها، فأنا أعرف كيف سأرد.

يأتي Gemini في المرتبة الأخيرة بالنسبة لي، وهو أمر صادم إلى حد ما بالنظر إلى أن Google معروفة بمحرك البحث الخاص بها. ومع ذلك، فإن فشله في التعامل مع جدول الأحداث جعلني أتجنبه على الرغم من أدائه الجيد.

مفاجأة أخرى بالنسبة لي هي أن ChatGPT يأتي في المرتبة الثالثة. إنه روبوت الدردشة بالذكاء الاصطناعي الذي أستخدمه أكثر من غيره وأعرفه جيداً، لكن إجاباته المختصرة، والتي عادةً ما تعجبني فيه، شعرت بأنها محدودة للغاية في سياق البحث. أنا متأكد من أن تغيير النموذج أو تحديد عدد الكلمات سيحل هذه المشكلة، ولكن إذا كنت جديدًا على الذكاء الاصطناعي ولا أعرف ذلك بعد، فسيكون من غير الجيد طرح العديد من أسئلة المتابعة.

هذه ليست مشكلة مع Perplexity. كانت القوائم المرقمة واضحة للغاية، وكانت الاستشهادات شبه شاملة. العيب الرئيسي بالنسبة لي هو أنه يعود إلى كونه محرك بحث مرة أخرى دون تحديدات إضافية في الموجه. يعجبني أنه يقدم دليلاً على مصدر المعلومات التي يشاركها، لكنه يبدو متحمسًا جدًا للنقر على الرابط بدلاً من الحصول على المعلومات من الذكاء الاصطناعي.

لم أكن أتوقع أن يكون Claude في صدارة هذه القائمة. على الرغم من أنني وجدت أن Claude روبوت دردشة جيد بالذكاء الاصطناعي بشكل عام، إلا أنه كان يبدو دائمًا وكأنه متأخر عن بعض منافسيه، ربما بنفس جودتهم، لكنه مختلف بطريقة ما. تلاشى هذا الشعور أثناء هذا الاختبار.

كانت هناك عيوب، مثلما بدت الإجابات مطولة بعض الشيء أو تتطلب الانتباه إلى مقال أكبر عندما تكفي جملة أو جملتان. لكنني أحببت الطريقة التي كان بها سردًا متماسكًا يشرح جميع الأحداث في فانكوفر أو مقالًا عن نقد فيلم Paddington in Peru دون تكرار نفسه.

مساعدو الذكاء الاصطناعي هم أدوات، وليسوا متسابقين في برنامج واقعي حيث يمكن لفرد واحد فقط الفوز. تتطلب المهام المختلفة قدرات مختلفة. في النهاية، يمكن أن يكون أي من روبوتات الدردشة الأربعة بالذكاء الاصطناعي وميزة البحث الخاصة بها مفيدة، ولكن إذا كنت على استعداد لدفع 20 دولارًا شهريًا مقابل Claude Pro والوصول إلى قدرات البحث الخاصة به، فسيكون هو ما أقول أنك كنت تبحث عنه.

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.