رد OpenAI على منافسة DeepSeek بتقنية تتبع التفكير المفصل لـ o3-mini

0

تكشف OpenAI الآن عن المزيد من تفاصيل عملية التفكير لنموذجها الأحدث في التفكير، o3-mini. وقد تم الإعلان عن هذا التغيير على حساب OpenAI على منصة X، ويأتي ذلك في الوقت الذي يواجه فيه مختبر الذكاء الاصطناعي ضغوطًا متزايدة من DeepSeek-R1، وهو نموذج مفتوح المصدر منافس يعرض رموز التفكير الخاصة به بالكامل.

تخضع النماذج مثل o3 و R1 لعملية مطولة “لسلسلة الأفكار” (CoT) حيث تقوم بإنشاء رموز إضافية لتقسيم المشكلة، والتفكير في إجابات مختلفة واختبارها، والوصول إلى حل نهائي. في السابق، كانت نماذج التفكير من OpenAI تخفي سلسلة أفكارها ولا تقدم سوى نظرة عامة عالية المستوى على خطوات التفكير. وقد جعل هذا الأمر من الصعب على المستخدمين والمطورين فهم منطق تفكير النموذج وتغيير تعليماتهم ومطالباتهم لتوجيهه في الاتجاه الصحيح. 

اعتبرت OpenAI سلسلة الأفكار ميزة تنافسية وأخفتها لمنع المنافسين من نسخها لتدريب نماذجهم. ولكن مع إظهار R1 ونماذج مفتوحة المصدر أخرى لمسار التفكير الكامل، أصبح عدم الشفافية عيبًا لـ OpenAI.

يُظهر الإصدار الجديد من o3-mini نسخة أكثر تفصيلاً من سلسلة الأفكار. على الرغم من أننا ما زلنا لا نرى الرموز الأولية، إلا أنها توفر قدرًا أكبر من الوضوح حول عملية التفكير.

لماذا يُعد هذا مهماً للتطبيقات؟

في تجاربنا السابقة على نموذجي o1 و R1، وجدنا أنَّ o1 كان أفضل قليلاً في حل مشاكل تحليل البيانات والتفكير. ومع ذلك، كان أحد القيود الرئيسية هو عدم وجود طريقة لمعرفة سبب ارتكاب النموذج للأخطاء – وكثيراً ما كان يرتكب أخطاء عند مواجهة بيانات واقعية فوضوية تم الحصول عليها من الويب. من ناحية أخرى، مكنتنا سلسلة أفكار R1 من استكشاف المشكلات وإصلاحها وتغيير مطالباتنا لتحسين التفكير.

على سبيل المثال، في إحدى تجاربنا، فشل كلا النموذجين في تقديم الإجابة الصحيحة. ولكن بفضل سلسلة أفكار R1 التفصيلية، تمكنا من اكتشاف أن المشكلة لم تكن في النموذج نفسه ولكن في مرحلة الاسترجاع التي جمعت المعلومات من الويب. في تجارب أخرى، تمكنت سلسلة أفكار R1 من تزويدنا بتلميحات عندما فشلت في تحليل المعلومات التي قدمناها لها، بينما قدم لنا o1 نظرة عامة تقريبية للغاية عن كيفية صياغة استجابته.

لقد اختبرنا نموذج o3-mini الجديد على شكل مختلف من تجربة سابقة أجريناها باستخدام o1. زودنا النموذج بملف نصي يحتوي على أسعار أسهم مختلفة من يناير 2024 إلى يناير 2025. كان الملف مليئًا بالتشويش وغير منسق، ومزيجًا من النص العادي وعناصر HTML. ثم طلبنا من النموذج حساب قيمة محفظة استثمرت 140 دولارًا في أسهم Magnificent 7 في اليوم الأول من كل شهر من يناير 2024 إلى يناير 2025، موزعة بالتساوي على جميع الأسهم (استخدمنا مصطلح “Mag 7” في الموجه لجعله أكثر صعوبة).

كانت سلسلة أفكار o3-mini مفيدة حقًا هذه المرة. أولاً، فكر النموذج في ماهية Mag 7، وقام بتصفية البيانات للاحتفاظ بالأسهم ذات الصلة فقط (لجعل المشكلة صعبة، أضفنا بعض الأسهم غير التابعة لـ Mag 7 إلى البيانات)، وحسب المبلغ الشهري للاستثمار في كل سهم، وقام بالحسابات النهائية لتقديم الإجابة الصحيحة (ستكون قيمة المحفظة حوالي 2200 دولار في آخر وقت مسجل في البيانات التي قدمناها للنموذج).

سيستغرق الأمر المزيد من الاختبارات لمعرفة حدود سلسلة الأفكار الجديدة، حيث لا تزال OpenAI تخفي الكثير من التفاصيل. ولكن في اختباراتنا الأولية، يبدو أن التنسيق الجديد أكثر فائدة.

ماذا يعني ذلك لـ OpenAI؟

عندما تم إصدار DeepSeek-R1، كان لديه ثلاث مزايا واضحة على نماذج التفكير من OpenAI: فقد كان مفتوح المصدر، ومنخفض التكلفة، وشفافًا.

منذ ذلك الحين، تمكنت OpenAI من تقليص الفجوة. فبينما تكلف o1 مبلغ 60 دولارًا أمريكيًا لكل مليون رمز مُخرَج، فإن تكلفة o3-mini تبلغ 4.40 دولارًا أمريكيًا فقط، بينما تتفوق على o1 في العديد من معايير التفكير. وتبلغ تكلفة R1 حوالي 7 دولارات أمريكية إلى 8 دولارات أمريكية لكل مليون رمز مُخرَج على مزودي الخدمة في الولايات المتحدة. (تقدم DeepSeek نموذج R1 بسعر 2.19 دولارًا أمريكيًا لكل مليون رمز مُخرَج على خوادمها الخاصة، لكن العديد من المؤسسات لن تتمكن من استخدامه لأنه مُستضاف في الصين).

مع التغيير الجديد في مخرجات CoT، تمكنت OpenAI من التغلب على مشكلة الشفافية إلى حد ما.

يبقى أن نرى ما ستفعله OpenAI بشأن إتاحة نماذجها كمصدر مفتوح. فمنذ إصداره، تم بالفعل تكييف R1 وتفرّعه واستضافته من قبل العديد من المعامل والشركات المختلفة، مما يجعله يحتمل أن يكون نموذج التفكير المُفضّل للشركات. وقد اعترف سام التمان، الرئيس التنفيذي لشركة OpenAI، مؤخرًا بأنه كان “على الجانب الخاطئ من التاريخ” في النقاش حول المصدر المفتوح. سيتعين علينا أن نرى كيف سيتجلى هذا الإدراك في إصدارات OpenAI المستقبلية.

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.