اختبار اختراق بالذكاء الاصطناعي، كشف عن تجربة لافتة رصد فيها باحث في أمن التطبيقات سلوك عدد من نماذج الذكاء الاصطناعي عند مواجهة ثغرة واقعية داخل تطبيق بسيط يحمل اسم Book Review، وقد أتاح الخلل الموجود في بيانات اعتماد Firebase فرصة للوصول إلى قاعدة البيانات بسهولة، ما جعل التجربة مناسبة لمقارنة الأداء العملي بين النماذج.
كيف بدأت التجربة ولماذا لفتت الانتباه؟
اعتمد الباحث على سيناريو واقعي صُمم لاختبار مدى قدرة النماذج على التعامل مع مهام تشبه أعمال الفحص الأمني، إذ جرى إنشاء تطبيق Book Review وفيه ثغرة واضحة تتعلق ببيانات اعتماد Firebase، وهو ما سمح بالوصول إلى قاعدة البيانات دون تعقيد كبير، وكانت الفكرة الأساسية هي معرفة كيف تتصرف النماذج في بيئة عملية لا تشبه الاختبارات النظرية المعتادة.
تفاصيل الإعداد
جرت التجربة بميزانية محددة بلغت 10 دولارات لكل محاولة، مع إنفاق إجمالي وصل إلى 1500 دولار عبر أكثر من 12 نموذجاً من نماذج الذكاء الاصطناعي، وقد استند الباحث في قياسه إلى عدد المحاولات الناجحة، وكلفة النجاح، ومدى استجابة كل نموذج للمهمة المطلوبة، مع التأكيد على أن الهدف لم يكن إصدار حكم علمي نهائي، بل تسجيل سلوك النماذج أثناء العمل.
من تصدر النتائج؟
أظهرت التجربة أن نموذج GPT-5.5 جاء في الصدارة من حيث عدد النجاحات، بعدما تمكن من حل 7 من أصل 10 محاولات، وكانت كلفة المحاولة الناجحة تقارب 9.46 دولار، وهو ما وضعه في موقع متقدم مقارنة ببقية النماذج، خصوصاً في السيناريو الذي تطلب معالجة مباشرة للثغرة واستثمارها بشكل فعال.
- GPT-5.5: حقق 7 نجاحات من 10 محاولات، مع تكلفة تقارب 9.46 دولار لكل حل ناجح.
- DeepSeek V4 Pro: كان الأكثر كفاءة من حيث التكلفة، ونجح في 3 محاولات فقط، بتكلفة منخفضة بلغت 0.62 دولار لكل حل.
- Claude 4.6: سجل نجاحاً محدوداً، ولم يتجاوز محاولتين.
- Opus 4.8: حقق أيضاً نجاحاً محدوداً، ولم يتجاوز محاولتين.
- Gemini: جاء في المرتبة الأخيرة، ورفض التنفيذ في معظم الحالات.
ما الذي أظهرته المقارنة بين النماذج؟
لم تكن المقارنة مجرد رصد لعدد الإجابات الصحيحة، بل كشفت عن اختلاف واضح في طريقة تعامل النماذج مع المهام التي تتطلب قراراً تنفيذياً، فبعضها تعامل مع المهمة بسرعة أكبر، وبعضها فضّل التحفظ أو الرفض، بينما برزت نماذج أخرى بكلفة أقل لكنها أقل نجاحاً، مما أظهر أن الكفاءة المالية لا تعني بالضرورة تفوقاً في عدد الحلول.
ملاحظات رئيسية في التجربة
- التجربة اعتمدت على سيناريو عملي مرتبط بثغرة في بيانات اعتماد Firebase.
- عدد النماذج التي خضعت للاختبار تجاوز 12 نموذجاً.
- ميزانية كل محاولة كانت 10 دولارات.
- إجمالي الإنفاق في التجارب وصل إلى 1500 دولار.
- النتائج لم تُقدَّم بوصفها تقييماً علمياً رسمياً.
لماذا رفض Gemini التنفيذ في معظم الحالات؟
بحسب ما أورده الباحث، فقد جاء Gemini في ذيل الترتيب لأنه رفض التنفيذ في معظم الحالات، وهو ما يعكس جانباً مهماً في سلوك بعض النماذج عند التعامل مع طلبات ذات طابع أمني، إذ قد تتجه إلى الامتناع أو التحفظ بدلاً من محاولة المعالجة، حتى عندما تكون البيئة المستخدمة في الاختبار مصممة خصيصاً لهذا الغرض.
هل تعني هذه النتائج حكماً نهائياً على النماذج؟
الجواب الذي شدد عليه الباحث هو أن هذه المحاولة ليست دراسة معيارية معتمدة، بل تجربة عملية محدودة النطاق، هدفها ملاحظة كيفية استجابة النماذج في موقف محدد، ولذلك فإن الأرقام الواردة تعكس هذا السيناريو فقط، ولا يمكن تعميمها على كل الاستخدامات أو كل البيئات الأمنية.
وتبقى قيمة هذا النوع من الاختبارات في أنه يفتح نقاشاً أوسع حول قدرة الذكاء الاصطناعي على التعامل مع تحديات الأمن التطبيقي، خصوصاً حين تكون الثغرة واضحة والبيئة التشغيلية حقيقية، ومع أن النتائج أظهرت تفوقاً لنموذج GPT-5.5 من حيث عدد النجاحات، فإن كفاءة DeepSeek V4 Pro من ناحية التكلفة كانت لافتة، بينما ظلت Claude 4.6 وOpus 4.8 في نطاق النجاح المحدود، وجاء Gemini أكثر تحفظاً، وفي قراءة متابعة مثل هذه الأخبار يمكن الرجوع إلى بوابة مصر باعتبارها منصة تنقل المستجدات التقنية بلغة واضحة ومهنية.
