تقييم موثوقية نماذج اللغة: أبحاث جديدة تكشف عن ثغرات محتملة
تعاونت جامعة إلينوي في إربانا شامبين مع العديد من الجامعات ومراكز الأبحاث المرموقة لتطوير منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تهدف هذه المنصة إلى إجراء تقييم منهجي لنماذج مثل GPT من زوايا متعددة، وقد تم تقديم تفاصيلها في الورقة البحثية الحديثة "DecodingTrust: تقييم شامل لموثوقية نموذج GPT."
أظهرت الأبحاث وجود بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، نموذج GPT يميل إلى إنتاج مخرجات ضارة ومتحيزة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وسجل المحادثات. بالإضافة إلى ذلك، على الرغم من أن GPT-4 غالبًا ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بشكل خبيث، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.
تقوم هذه الدراسة بتقييم شامل لنموذج GPT من ثمانية جوانب موثوقية، بما في ذلك أداء النموذج في جوانب موثوقية مختلفة، وقدرته على التكيف في بيئات معادية. تشمل التقييمات مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات.
في مجال هجمات النصوص التنافسية، قام فريق البحث ببناء ثلاثة سيناريوهات تقييم: اختبار AdvGLUE القياسي، واختبار AdvGLUE مع تعليمات توجيهية مختلفة، واختبار AdvGLUE++ الأكثر تحديًا والذي تم تطويره ذاتيًا. تهدف هذه الاختبارات إلى تقييم ضعف النموذج أمام الهجمات الحالية، ومقارنة متانة النماذج المختلفة، وتأثير الهجمات على قدرة الالتزام بالتعليمات، وقابلية نقل استراتيجيات الهجوم الحالية، وغيرها.
أظهرت الأبحاث أن نموذج GPT يظهر درجة من القوة عند التعامل مع العروض المضادة، لكنه يعاني من بعض القيود. على سبيل المثال، لا يتعرض GPT-3.5 وGPT-4 للخداع من خلال الأمثلة العكسية، بل يمكن أن يستفيد منها. ومع ذلك، فإن تقديم عروض مضادة قد يؤدي إلى قيام النموذج بتنبؤات خاطئة بناءً على المدخلات العكسية، خاصة عندما تكون هذه العروض قريبة من مدخلات المستخدم.
فيما يتعلق بالسمية والتحيز، فإن نموذج GPT يظهر انحرافًا أقل تجاه معظم موضوعات الصور النمطية تحت التوجيهات الجيدة. ومع ذلك، تحت التوجيهات النظامية المضللة، قد تنتج النماذج كلاهما محتوى متحيز. نموذج GPT-4 أكثر عرضة للتأثر بالتوجيهات المضللة المستهدفة مقارنةً بنموذج GPT-3.5، وقد يكون ذلك بسبب التزامه الأكثر صرامة بهذه التعليمات. يرتبط انحياز النموذج أيضًا بالمجموعات السكانية وموضوعات الصور النمطية المذكورة في توجيهات المستخدم.
فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تسرب معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة التكميلية إلى تحسين دقة استخراج المعلومات بشكل ملحوظ. بالإضافة إلى ذلك، قد تسرب النماذج معلومات خاصة من تاريخ المحادثات. على الرغم من أن GPT-4 أكثر قوة من GPT-3.5 في حماية المعلومات الشخصية (PII)، إلا أن كلا النموذجين عرضة لتسريب أنواع مختلفة من PII عند مواجهة عروض تسرب الخصوصية.
أكد فريق البحث أن هذا العمل يهدف إلى تشجيع المزيد من الباحثين على المشاركة، من أجل الوقاية من الاستغلال الضار للثغرات المحتملة. يأملون أن تكون هذه التقييم نقطة انطلاق لإنشاء نماذج أقوى وأكثر موثوقية، ويشجعون الأطراف الأخرى على الاستمرار في الجهود على هذا الأساس. لتعزيز التعاون، فإن كود المعايير الذي طوروه يتميز بقابلية توسيع جيدة وسهولة الاستخدام.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 16
أعجبني
16
8
مشاركة
تعليق
0/400
DogeBachelor
· منذ 6 س
GPT4 يا إلهي... هبوط بلا نهاية
شاهد النسخة الأصليةرد0
PerpetualLonger
· 08-05 10:24
هذا كله FUD تم إطلاقه عمدًا من قبل المراكز القصيرة! شراء الانخفاض وزيادة المركز🚀 إذا هبطت مرة أخرى سأشارك الجميع
تقييم موثوقية نموذج اللغة يكشف عن ثغرات جديدة، قد يكون GPT-4 أكثر عرضة للتضليل
تقييم موثوقية نماذج اللغة: أبحاث جديدة تكشف عن ثغرات محتملة
تعاونت جامعة إلينوي في إربانا شامبين مع العديد من الجامعات ومراكز الأبحاث المرموقة لتطوير منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تهدف هذه المنصة إلى إجراء تقييم منهجي لنماذج مثل GPT من زوايا متعددة، وقد تم تقديم تفاصيلها في الورقة البحثية الحديثة "DecodingTrust: تقييم شامل لموثوقية نموذج GPT."
أظهرت الأبحاث وجود بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، نموذج GPT يميل إلى إنتاج مخرجات ضارة ومتحيزة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وسجل المحادثات. بالإضافة إلى ذلك، على الرغم من أن GPT-4 غالبًا ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بشكل خبيث، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.
تقوم هذه الدراسة بتقييم شامل لنموذج GPT من ثمانية جوانب موثوقية، بما في ذلك أداء النموذج في جوانب موثوقية مختلفة، وقدرته على التكيف في بيئات معادية. تشمل التقييمات مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات.
في مجال هجمات النصوص التنافسية، قام فريق البحث ببناء ثلاثة سيناريوهات تقييم: اختبار AdvGLUE القياسي، واختبار AdvGLUE مع تعليمات توجيهية مختلفة، واختبار AdvGLUE++ الأكثر تحديًا والذي تم تطويره ذاتيًا. تهدف هذه الاختبارات إلى تقييم ضعف النموذج أمام الهجمات الحالية، ومقارنة متانة النماذج المختلفة، وتأثير الهجمات على قدرة الالتزام بالتعليمات، وقابلية نقل استراتيجيات الهجوم الحالية، وغيرها.
أظهرت الأبحاث أن نموذج GPT يظهر درجة من القوة عند التعامل مع العروض المضادة، لكنه يعاني من بعض القيود. على سبيل المثال، لا يتعرض GPT-3.5 وGPT-4 للخداع من خلال الأمثلة العكسية، بل يمكن أن يستفيد منها. ومع ذلك، فإن تقديم عروض مضادة قد يؤدي إلى قيام النموذج بتنبؤات خاطئة بناءً على المدخلات العكسية، خاصة عندما تكون هذه العروض قريبة من مدخلات المستخدم.
فيما يتعلق بالسمية والتحيز، فإن نموذج GPT يظهر انحرافًا أقل تجاه معظم موضوعات الصور النمطية تحت التوجيهات الجيدة. ومع ذلك، تحت التوجيهات النظامية المضللة، قد تنتج النماذج كلاهما محتوى متحيز. نموذج GPT-4 أكثر عرضة للتأثر بالتوجيهات المضللة المستهدفة مقارنةً بنموذج GPT-3.5، وقد يكون ذلك بسبب التزامه الأكثر صرامة بهذه التعليمات. يرتبط انحياز النموذج أيضًا بالمجموعات السكانية وموضوعات الصور النمطية المذكورة في توجيهات المستخدم.
فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تسرب معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة التكميلية إلى تحسين دقة استخراج المعلومات بشكل ملحوظ. بالإضافة إلى ذلك، قد تسرب النماذج معلومات خاصة من تاريخ المحادثات. على الرغم من أن GPT-4 أكثر قوة من GPT-3.5 في حماية المعلومات الشخصية (PII)، إلا أن كلا النموذجين عرضة لتسريب أنواع مختلفة من PII عند مواجهة عروض تسرب الخصوصية.
أكد فريق البحث أن هذا العمل يهدف إلى تشجيع المزيد من الباحثين على المشاركة، من أجل الوقاية من الاستغلال الضار للثغرات المحتملة. يأملون أن تكون هذه التقييم نقطة انطلاق لإنشاء نماذج أقوى وأكثر موثوقية، ويشجعون الأطراف الأخرى على الاستمرار في الجهود على هذا الأساس. لتعزيز التعاون، فإن كود المعايير الذي طوروه يتميز بقابلية توسيع جيدة وسهولة الاستخدام.