Оцінка достовірності мовних моделей виявляє нові вразливості: GPT-4 може бути більш схильним до дезінформації.

2025-08-03 08:49:15

Генерація анотацій у процесі

Оцінка надійності мовних моделей: нове дослідження виявляє потенційні вразливості

Університет Іллінойс в Урбана-Шампейн у співпраці з кількома відомими університетами та дослідницькими установами розробив платформу для всебічної оцінки надійності великих мовних моделей (LLMs). Ця платформа спрямована на системну оцінку моделей, таких як GPT, з різних точок зору, і в новій статті «DecodingTrust: всебічна оцінка надійності моделей GPT» вона була детально представлена.

Дослідження виявило деякі раніше невідомі вразливості, пов'язані з довірою. Наприклад, моделі GPT схильні до генерування шкідливих і упереджених виходів, а також можуть розкривати конфіденційну інформацію з навчальних даних та історії розмов. Крім того, хоча в стандартних бенчмарках GPT-4 зазвичай є більш надійним, ніж GPT-3.5, при зіткненні з навмисно спроектованими підказками GPT-4 виявляється більш вразливим до атак, можливо, через те, що він суворіше дотримується оманливих інструкцій.

Дослідження провело всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи продуктивність моделі в різних аспектах достовірності та її здатність адаптуватися в умовах протидії. Оцінка охоплює різні сценарії, завдання, показники та набори даних.

У сфері атак на текст із протистояння, дослідницька група побудувала три оцінювальні сценарії: стандартний бенчмарк тесту AdvGLUE, тест AdvGLUE з різними інструкціями керівництва, а також самостійно розроблений більш складний тест AdvGLUE++. Ці тести мають на меті оцінити вразливість моделей до існуючих атак, порівняти стійкість різних моделей, вплив атак на здатність виконувати інструкції, а також переносимість поточних стратегій атак.

Дослідження показало, що моделі GPT демонструють певну стійкість при роботі з адверсальними прикладами, але також мають деякі обмеження. Наприклад, GPT-3.5 та GPT-4 не піддаються омані контрафактними прикладами, а навіть можуть отримувати вигоду з них. Однак надання антишахрайських демонстрацій може призвести до того, що модель буде неправильно прогнозувати на контрафактних входах, особливо коли ці демонстрації близькі до введення користувача.

У плані токсичності та упередження моделі GPT мають менші відхилення за більш позитивних підказок стосовно більшості тем стереотипів. Однак за введенням оманливих системних підказок обидві моделі можуть генерувати упереджений контент. GPT-4 легше піддається впливу цілеспрямованих оманливих підказок порівняно з GPT-3.5, що може бути пов'язано з тим, що він суворіше дотримується цих інструкцій. Упередження моделі також пов'язане з групами населення та темами стереотипів, згаданими в підказках користувача.

Щодо проблеми витоку конфіденційності, дослідження показали, що модель GPT може витікати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У деяких випадках використання додаткових знань може суттєво підвищити точність вилучення інформації. Крім того, модель може також витікати приватну інформацію з історії діалогу. Хоча GPT-4 є більш стійким у захисті особистої ідентифікаційної інформації ( PII ) порівняно з GPT-3.5, обидві моделі легко витікають різні види PII під час демонстрації витоку конфіденційності.

Дослідницька група підкреслила, що ця робота має на меті заохочення більшої кількості дослідників до участі в спільному запобіганні потенційним вразливостям від зловмисного використання. Вони сподіваються, що ця оцінка стане відправною точкою для створення більш потужних і надійних моделей та вітають зусилля інших сторін продовжувати працювати на цій основі. Для сприяння співпраці, розроблений ними базовий код має хорошу масштабованість і простоту використання.

GPT-14.34%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

16 лайків

Нагородити
16
8
Репост
Поділіться

Прокоментувати

0/400

DogeBachelor