Оцінка достовірності мовних моделей виявляє нові вразливості: GPT-4 може бути більш схильним до дезінформації.

robot
Генерація анотацій у процесі

Оцінка надійності мовних моделей: нове дослідження виявляє потенційні вразливості

Університет Іллінойс в Урбана-Шампейн у співпраці з кількома відомими університетами та дослідницькими установами розробив платформу для всебічної оцінки надійності великих мовних моделей (LLMs). Ця платформа спрямована на системну оцінку моделей, таких як GPT, з різних точок зору, і в новій статті «DecodingTrust: всебічна оцінка надійності моделей GPT» вона була детально представлена.

Дослідження виявило деякі раніше невідомі вразливості, пов'язані з довірою. Наприклад, моделі GPT схильні до генерування шкідливих і упереджених виходів, а також можуть розкривати конфіденційну інформацію з навчальних даних та історії розмов. Крім того, хоча в стандартних бенчмарках GPT-4 зазвичай є більш надійним, ніж GPT-3.5, при зіткненні з навмисно спроектованими підказками GPT-4 виявляється більш вразливим до атак, можливо, через те, що він суворіше дотримується оманливих інструкцій.

Дослідження провело всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи продуктивність моделі в різних аспектах достовірності та її здатність адаптуватися в умовах протидії. Оцінка охоплює різні сценарії, завдання, показники та набори даних.

У сфері атак на текст із протистояння, дослідницька група побудувала три оцінювальні сценарії: стандартний бенчмарк тесту AdvGLUE, тест AdvGLUE з різними інструкціями керівництва, а також самостійно розроблений більш складний тест AdvGLUE++. Ці тести мають на меті оцінити вразливість моделей до існуючих атак, порівняти стійкість різних моделей, вплив атак на здатність виконувати інструкції, а також переносимість поточних стратегій атак.

Дослідження показало, що моделі GPT демонструють певну стійкість при роботі з адверсальними прикладами, але також мають деякі обмеження. Наприклад, GPT-3.5 та GPT-4 не піддаються омані контрафактними прикладами, а навіть можуть отримувати вигоду з них. Однак надання антишахрайських демонстрацій може призвести до того, що модель буде неправильно прогнозувати на контрафактних входах, особливо коли ці демонстрації близькі до введення користувача.

У плані токсичності та упередження моделі GPT мають менші відхилення за більш позитивних підказок стосовно більшості тем стереотипів. Однак за введенням оманливих системних підказок обидві моделі можуть генерувати упереджений контент. GPT-4 легше піддається впливу цілеспрямованих оманливих підказок порівняно з GPT-3.5, що може бути пов'язано з тим, що він суворіше дотримується цих інструкцій. Упередження моделі також пов'язане з групами населення та темами стереотипів, згаданими в підказках користувача.

Щодо проблеми витоку конфіденційності, дослідження показали, що модель GPT може витікати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У деяких випадках використання додаткових знань може суттєво підвищити точність вилучення інформації. Крім того, модель може також витікати приватну інформацію з історії діалогу. Хоча GPT-4 є більш стійким у захисті особистої ідентифікаційної інформації ( PII ) порівняно з GPT-3.5, обидві моделі легко витікають різні види PII під час демонстрації витоку конфіденційності.

Дослідницька група підкреслила, що ця робота має на меті заохочення більшої кількості дослідників до участі в спільному запобіганні потенційним вразливостям від зловмисного використання. Вони сподіваються, що ця оцінка стане відправною точкою для створення більш потужних і надійних моделей та вітають зусилля інших сторін продовжувати працювати на цій основі. Для сприяння співпраці, розроблений ними базовий код має хорошу масштабованість і простоту використання.

GPT-14.34%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 8
  • Репост
  • Поділіться
Прокоментувати
0/400
DogeBachelorvip
· 08-06 08:04
GPT4 я в шоці... падіння немає кінця
Переглянути оригіналвідповісти на0
PerpetualLongervip
· 08-05 10:24
Це все FUD, навмисно випущений шорт позиціями! Купувати просадку, збільшити позиціюing 🚀 Якщо буде ще падіння, то All in
Переглянути оригіналвідповісти на0
NFTFreezervip
· 08-03 09:18
А це gpt4 не більше ніж так.
Переглянути оригіналвідповісти на0
UnluckyLemurvip
· 08-03 09:18
GPT краще обманює людей, ніж вони самі.
Переглянути оригіналвідповісти на0
GasFeeVictimvip
· 08-03 09:14
Знову почали обдурювати людей, як лохів, уха!
Переглянути оригіналвідповісти на0
RiddleMastervip
· 08-03 09:07
Смішно, четверте покоління обманули.
Переглянути оригіналвідповісти на0
LiquidationWatchervip
· 08-03 08:57
gpt-4 отримав по заслугах... так само, як і мій портфель у 2022 році smh
Переглянути оригіналвідповісти на0
ProxyCollectorvip
· 08-03 08:50
Слухняність – це добре чи погано?
Переглянути оригіналвідповісти на0
  • Закріпити