Оценка надежности языковых моделей: новое исследование выявляет потенциальные уязвимости
Университет Иллинойс в Урбана-Шампейн совместно с несколькими известными университетами и исследовательскими учреждениями разработал платформу для комплексной оценки надежности крупных языковых моделей (LLMs). Платформа предназначена для систематической оценки моделей, таких как GPT, с разных точек зрения и подробно представлена в последней статье "DecodingTrust: комплексная оценка надежности моделей GPT."
Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модели GPT склонны генерировать вредные и предвзятые выводы, а также могут раскрывать личные данные из тренировочных данных и истории диалогов. Кроме того, несмотря на то, что в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, в случае злонамеренно составленных подсказок GPT-4 оказывается более уязвимым к атакам, возможно, потому что он более строго следует вводящим в заблуждение инструкциям.
Данное исследование провело комплексную оценку модели GPT с восьми углов достоверности, включая производительность модели в различных аспектах достоверности, а также её адаптивность в условиях противодействия. Оценка охватывает множество сценариев, задач, показателей и наборов данных.
В области атак на текст с противостоянием исследовательская группа разработала три сценария оценки: стандартный базовый тест AdvGLUE, тест AdvGLUE с различными инструкциями и задачами, а также более сложный тест AdvGLUE++, разработанный самостоятельно. Эти тесты направлены на оценку уязвимости модели к существующим атакам, сравнение устойчивости различных моделей, влияние атак на способность следовать инструкциям, а также переносимость текущих атакующих стратегий.
Исследования показали, что модели GPT демонстрируют определенную устойчивость при обработке противостоящих примеров, но также имеют некоторые ограничения. Например, GPT-3.5 и GPT-4 не поддаются влиянию контрфактических примеров и даже могут извлекать из них выгоду. Однако предоставление демонстраций противодействия мошенничеству может привести к тому, что модель будет неправильно предсказывать контрфактические входные данные, особенно когда эти демонстрации близки к пользовательскому вводу.
В отношении токсичности и предвзятости модели GPT демонстрируют меньшую предвзятость по большинству тем стереотипов при положительных подсказках. Однако под воздействием вводящих в заблуждение системных подсказок обе модели могут генерировать предвзятый контент. GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение подсказок, возможно, потому что он более строго следует этим указаниям. Предвзятость модели также связана с упомянутыми в пользовательских подсказках группами населения и темами стереотипов.
По вопросам утечки конфиденциальности исследования показывают, что модель GPT может раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. Кроме того, модель может раскрывать личные данные из истории диалогов. Хотя GPT-4 более надежен в защите личной идентифицируемой информации (PII) по сравнению с GPT-3.5, обе модели подвержены утечкам различных PII при демонстрации утечек конфиденциальности.
Исследовательская команда подчеркивает, что эта работа направлена на то, чтобы побудить больше исследователей участвовать в совместной профилактике потенциальных уязвимостей от злонамеренного использования. Они надеются, что эта оценка станет отправной точкой для создания более мощных и надежных моделей и приветствуют другие стороны, которые продолжат усилия на этой основе. Чтобы содействовать сотрудничеству, они разработали базовый код с хорошей масштабируемостью и простотой использования.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
16 Лайков
Награда
16
8
Репост
Поделиться
комментарий
0/400
DogeBachelor
· 08-06 08:04
GPT4, моя родная мать... падение не заканчивается.
Посмотреть ОригиналОтветить0
PerpetualLonger
· 08-05 10:24
Это всё фуд, который сознательно выпустили позиции в шорт! Покупайте падения, увеличьте позицию 🚀 Если будет падение, то все в
Посмотреть ОригиналОтветить0
NFTFreezer
· 08-03 09:18
А это gpt4 тоже не так уж и хорош.
Посмотреть ОригиналОтветить0
UnluckyLemur
· 08-03 09:18
GPT легче обмануть, чем человека, так что все в порядке.
Посмотреть ОригиналОтветить0
GasFeeVictim
· 08-03 09:14
Снова будут играть для лохов, да?
Посмотреть ОригиналОтветить0
RiddleMaster
· 08-03 09:07
Смех до слез, четвёртое поколение обманули до болезни.
Посмотреть ОригиналОтветить0
LiquidationWatcher
· 08-03 08:57
gpt-4 получил урон... как и мой портфель в 2022 году smh
Оценка надежности языковых моделей выявила новые уязвимости: GPT-4 может быть более подвержен дезинформации.
Оценка надежности языковых моделей: новое исследование выявляет потенциальные уязвимости
Университет Иллинойс в Урбана-Шампейн совместно с несколькими известными университетами и исследовательскими учреждениями разработал платформу для комплексной оценки надежности крупных языковых моделей (LLMs). Платформа предназначена для систематической оценки моделей, таких как GPT, с разных точек зрения и подробно представлена в последней статье "DecodingTrust: комплексная оценка надежности моделей GPT."
Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модели GPT склонны генерировать вредные и предвзятые выводы, а также могут раскрывать личные данные из тренировочных данных и истории диалогов. Кроме того, несмотря на то, что в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, в случае злонамеренно составленных подсказок GPT-4 оказывается более уязвимым к атакам, возможно, потому что он более строго следует вводящим в заблуждение инструкциям.
Данное исследование провело комплексную оценку модели GPT с восьми углов достоверности, включая производительность модели в различных аспектах достоверности, а также её адаптивность в условиях противодействия. Оценка охватывает множество сценариев, задач, показателей и наборов данных.
В области атак на текст с противостоянием исследовательская группа разработала три сценария оценки: стандартный базовый тест AdvGLUE, тест AdvGLUE с различными инструкциями и задачами, а также более сложный тест AdvGLUE++, разработанный самостоятельно. Эти тесты направлены на оценку уязвимости модели к существующим атакам, сравнение устойчивости различных моделей, влияние атак на способность следовать инструкциям, а также переносимость текущих атакующих стратегий.
Исследования показали, что модели GPT демонстрируют определенную устойчивость при обработке противостоящих примеров, но также имеют некоторые ограничения. Например, GPT-3.5 и GPT-4 не поддаются влиянию контрфактических примеров и даже могут извлекать из них выгоду. Однако предоставление демонстраций противодействия мошенничеству может привести к тому, что модель будет неправильно предсказывать контрфактические входные данные, особенно когда эти демонстрации близки к пользовательскому вводу.
В отношении токсичности и предвзятости модели GPT демонстрируют меньшую предвзятость по большинству тем стереотипов при положительных подсказках. Однако под воздействием вводящих в заблуждение системных подсказок обе модели могут генерировать предвзятый контент. GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение подсказок, возможно, потому что он более строго следует этим указаниям. Предвзятость модели также связана с упомянутыми в пользовательских подсказках группами населения и темами стереотипов.
По вопросам утечки конфиденциальности исследования показывают, что модель GPT может раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. Кроме того, модель может раскрывать личные данные из истории диалогов. Хотя GPT-4 более надежен в защите личной идентифицируемой информации (PII) по сравнению с GPT-3.5, обе модели подвержены утечкам различных PII при демонстрации утечек конфиденциальности.
Исследовательская команда подчеркивает, что эта работа направлена на то, чтобы побудить больше исследователей участвовать в совместной профилактике потенциальных уязвимостей от злонамеренного использования. Они надеются, что эта оценка станет отправной точкой для создания более мощных и надежных моделей и приветствуют другие стороны, которые продолжат усилия на этой основе. Чтобы содействовать сотрудничеству, они разработали базовый код с хорошей масштабируемостью и простотой использования.