A avaliação da credibilidade dos modelos de linguagem revela novas vulnerabilidades. O GPT-4 pode ser mais suscetível a enganos.

robot
Geração de resumo em curso

Avaliação da confiabilidade de modelos de linguagem: novas pesquisas revelam vulnerabilidades potenciais

A Universidade de Illinois em Urbana-Champaign colaborou com várias universidades e instituições de pesquisa conhecidas para desenvolver uma plataforma abrangente para avaliar a confiabilidade de modelos de linguagem de grande escala (LLMs). Esta plataforma visa realizar uma avaliação sistemática de modelos como o GPT sob várias perspectivas, e é detalhadamente apresentada no artigo mais recente "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT."

A pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas prejudiciais e tendenciosas, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Além disso, embora no teste padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, quando confrontado com prompts maliciosamente projetados, o GPT-4 se torna mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.

Este estudo avaliou de forma abrangente o modelo GPT a partir de 8 ângulos de credibilidade, incluindo o desempenho do modelo em diferentes aspectos de credibilidade, bem como a sua capacidade de adaptação em ambientes adversariais. A avaliação abrangeu vários cenários, tarefas, métricas e conjuntos de dados.

Na área de ataques de texto adversariais, a equipe de pesquisa construiu três cenários de avaliação: o teste padrão AdvGLUE, o teste AdvGLUE com diferentes instruções de tarefa orientadora e o teste AdvGLUE++ mais desafiador, desenvolvido autonomamente. Esses testes visam avaliar a vulnerabilidade do modelo a ataques existentes, a comparação da robustez entre diferentes modelos, o impacto dos ataques na capacidade de seguir instruções e a transferibilidade das estratégias de ataque atuais.

Estudos mostram que o modelo GPT demonstra uma certa robustez ao lidar com demonstrações adversariais, mas também apresenta algumas limitações. Por exemplo, o GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais, podendo até beneficiar-se deles. No entanto, fornecer demonstrações de combate à fraude pode levar o modelo a fazer previsões incorretas com entradas contrafactuais, especialmente quando essas demonstrações estão próximas da entrada do usuário.

Em termos de toxicidade e preconceito, o modelo GPT apresenta uma menor viés em relação à maioria dos tópicos de estereótipos sob sugestões benignas. No entanto, sob sugestões de sistema enganadoras, ambos os modelos podem produzir conteúdos tendenciosos. O GPT-4 é mais suscetível a sugestões enganosas direcionadas do que o GPT-3.5, o que pode ser devido ao fato de seguir essas instruções de forma mais rigorosa. O viés do modelo também está relacionado aos grupos populacionais e aos tópicos de estereótipos mencionados nas sugestões dos usuários.

Sobre a questão da violação de privacidade, a pesquisa descobriu que o modelo GPT pode vazar informações sensíveis nos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimentos complementares pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações pessoais do histórico de conversas. Embora o GPT-4 seja mais robusto na proteção de informações de identificação pessoal (PII) do que o GPT-3.5, ambos os modelos são suscetíveis a vazar vários tipos de PII quando confrontados com demonstrações de violação de privacidade.

A equipe de pesquisa enfatiza que este trabalho visa encorajar mais pesquisadores a participar, a fim de prevenir conjuntamente a exploração maliciosa de potenciais vulnerabilidades. Eles esperam que esta avaliação possa servir como um ponto de partida para a criação de modelos mais robustos e confiáveis, e acolhem outras partes a continuarem a trabalhar sobre esta base. Para promover a colaboração, o código de referência que desenvolveram possui boa escalabilidade e facilidade de uso.

GPT13.57%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 8
  • Partilhar
Comentar
0/400
DogeBachelorvip
· 08-06 08:04
GPT4 eu não acredito... cair sem parar
Ver originalResponder0
PerpetualLongervip
· 08-05 10:24
Isto é tudo fud que as posições curtas estão a libertar intencionalmente! Comprar na baixa aumentando a posição ing 🚀 Se cair mais, tudo em.
Ver originalResponder0
NFTFreezervip
· 08-03 09:18
Ah, o gpt4 não é nada de especial.
Ver originalResponder0
UnluckyLemurvip
· 08-03 09:18
GPT é mais fácil de enganar do que as pessoas, certo?
Ver originalResponder0
GasFeeVictimvip
· 08-03 09:14
又开始 fazer as pessoas de parvas idiotas了鸭
Ver originalResponder0
RiddleMastervip
· 08-03 09:07
A rir até morrer, a quarta geração foi enganada a ponto de ficar manca.
Ver originalResponder0
LiquidationWatchervip
· 08-03 08:57
gpt-4 foi rekt... assim como o meu portfólio em 2022 smh
Ver originalResponder0
ProxyCollectorvip
· 08-03 08:50
Ser obediente é uma coisa boa ou má?
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)