Évaluation de la fiabilité des modèles linguistiques : de nouvelles recherches révèlent des vulnérabilités potentielles
L'Université de l'Illinois à Urbana-Champaign a collaboré avec plusieurs universités et institutions de recherche renommées pour développer une plateforme d'évaluation complète de la fiabilité des grands modèles de langage (LLMs). Cette plateforme vise à évaluer systématiquement des modèles comme GPT sous plusieurs angles, et est présentée en détail dans le dernier article "DecodingTrust : Évaluation complète de la fiabilité des modèles GPT".
Des recherches ont révélé des vulnérabilités liées à la fiabilité qui n'avaient pas été rendues publiques auparavant. Par exemple, le modèle GPT a tendance à produire des sorties nuisibles et biaisées, et pourrait également divulguer des informations privées présentes dans les données d'entraînement et l'historique des conversations. De plus, bien que dans les tests de référence standard, GPT-4 soit généralement plus fiable que GPT-3.5, face à des invites malveillantes, GPT-4 est en fait plus susceptible d'être attaqué, probablement parce qu'il suit plus rigoureusement des instructions trompeuses.
Cette étude a évalué de manière exhaustive le modèle GPT sous huit angles de crédibilité, y compris les performances du modèle dans différents aspects de la crédibilité, ainsi que sa capacité d'adaptation dans des environnements adversaires. L'évaluation couvre divers scénarios, tâches, indicateurs et ensembles de données.
Dans le domaine des attaques de texte adversarial, l'équipe de recherche a construit trois scénarios d'évaluation : le test de référence standard AdvGLUE, le test AdvGLUE avec différentes instructions de tâche directrices, et le test AdvGLUE++ plus difficile développé en interne. Ces tests visent à évaluer la vulnérabilité des modèles aux attaques existantes, à comparer la robustesse de différents modèles, à examiner l'impact des attaques sur la capacité de suivi des instructions, ainsi qu'à évaluer la transférabilité des stratégies d'attaque actuelles.
Des recherches ont montré que les modèles GPT présentent une certaine robustesse face aux démonstrations adversariales, mais aussi certaines limites. Par exemple, le GPT-3.5 et le GPT-4 ne sont pas induits en erreur par des exemples contrefactuels et peuvent même en tirer parti. Cependant, la fourniture de démonstrations anti-fraude peut conduire le modèle à faire des prévisions erronées concernant des entrées contrefactuelles, en particulier lorsque ces démonstrations sont proches des entrées de l'utilisateur.
En termes de toxicité et de biais, les modèles GPT présentent des biais moindres sur la plupart des thèmes stéréotypés sous des invites bienveillantes. Cependant, sous des invites systématiques trompeuses, les deux modèles peuvent produire un contenu biaisé. GPT-4 est plus susceptible d'être influencé par des invites trompeuses ciblées que GPT-3.5, ce qui pourrait être dû au fait qu'il suit plus strictement ces instructions. Le biais du modèle est également lié aux groupes démographiques et aux thèmes stéréotypés mentionnés dans les invites des utilisateurs.
Concernant le problème des fuites de données, des recherches ont montré que le modèle GPT pourrait divulguer des informations sensibles provenant des données d'entraînement, telles que des adresses électroniques. Dans certains cas, l'utilisation de connaissances complémentaires peut améliorer considérablement la précision de l'extraction d'informations. De plus, le modèle pourrait également divulguer des informations privées dans l'historique des conversations. Bien que GPT-4 soit plus robuste que GPT-3.5 en matière de protection des informations d'identification personnelle (PII), les deux modèles sont susceptibles de divulguer divers types de PII lorsqu'ils sont confrontés à des démonstrations de fuites de données.
L'équipe de recherche souligne que ce travail vise à encourager davantage de chercheurs à participer, afin de prévenir ensemble les potentielles vulnérabilités contre leur exploitation malveillante. Ils espèrent que cette évaluation pourra servir de point de départ pour créer des modèles plus robustes et plus fiables, et accueillent d'autres parties à poursuivre leurs efforts sur cette base. Pour favoriser la collaboration, le code de référence qu'ils ont développé est doté d'une bonne évolutivité et d'une facilité d'utilisation.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
16 J'aime
Récompense
16
8
Partager
Commentaire
0/400
DogeBachelor
· 08-06 08:04
GPT4 je n'en peux plus... chute sans fin
Voir l'originalRépondre0
PerpetualLonger
· 08-05 10:24
Tout cela est du fud intentionnellement libéré par les positions short ! Acheter le dip et augmenter la positioning 🚀 Si ça chute encore, All in.
Voir l'originalRépondre0
NFTFreezer
· 08-03 09:18
Ah, ce gpt4 n'est pas si incroyable.
Voir l'originalRépondre0
UnluckyLemur
· 08-03 09:18
GPT est encore plus facile à duper que les humains, c'est incroyable.
Voir l'originalRépondre0
GasFeeVictim
· 08-03 09:14
Encore une fois, on se fait prendre pour des cons.
Voir l'originalRépondre0
RiddleMaster
· 08-03 09:07
Je suis mort de rire, la quatrième génération m'a complètement eu.
Voir l'originalRépondre0
LiquidationWatcher
· 08-03 08:57
gpt-4 s'est fait avoir... tout comme mon portefeuille en 2022 smh
L'évaluation de la fiabilité des modèles linguistiques révèle de nouvelles vulnérabilités, GPT-4 pourrait être plus facilement induit en erreur.
Évaluation de la fiabilité des modèles linguistiques : de nouvelles recherches révèlent des vulnérabilités potentielles
L'Université de l'Illinois à Urbana-Champaign a collaboré avec plusieurs universités et institutions de recherche renommées pour développer une plateforme d'évaluation complète de la fiabilité des grands modèles de langage (LLMs). Cette plateforme vise à évaluer systématiquement des modèles comme GPT sous plusieurs angles, et est présentée en détail dans le dernier article "DecodingTrust : Évaluation complète de la fiabilité des modèles GPT".
Des recherches ont révélé des vulnérabilités liées à la fiabilité qui n'avaient pas été rendues publiques auparavant. Par exemple, le modèle GPT a tendance à produire des sorties nuisibles et biaisées, et pourrait également divulguer des informations privées présentes dans les données d'entraînement et l'historique des conversations. De plus, bien que dans les tests de référence standard, GPT-4 soit généralement plus fiable que GPT-3.5, face à des invites malveillantes, GPT-4 est en fait plus susceptible d'être attaqué, probablement parce qu'il suit plus rigoureusement des instructions trompeuses.
Cette étude a évalué de manière exhaustive le modèle GPT sous huit angles de crédibilité, y compris les performances du modèle dans différents aspects de la crédibilité, ainsi que sa capacité d'adaptation dans des environnements adversaires. L'évaluation couvre divers scénarios, tâches, indicateurs et ensembles de données.
Dans le domaine des attaques de texte adversarial, l'équipe de recherche a construit trois scénarios d'évaluation : le test de référence standard AdvGLUE, le test AdvGLUE avec différentes instructions de tâche directrices, et le test AdvGLUE++ plus difficile développé en interne. Ces tests visent à évaluer la vulnérabilité des modèles aux attaques existantes, à comparer la robustesse de différents modèles, à examiner l'impact des attaques sur la capacité de suivi des instructions, ainsi qu'à évaluer la transférabilité des stratégies d'attaque actuelles.
Des recherches ont montré que les modèles GPT présentent une certaine robustesse face aux démonstrations adversariales, mais aussi certaines limites. Par exemple, le GPT-3.5 et le GPT-4 ne sont pas induits en erreur par des exemples contrefactuels et peuvent même en tirer parti. Cependant, la fourniture de démonstrations anti-fraude peut conduire le modèle à faire des prévisions erronées concernant des entrées contrefactuelles, en particulier lorsque ces démonstrations sont proches des entrées de l'utilisateur.
En termes de toxicité et de biais, les modèles GPT présentent des biais moindres sur la plupart des thèmes stéréotypés sous des invites bienveillantes. Cependant, sous des invites systématiques trompeuses, les deux modèles peuvent produire un contenu biaisé. GPT-4 est plus susceptible d'être influencé par des invites trompeuses ciblées que GPT-3.5, ce qui pourrait être dû au fait qu'il suit plus strictement ces instructions. Le biais du modèle est également lié aux groupes démographiques et aux thèmes stéréotypés mentionnés dans les invites des utilisateurs.
Concernant le problème des fuites de données, des recherches ont montré que le modèle GPT pourrait divulguer des informations sensibles provenant des données d'entraînement, telles que des adresses électroniques. Dans certains cas, l'utilisation de connaissances complémentaires peut améliorer considérablement la précision de l'extraction d'informations. De plus, le modèle pourrait également divulguer des informations privées dans l'historique des conversations. Bien que GPT-4 soit plus robuste que GPT-3.5 en matière de protection des informations d'identification personnelle (PII), les deux modèles sont susceptibles de divulguer divers types de PII lorsqu'ils sont confrontés à des démonstrations de fuites de données.
L'équipe de recherche souligne que ce travail vise à encourager davantage de chercheurs à participer, afin de prévenir ensemble les potentielles vulnérabilités contre leur exploitation malveillante. Ils espèrent que cette évaluation pourra servir de point de départ pour créer des modèles plus robustes et plus fiables, et accueillent d'autres parties à poursuivre leurs efforts sur cette base. Pour favoriser la collaboration, le code de référence qu'ils ont développé est doté d'une bonne évolutivité et d'une facilité d'utilisation.