Evaluación de la confiabilidad del modelo de lenguaje: nueva investigación revela vulnerabilidades potenciales
La Universidad de Illinois en Urbana-Champaign ha colaborado con varias universidades e institutos de investigación de renombre para desarrollar una plataforma que evalúa de manera integral la confiabilidad de los grandes modelos de lenguaje (LLMs). Esta plataforma tiene como objetivo realizar una evaluación sistemática de modelos como GPT desde múltiples perspectivas, y se presenta en detalle en el último artículo "DecodingTrust: Evaluación integral de la confiabilidad del modelo GPT".
La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían divulgado previamente. Por ejemplo, los modelos GPT tienden a generar salidas dañinas y sesgadas, y también pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Además, aunque en las pruebas de referencia estándar GPT-4 suele ser más fiable que GPT-3.5, al enfrentarse a indicaciones maliciosamente diseñadas, GPT-4 es más susceptible a ataques, posiblemente porque sigue más estrictamente las instrucciones engañosas.
Este estudio evaluó de manera exhaustiva el modelo GPT desde ocho perspectivas de credibilidad, incluyendo el rendimiento del modelo en diferentes aspectos de credibilidad y su capacidad de adaptación en entornos adversos. La evaluación abarcó una variedad de escenarios, tareas, métricas y conjuntos de datos.
En cuanto a los ataques de texto adversarial, el equipo de investigación ha construido tres escenarios de evaluación: la prueba estándar AdvGLUE, la prueba AdvGLUE con diferentes instrucciones de tarea, y la prueba AdvGLUE++ más desafiante que se desarrolló de forma independiente. Estas pruebas están diseñadas para evaluar la vulnerabilidad del modelo a los ataques existentes, comparar la robustez de diferentes modelos, el impacto de los ataques en la capacidad de seguimiento de instrucciones, así como la transferibilidad de las estrategias de ataque actuales.
La investigación ha encontrado que el modelo GPT muestra cierta robustez al enfrentar demostraciones adversariales, pero también presenta algunas limitaciones. Por ejemplo, GPT-3.5 y GPT-4 no se dejan engañar por ejemplos contrafactuales e incluso pueden beneficiarse de ellos. Sin embargo, proporcionar demostraciones de contra-fraude puede llevar al modelo a hacer predicciones erróneas sobre entradas contrafactuales, especialmente cuando estas demostraciones están cerca de la entrada del usuario.
En términos de toxicidad y sesgo, el modelo GPT tiene una desviación menor en la mayoría de los temas de estereotipos bajo indicaciones benignas. Sin embargo, bajo indicaciones sistemáticas engañosas, ambos modelos pueden generar contenido sesgado. GPT-4 es más susceptible a las indicaciones engañosas específicas que GPT-3.5, lo que puede deberse a que sigue más estrictamente estas instrucciones. El sesgo del modelo también está relacionado con los grupos demográficos y los temas de estereotipos mencionados en las indicaciones del usuario.
En cuanto a los problemas de filtración de privacidad, los estudios han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En algunos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Además, el modelo también puede filtrar información privada de los historiales de conversación. Aunque GPT-4 es más robusto que GPT-3.5 en la protección de la información de identificación personal (PII), ambos modelos son propensos a filtrar varios tipos de PII cuando se enfrentan a demostraciones de filtración de privacidad.
El equipo de investigación enfatiza que este trabajo tiene como objetivo alentar a más investigadores a participar y prevenir conjuntamente el uso malintencionado de vulnerabilidades potenciales. Esperan que esta evaluación sirva como punto de partida para crear modelos más robustos y confiables, y dan la bienvenida a otros actores a continuar sus esfuerzos sobre esta base. Para fomentar la colaboración, el código de referencia que desarrollaron tiene una buena escalabilidad y facilidad de uso.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
16 me gusta
Recompensa
16
8
Compartir
Comentar
0/400
DogeBachelor
· 08-06 08:04
GPT4, madre mía... caída sin fin.
Ver originalesResponder0
PerpetualLonger
· 08-05 10:24
¡Esto es todo un fud liberado intencionadamente por las posiciones en corto! Comprando la caída y aumentando la posición 🚀 Si cae más, ¡todo dentro!
Ver originalesResponder0
NFTFreezer
· 08-03 09:18
Ah, esto no es más que gpt4.
Ver originalesResponder0
UnluckyLemur
· 08-03 09:18
GPT es más fácil de engañar que las personas, ¿verdad?
Ver originalesResponder0
GasFeeVictim
· 08-03 09:14
Otra vez están tomando a la gente por tonta.
Ver originalesResponder0
RiddleMaster
· 08-03 09:07
Me muero de risa, la cuarta generación me ha engañado.
Ver originalesResponder0
LiquidationWatcher
· 08-03 08:57
gpt-4 fue destrozado... al igual que mi cartera en 2022 smh
La evaluación de la credibilidad de los modelos de lenguaje revela nuevas vulnerabilidades; GPT-4 podría ser más susceptible a ser engañado.
Evaluación de la confiabilidad del modelo de lenguaje: nueva investigación revela vulnerabilidades potenciales
La Universidad de Illinois en Urbana-Champaign ha colaborado con varias universidades e institutos de investigación de renombre para desarrollar una plataforma que evalúa de manera integral la confiabilidad de los grandes modelos de lenguaje (LLMs). Esta plataforma tiene como objetivo realizar una evaluación sistemática de modelos como GPT desde múltiples perspectivas, y se presenta en detalle en el último artículo "DecodingTrust: Evaluación integral de la confiabilidad del modelo GPT".
La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían divulgado previamente. Por ejemplo, los modelos GPT tienden a generar salidas dañinas y sesgadas, y también pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Además, aunque en las pruebas de referencia estándar GPT-4 suele ser más fiable que GPT-3.5, al enfrentarse a indicaciones maliciosamente diseñadas, GPT-4 es más susceptible a ataques, posiblemente porque sigue más estrictamente las instrucciones engañosas.
Este estudio evaluó de manera exhaustiva el modelo GPT desde ocho perspectivas de credibilidad, incluyendo el rendimiento del modelo en diferentes aspectos de credibilidad y su capacidad de adaptación en entornos adversos. La evaluación abarcó una variedad de escenarios, tareas, métricas y conjuntos de datos.
En cuanto a los ataques de texto adversarial, el equipo de investigación ha construido tres escenarios de evaluación: la prueba estándar AdvGLUE, la prueba AdvGLUE con diferentes instrucciones de tarea, y la prueba AdvGLUE++ más desafiante que se desarrolló de forma independiente. Estas pruebas están diseñadas para evaluar la vulnerabilidad del modelo a los ataques existentes, comparar la robustez de diferentes modelos, el impacto de los ataques en la capacidad de seguimiento de instrucciones, así como la transferibilidad de las estrategias de ataque actuales.
La investigación ha encontrado que el modelo GPT muestra cierta robustez al enfrentar demostraciones adversariales, pero también presenta algunas limitaciones. Por ejemplo, GPT-3.5 y GPT-4 no se dejan engañar por ejemplos contrafactuales e incluso pueden beneficiarse de ellos. Sin embargo, proporcionar demostraciones de contra-fraude puede llevar al modelo a hacer predicciones erróneas sobre entradas contrafactuales, especialmente cuando estas demostraciones están cerca de la entrada del usuario.
En términos de toxicidad y sesgo, el modelo GPT tiene una desviación menor en la mayoría de los temas de estereotipos bajo indicaciones benignas. Sin embargo, bajo indicaciones sistemáticas engañosas, ambos modelos pueden generar contenido sesgado. GPT-4 es más susceptible a las indicaciones engañosas específicas que GPT-3.5, lo que puede deberse a que sigue más estrictamente estas instrucciones. El sesgo del modelo también está relacionado con los grupos demográficos y los temas de estereotipos mencionados en las indicaciones del usuario.
En cuanto a los problemas de filtración de privacidad, los estudios han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En algunos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Además, el modelo también puede filtrar información privada de los historiales de conversación. Aunque GPT-4 es más robusto que GPT-3.5 en la protección de la información de identificación personal (PII), ambos modelos son propensos a filtrar varios tipos de PII cuando se enfrentan a demostraciones de filtración de privacidad.
El equipo de investigación enfatiza que este trabajo tiene como objetivo alentar a más investigadores a participar y prevenir conjuntamente el uso malintencionado de vulnerabilidades potenciales. Esperan que esta evaluación sirva como punto de partida para crear modelos más robustos y confiables, y dan la bienvenida a otros actores a continuar sus esfuerzos sobre esta base. Para fomentar la colaboración, el código de referencia que desarrollaron tiene una buena escalabilidad y facilidad de uso.