Evaluasi keandalan model bahasa mengungkapkan celah baru, GPT-4 mungkin lebih mudah disesatkan.

robot
Pembuatan abstrak sedang berlangsung

Penilaian Keandalan Model Bahasa: Penelitian Baru Mengungkap Kerentanan Potensial

Universitas Illinois di Urbana-Champaign telah bekerja sama dengan berbagai universitas dan lembaga penelitian terkemuka untuk mengembangkan sebuah platform yang secara komprehensif menilai keandalan model bahasa besar (LLMs). Platform ini bertujuan untuk melakukan penilaian sistematis terhadap model-model seperti GPT dari berbagai sudut pandang, dan dijelaskan secara rinci dalam makalah terbaru "DecodingTrust: Penilaian Komprehensif terhadap Keandalan Model GPT."

Penelitian telah menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT cenderung menghasilkan output yang berbahaya dan bias, serta mungkin mengungkapkan informasi pribadi dari data pelatihan dan riwayat percakapan. Selain itu, meskipun dalam pengujian standar GPT-4 biasanya lebih andal dibandingkan GPT-3.5, tetapi ketika dihadapkan pada prompt yang dirancang dengan jahat, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.

Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari 8 perspektif keandalan, termasuk kinerja model dalam berbagai aspek keandalan, serta kemampuannya beradaptasi dalam lingkungan yang bersifat agresif. Evaluasi mencakup berbagai skenario, tugas, indikator, dan dataset.

Dalam hal serangan teks yang bersifat antagonistik, tim peneliti membangun tiga skenario evaluasi: pengujian AdvGLUE standar, pengujian AdvGLUE dengan instruksi tugas yang berbeda, dan pengujian AdvGLUE++ yang lebih menantang yang dikembangkan secara mandiri. Pengujian ini bertujuan untuk mengevaluasi kerentanan model terhadap serangan yang ada, perbandingan ketahanan berbagai model, dampak serangan terhadap kemampuan mengikuti instruksi, serta transferabilitas strategi serangan saat ini.

Penelitian menunjukkan bahwa model GPT menunjukkan ketahanan tertentu dalam menghadapi demonstrasi yang bersifat antagonis, tetapi juga memiliki beberapa keterbatasan. Misalnya, GPT-3.5 dan GPT-4 tidak akan tertipu oleh contoh kontra-faktual, bahkan dapat mengambil manfaat dari situasi tersebut. Namun, memberikan demonstrasi anti-penipuan dapat menyebabkan model membuat prediksi yang salah terhadap input kontra-faktual, terutama ketika demonstrasi tersebut mendekati input pengguna.

Dalam hal toksisitas dan bias, model GPT memiliki deviasi yang lebih kecil terhadap sebagian besar tema stereotip di bawah petunjuk yang baik. Namun, di bawah petunjuk sistem yang menyesatkan, kedua model tersebut dapat menghasilkan konten yang bias. GPT-4 lebih mudah dipengaruhi oleh petunjuk menyesatkan yang ditargetkan dibandingkan GPT-3.5, mungkin karena ia lebih ketat mengikuti instruksi tersebut. Bias model juga terkait dengan kelompok populasi dan tema stereotip yang disebutkan dalam petunjuk pengguna.

Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dari data pelatihannya, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Selain itu, model juga mungkin membocorkan informasi pribadi dari riwayat percakapan. Meskipun GPT-4 lebih kuat dalam melindungi informasi identitas pribadi (PII) dibandingkan dengan GPT-3.5, kedua model tersebut rentan terhadap kebocoran berbagai jenis PII ketika menghadapi demonstrasi kebocoran privasi.

Tim penelitian menekankan bahwa pekerjaan ini bertujuan untuk mendorong lebih banyak peneliti untuk berpartisipasi dalam mencegah potensi kerentanan dieksploitasi secara jahat. Mereka berharap evaluasi kali ini dapat menjadi titik awal untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya, dan mereka menyambut baik pihak lain untuk terus berupaya berdasarkan ini. Untuk memfasilitasi kolaborasi, kode acuan yang mereka kembangkan memiliki skalabilitas dan kemudahan penggunaan yang baik.

GPT7.13%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 8
  • Bagikan
Komentar
0/400
DogeBachelorvip
· 9jam yang lalu
GPT4 saya sayang sekali... turun tidak ada habisnya
Lihat AsliBalas0
PerpetualLongervip
· 08-05 10:24
Ini semua adalah fud yang sengaja dilepaskan oleh kekuatan posisi short! buy the dip naikkan posisi ing 🚀 jika turun lagi akan Semua
Lihat AsliBalas0
NFTFreezervip
· 08-03 09:18
Ah, gpt4 juga tidak lebih baik dari ini.
Lihat AsliBalas0
UnluckyLemurvip
· 08-03 09:18
GPT lebih mudah ditipu daripada manusia, bagaimana bisa?
Lihat AsliBalas0
GasFeeVictimvip
· 08-03 09:14
Sekali lagi mulai Dianggap Bodoh ya
Lihat AsliBalas0
RiddleMastervip
· 08-03 09:07
Tertawa sampai mati, generasi keempat dibohongi sampai pincang.
Lihat AsliBalas0
LiquidationWatchervip
· 08-03 08:57
gpt-4 hancur... sama seperti portofolio saya di 2022 smh
Lihat AsliBalas0
ProxyCollectorvip
· 08-03 08:50
Apakah mendengarkan itu hal yang baik atau buruk?
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)