# 言語モデルの信頼性評価: 新しい研究が潜在的な脆弱性を明らかにするイリノイ大学アーバナ・シャンペーン校は、複数の著名な大学や研究機関と協力して、大型言語モデル(LLMs)の信頼性を包括的に評価するプラットフォームを開発しました。このプラットフォームは、GPTなどのモデルを多角的に体系的に評価することを目的としており、最新の論文「DecodingTrust: GPTモデルの信頼性の包括的評価」に詳しく紹介されています。研究では、信頼性に関連するいくつかの未公開の脆弱性が発見されました。例えば、GPTモデルは有害で偏見のある出力を生成しやすく、トレーニングデータや対話履歴に含まれるプライバシー情報を漏洩する可能性もあります。また、標準ベンチマークテストではGPT-4が通常GPT-3.5よりも信頼性が高いですが、悪意のある設計のプロンプトに直面した際、GPT-4は逆に攻撃を受けやすくなる可能性があります。これは、誤解を招く指示に対してより厳密に従うためかもしれません。この研究は、GPTモデルを8つの信頼性の観点から包括的に評価しました。これには、異なる信頼性の側面におけるモデルのパフォーマンスと、対抗的な環境における適応能力が含まれます。評価は、さまざまなシナリオ、タスク、指標、およびデータセットをカバーしています。対抗的なテキスト攻撃に関して、研究チームは3つの評価シナリオを構築しました: 標準ベンチマークのAdvGLUEテスト、異なる指導タスク説明を持つAdvGLUEテスト、および独自に開発したより挑戦的なAdvGLUE++テストです。これらのテストは、モデルの既存の攻撃に対する脆弱性、異なるモデルのロバスト性の比較、攻撃が指示遵守能力に与える影響、および現在の攻撃戦略の転移性などを評価することを目的としています。研究によると、GPTモデルは対抗的なデモに対して一定のロバスト性を示しますが、いくつかの限界も存在します。例えば、GPT-3.5およびGPT-4は反事実的な例に惑わされることはなく、むしろそこから利益を得ることができます。しかし、反詐欺デモを提供すると、特にこれらのデモがユーザー入力に近い場合、モデルが反事実的な入力に対して誤った予測を行う可能性があります。毒性や偏見の観点から、GPTモデルは良性のプロンプトの下でほとんどのステレオタイプテーマに対する偏りが少ない。しかし、誤解を招くシステムプロンプトの下では、両方のモデルが偏ったコンテンツを生成する可能性がある。GPT-4はGPT-3.5よりもターゲットを絞った誤解を招くプロンプトの影響を受けやすく、これはそれがこれらの指示により厳密に従っているためかもしれない。モデルの偏りは、ユーザープロンプトに記載された人口集団やステレオタイプテーマに関連している。プライバシー漏洩の問題に関する研究では、GPTモデルがトレーニングデータに含まれる敏感な情報、例えばメールアドレスを漏洩する可能性があることが明らかになりました。特定のケースでは、補足知識を利用することで情報抽出の正確性を大幅に向上させることができます。さらに、モデルは対話の履歴に含まれる個人情報を漏洩する可能性もあります。GPT-4は個人識別情報(PII)の保護においてGPT-3.5よりも堅牢ですが、両モデルはプライバシー漏洩のデモに直面した際には、さまざまなPIIを漏洩する傾向があります。研究チームは、この作業がより多くの研究者を参加させ、潜在的な脆弱性が悪用されるのを共同で防ぐことを目的としていると強調しています。彼らはこの評価がより強力で信頼できるモデルを作成するための出発点となることを望んでおり、他の関係者がこの基盤の上に努力を続けることを歓迎しています。協力を促進するために、彼らが開発したベンチマークコードは優れた拡張性と使いやすさを備えています。
言語モデルの信頼性評価が新たな脆弱性を明らかにし、GPT-4はより誤解されやすい可能性がある
言語モデルの信頼性評価: 新しい研究が潜在的な脆弱性を明らかにする
イリノイ大学アーバナ・シャンペーン校は、複数の著名な大学や研究機関と協力して、大型言語モデル(LLMs)の信頼性を包括的に評価するプラットフォームを開発しました。このプラットフォームは、GPTなどのモデルを多角的に体系的に評価することを目的としており、最新の論文「DecodingTrust: GPTモデルの信頼性の包括的評価」に詳しく紹介されています。
研究では、信頼性に関連するいくつかの未公開の脆弱性が発見されました。例えば、GPTモデルは有害で偏見のある出力を生成しやすく、トレーニングデータや対話履歴に含まれるプライバシー情報を漏洩する可能性もあります。また、標準ベンチマークテストではGPT-4が通常GPT-3.5よりも信頼性が高いですが、悪意のある設計のプロンプトに直面した際、GPT-4は逆に攻撃を受けやすくなる可能性があります。これは、誤解を招く指示に対してより厳密に従うためかもしれません。
この研究は、GPTモデルを8つの信頼性の観点から包括的に評価しました。これには、異なる信頼性の側面におけるモデルのパフォーマンスと、対抗的な環境における適応能力が含まれます。評価は、さまざまなシナリオ、タスク、指標、およびデータセットをカバーしています。
対抗的なテキスト攻撃に関して、研究チームは3つの評価シナリオを構築しました: 標準ベンチマークのAdvGLUEテスト、異なる指導タスク説明を持つAdvGLUEテスト、および独自に開発したより挑戦的なAdvGLUE++テストです。これらのテストは、モデルの既存の攻撃に対する脆弱性、異なるモデルのロバスト性の比較、攻撃が指示遵守能力に与える影響、および現在の攻撃戦略の転移性などを評価することを目的としています。
研究によると、GPTモデルは対抗的なデモに対して一定のロバスト性を示しますが、いくつかの限界も存在します。例えば、GPT-3.5およびGPT-4は反事実的な例に惑わされることはなく、むしろそこから利益を得ることができます。しかし、反詐欺デモを提供すると、特にこれらのデモがユーザー入力に近い場合、モデルが反事実的な入力に対して誤った予測を行う可能性があります。
毒性や偏見の観点から、GPTモデルは良性のプロンプトの下でほとんどのステレオタイプテーマに対する偏りが少ない。しかし、誤解を招くシステムプロンプトの下では、両方のモデルが偏ったコンテンツを生成する可能性がある。GPT-4はGPT-3.5よりもターゲットを絞った誤解を招くプロンプトの影響を受けやすく、これはそれがこれらの指示により厳密に従っているためかもしれない。モデルの偏りは、ユーザープロンプトに記載された人口集団やステレオタイプテーマに関連している。
プライバシー漏洩の問題に関する研究では、GPTモデルがトレーニングデータに含まれる敏感な情報、例えばメールアドレスを漏洩する可能性があることが明らかになりました。特定のケースでは、補足知識を利用することで情報抽出の正確性を大幅に向上させることができます。さらに、モデルは対話の履歴に含まれる個人情報を漏洩する可能性もあります。GPT-4は個人識別情報(PII)の保護においてGPT-3.5よりも堅牢ですが、両モデルはプライバシー漏洩のデモに直面した際には、さまざまなPIIを漏洩する傾向があります。
研究チームは、この作業がより多くの研究者を参加させ、潜在的な脆弱性が悪用されるのを共同で防ぐことを目的としていると強調しています。彼らはこの評価がより強力で信頼できるモデルを作成するための出発点となることを望んでおり、他の関係者がこの基盤の上に努力を続けることを歓迎しています。協力を促進するために、彼らが開発したベンチマークコードは優れた拡張性と使いやすさを備えています。