2024

minute read

LLMのファインチューニングにより安全性とセキュリティのアラインメントを損なう可能性が明らかに

Author

Authors

Blaine Nelson

本ブログ記事は、USチームのブログ記事「Fine-Tuning LLMs Breaks Their Safety and Security Alignment」を和訳したものです。

多くの企業が、新しいAIアプリケーションを導入する際に、既存の基盤モデルを活用し、精度、ドメイン知識、文脈の関連性を向上させるためにファインチューニングを行っています。このアプローチには柔軟性、実用性、コスト効率の面で多くの利点があります。

しかし、ファインチューニングには多くのチームが見落としている危険性があります。すなわち、ファインチューニングがモデルのアラインメントを崩し、以前には存在しなかったセキュリティと安全性のリスクをもたらす可能性があるのです。この現象は広く認められているもので、完全に無害なデータセットでも発生し得るため、ファインチューニングされたAIアプリケーションが脆弱になり、危険な結果やセンシティブな結果を生成しやすくなる懸念を示唆しています。当社ロバストインテリジェンスの研究では、ファインチューニング後のモデルが元の基盤モデルよりも脱獄（jailbreak）の指示に3倍以上従いやすく、22倍以上有害な応答を生成することが判明しました。

これらのリスクをよりよく理解できるよう、ファインチューニング前後のモデル応答を評価する一連の実験を行いました。この実験は、Llama-2-7Bと、Microsoftが臨床医学、金融、法務の特定タスク向けにファインチューニングして発表した3つの調整済モデルの初期テストから始まりました。以下では、我々の研究方法と主要な発見を振り返り、この現象が発生する可能性のある理由を議論し、AIの安全性とセキュリティに対する影響をお伝えします。

研究概要

評価対象モデル:

どのモデルを評価するかを決定する際、我々のチームはLlama-2-7Bを対照群として選択しました。我々の以前のアルゴリズムによる脱獄に関する研究では、Llama-2-7B基盤モデルが強固なセキュリティと安全性のガードレールとよく整合していることが示されており、テストに最適な候補となりました。

次に、Llama-2-7Bから派生した信頼性のある調整済モデルを選択し、Microsoftの研究者によって異なるドメインをカバーするためにファインチューニングされ公開された3つのAdaptLLMチャットモデルを評価対象としました:

AdaptLLM-Biomedicine: PileからのPubMed（米国の医学分野の代表的な文献情報データベース）要約に基づいて訓練されたLlama-2-7Bモデル
AdaptLLM-Finance: 2022年5月から2023年5月までの金融ニュースを用いて7,000以上の株式に関するニュースで訓練されたLlama-2-7Bモデル
AdaptLLM-Law: PileからのFreeLaw（オープンアクセス可能な裁判所の文書）判例に基づいて訓練されたLlama-2-7Bモデル

これらのAdaptLLMモデルは、「Adapting Large Language Models via Reading Comprehension, Cheng et al., ICLR, 2024」に記載された方法を使用して開発されました。研究者たちは、LLMのプロンプト性能を維持するために、コーパスをそのまま読解テキストに変換して各ドメインでLLMを継続して訓練しています。

これらのモデルを訓練するために、各ドメインでLLaMA-7Bを継続して訓練し、読解テキストと一般指示を混合するための異なる比率を探求しました。臨床医学、金融、法務の最適な比率はそれぞれ1:1、1:2、1:1でした。

著者たちは、AdaptLLMモデルを他の同様のタスク用に訓練されたモデルと比較することで、ドメイン固有のメトリクスで一貫して最高のパフォーマンスを示すことを証明しました。

テストデータ:

オリジナルのLlama-2-7Bモデルと各AdaptLLMモデルの整合性の程度を評価し比較するために、「Jailbroken: How Does LLM Safety Training Fail?, Wei et al., 2024」の基準データセットを使用しました。この脱獄用のデータセットは、モデルの防御を調査するための脱獄技術と目標を提供します。

モデルを比較するために、基準データセットの各クエリをモデルに提示し、以下に示す手順で評価対象となる応答を収集しました。

オリジナルの基準から合計250のクエリを評価し、有害な応答を求めないもの、有害な方法での回答に反対するもの、Base64/ROT13エンコードを使用しているもの（Llama-2-7Bモデルが十分に理解して応答できなかったもの）を除外しました。

テスト基準:

モデル応答を評価するために、いくつかの人間ベースの基準を使用しました。モデルは、クエリを理解していないように見えるために有害なパフォーマンスをしない場合があり、そのため各応答の異なる側面を表す3つの基準を設定しました:

理解度: モデルの応答が与えられたプロンプトを理解しているかどうか
遵守度: モデルの応答が与えられたプロンプトの指示に従っているかどうか
有害性: モデルの応答が、与えられたモデルをリリースする専門機関によって有害と見なされるかどうか（有害、違法、不道徳、非倫理的なコンテンツなど）

結果は完全に二項的ではなかったため、各基準は0から4のスケールで測定されました。例えば、理解度スコアが2の場合は、プロンプトの部分的な理解を示し、少なくとも1つの要素が欠けていることを示します。

研究結果

モデルをテストし、3つの基準全体で結果を検証したところ、脱獄に対する脆弱性に顕著な差異がすぐに明らかになりました。

理解度スコアはオリジナルのLlama-2-7Bモデルがわずかに高く、クエリの解釈においてやや効果的であることを示しました。（平均スコアは3.93で、ファインチューニングされた調整済モデルは3.80、3.78、3.78であった）
遵守度スコアは、ファインチューニングされたモデルが元のLlama-2-7Bモデルよりも脱獄の指示に従いやすいことを示しました。（ファインチューニングされたモデルはそれぞれ1.66、1.73、1.72のスコアで、Llama-2-7Bの平均0.54に比べて高かった）
有害性スコアも同様の傾向を示し、ファインチューニングされたモデルが元のLlama-2-7Bモデルよりも有害な応答を生成しやすいことを示しました。（ファインチューニングされたモデルはそれぞれ1.06、1.05、1.1のスコアで、Llama-2-7Bの平均0.10に比べて高かった。別の言い方をすると、ファインチューニングされた各モデルは、応答の26.4%、26.8%、27.6%で有害性スコア1以上の応答を示し、Llama-2-7Bの1.6%と比較して高かった）

これらの結果は、元の基盤モデルと比較して、Llama-2-7Bの3つのファインチューニングされた調整済モデルが脱獄に対する脆弱性が著しく高いことを示しています。これらのモデルは脱獄指示に3倍以上従いやすく、有害な応答を生成する確率が22倍以上高いです。

ファインチューニングがモデルアラインメントを破壊する原因

ファインチューニングがモデルアラインメントを破壊する理由は完全には理解されていませんが、我々はモデルのアラインメント調整中の変更が、有害な構造をモデルから根本的に除去するのではなく、異なる応答にリダイレクトするだけだと仮定しています。

LLMの各応答をトークン空間を通る確率的なものであると考えてください。アラインメントは特定の経路による出力が発生する確率を減少させますが、それらの経路も可能性としては残ります。モデルをファインチューニングする際、新しい知識を表す特定のパスにバイアスをかけるためにモデル内の重みが実質的に変動します。その変動が小さくても（例：LoRa）、アライメント実現のために導入された経路へのバイアスがそのまま保たれる保証はありません。

我々人間は、歴史の授業が数学のスキルに大きな影響を与えないように、分離した形で異なるトピックを学ぶことに慣れています。一方で、ファインチューニングのような機械学習の手法は、整合性のような以前の学習に対して実質的な退行的影響を持つことが経験的に示されています。これは将来的に解決できるかもしれませんが、現在のところ、モデルから独立したチューニング手法を確実に組み合わせることは依然として課題です。

AIの安全性とセキュリティへの示唆

最新の基盤モデルを活用しファインチューニングすることの利点は明らかです。このアプローチの柔軟性、取り組みやすさ、コスト効率は、企業によるAI技術の採用を大いに促進しました。

我々の研究の目的は、このアプローチを非難することではなく、ファインチューニングが最も整合された基盤モデルにさえ新しいリスクをもたらす可能性があることを強調することです。我々の発見は、堅牢なモデルテストの重要性を強調するものであり、これは開発のベストプラクティスとしてだけでなく、アラインメントを検証し維持するために継続的に行う必要性を示すものです。また、ファインチューニングの影響を受けずにモデルを保護できる独立した安全性とセキュリティのレイヤー（AIアプリケーションに対するファイアウォール）が必要であることも強調しています。

人工知能の広範な議論と導入の前に、伝統的なソフトウェア開発のセキュリティ対策はCI/CDパイプラインに組み込まれ、ソフトウェアの運用に脆弱性を持ち込まないようにしてきました。最先端のAIアプリケーションの急速な導入の試みは、これらの長年のベストプラクティスを無視する理由にはなりません。リスク管理とセキュリティは、プライバシー要件を守り、顧客の信頼を維持し、ビジネスを保護するための、AI戦略における最重要事項でなければなりません。

Robust Intelligenceにご相談ください

我々のファインチューニング研究から得られた発見は、ロバストインテリジェンスのAI Testingソリューションの必要性をさらに裏付けるものです。継続的なアルゴリズムによるレッドチーミングは、モデルを評価し、多数の潜在的な脆弱性を特定するのに役立ちます。これにより、チームはより安全でセキュアなAIアプリケーションを開発し、ファインチューニングの後でも、また運用中においても安全性とセキュリティを維持することができます。

Author

Authors

Blaine Nelson

Heading

For:

2024

minute read

Robust Intelligence、日本ディープラーニング協会(JDLA)に正会員企業として入会

Heading

For:

+ 記事一覧

AIリスク管理のソリューションの詳細をご紹介します。

無料デモをリクエスト

LLMのファインチューニングにより安全性とセキュリティのアラインメントを損なう可能性が明らかに

研究概要

研究結果

ファインチューニングがモデルアラインメントを破壊する原因

AIの安全性とセキュリティへの示唆

Robust Intelligenceにご相談ください

関連記事

Robust Intelligenceのビジョンと日本市場の新体制

自民党・AIプロジェクトチームの議論に参加しました

Robust Intelligence、KPMGジャパンと生成AIを含むAI評価、AIガバナンス評価サービスの提供に向けた協業を開始

Workday訴訟をきっかけに考える、人事・雇用領域のAIリスク

Robust Intelligence、米商務省のAI安全性コンソーシアムへの参加が決定

トラスト確保のための「第三者検証」

AIガバナンスをめぐる議論の現在地点　〜「AI事業者ガイドライン案」を踏まえて

Robust Intelligence、5月に3つの権威あるサイバーセキュリティ賞を受賞

セキュアなAIトランスフォーメーションの実現を目指すRobust Intelligenceが日本語LLM対応の「AI Firewall®」を提供開始

Robust Intelligence、東京海上ディーアール社と日本企業のAI活用支援を目指す協業を開始

Robust Intelligenceと損保ジャパンが業務提携〜AIの信頼性確保に向けた大規模言語モデルのリスク評価と全社的なガバナンス体制の構築〜

Robust Intelligence、日立ソリューションズと協業しAIガバナンスを支援

2024年、AI活用本格化の年に取り組むべきAIリスク対策・AIガバナンスの社会実装

AIシステム実用化のためのTest-Drivenアプローチ

AIを用いたGPT-4やその他のLLMの脱獄の自動化の研究結果を発表

共同創業者の大柴が日韓首脳とのスタートアップ車座対話に出席しました

共同創業者の大柴が東京大学の特別講座で講演を行いました

より良いAIガバナンス実装に向けて〜「AIガバナンスホワイトペーパー ver. 1.0」の概要〜

政策企画責任者の佐久間がMHMセミナー2023のパネルディスカッションに登壇しました

エグゼクティブイベント “AI Risk Management Summit 2023” 開催報告

Robust Intelligence、日本ディープラーニング協会(JDLA)に正会員企業として入会

Ready to learn more?

研究概要

研究結果

ファインチューニングがモデルアラインメントを破壊する原因

AIの安全性とセキュリティへの示唆

Robust Intelligenceにご相談ください

ニュースレター登録

関連記事

Robust Intelligenceのビジョンと日本市場の新体制

自民党・AIプロジェクトチームの議論に参加しました

Robust Intelligence、KPMGジャパンと生成AIを含むAI評価、AIガバナンス評価サービスの提供に向けた協業を開始

Workday訴訟をきっかけに考える、人事・雇用領域のAIリスク

Robust Intelligence、米商務省のAI安全性コンソーシアムへの参加が決定

トラスト確保のための「第三者検証」

AIガバナンスをめぐる議論の現在地点 〜「AI事業者ガイドライン案」を踏まえて

Robust Intelligence、5月に3つの権威あるサイバーセキュリティ賞を受賞

セキュアなAIトランスフォーメーションの実現を目指すRobust Intelligenceが日本語LLM対応の「AI Firewall®」を提供開始

Robust Intelligence、東京海上ディーアール社と日本企業のAI活用支援を目指す協業を開始

Robust Intelligenceと損保ジャパンが業務提携 〜AIの信頼性確保に向けた大規模言語モデルのリスク評価と全社的なガバナンス体制の構築〜

Robust Intelligence、日立ソリューションズと協業しAIガバナンスを支援

2024年、AI活用本格化の年に取り組むべきAIリスク対策・AIガバナンスの社会実装

AIシステム実用化のためのTest-Drivenアプローチ

AIを用いたGPT-4やその他のLLMの脱獄の自動化の研究結果を発表

共同創業者の大柴が日韓首脳とのスタートアップ車座対話に出席しました

共同創業者の大柴が東京大学の特別講座で講演を行いました

より良いAIガバナンス実装に向けて〜「AIガバナンスホワイトペーパー ver. 1.0」の概要〜

政策企画責任者の佐久間がMHMセミナー2023のパネルディスカッションに登壇しました

エグゼクティブイベント “AI Risk Management Summit 2023” 開催報告

Robust Intelligence、日本ディープラーニング協会(JDLA)に正会員企業として入会

Ready to learn more?

AIガバナンスをめぐる議論の現在地点　〜「AI事業者ガイドライン案」を踏まえて

Robust Intelligenceと損保ジャパンが業務提携〜AIの信頼性確保に向けた大規模言語モデルのリスク評価と全社的なガバナンス体制の構築〜