{{item.title}}
{{item.text}}
{{item.title}}
{{item.text}}
過去2回のコラム(「AIサービスを取り巻く環境とAIレッドチームの必要性」、「AIレッドチームに関する世界の動向」)では、AIサービス特有のリスクおよび世界の規制強化の側面から、「AIレッドチーム」の必要性に迫りました。
本稿では「AIレッドチーム」が具体的にどのように機能するかを解説します。
「AIレッドチーム」とは、AIを利用したサービスに対して、リスク起因者(サイバー攻撃者、犯罪者、愉快犯など)の立場からエンジニアが高度な疑似攻撃を行うことで、脆弱性とそれに伴うビジネスリスクを特定する組織や取り組みを指します。
AIサービスのインシデントを未然に防ぐため、リリース前や運用中に脅威を評価し、脆弱性・リスクを特定し、効果的なセキュリティ対策を講じることを目的として実施します。
「AIレッドチーム」でテストする疑似攻撃として「Data poisoning attack(データポイズニング攻撃)」、「Membership inference attacks(メンバーシップ推論攻撃)」を紹介します。
Data poisoning attack(データポイズニング攻撃)とは、攻撃者が不正なデータを学習データへ直接または間接的に注入することで、学習したAIの出力結果にバイアス、エラーを誘発したり、AIモデルの意思決定や予測機能の精度に負の影響を与えたりする攻撃を指します。学習データへの不正なデータの注入は、AIの学習データへ直接アクセスして注入するケースや、AIモデルを生成する際のデータセットとなる外部ソースのオンラインデータセットやウェブサイトに不正なデータを注入しておくケースなどが存在します。
例えば、自動運転システムで用いられているAIに対してこの攻撃が成立した場合、汚染されたデータで学習することによりAIのモデル精度が低下し、車両の制御に悪影響をもたらして深刻な事故の発生につながる可能性があります。これと同様の事象は、ヘルスケア業界、金融業界などのサービスで使用するAIにおいても発生する可能性があります。
学習データを過学習すると、AIに入力したデータが学習データに含まれる場合とそうでない場合に、AIの応答結果の特徴が異なる(信頼度スコアの偏り)ことが知られています。Membership inference attacks(メンバーシップ推論攻撃)とは、攻撃者がこの特徴を悪用して、入力データが学習データに含まれているか否かを推測する攻撃です。
例えば、医療の研究などの目的で患者の病歴などのデータを学習させているAIサービスに対し、この攻撃が成立した場合、特定の患者が学習データに含まれることが推測され、病歴などが攻撃者に知られてプライバシー侵害事案に発展する可能性があります。
「AIレッドチーム」では、このような脅威事象が成立し得るかエンジニアが疑似攻撃をしかけ、リスクを特定します。
次に「AIレッドチーム」の代表的なアプローチを紹介します。
「AIレッドチーム」で効果的な成果を挙げるためには次の点が重要と考えられます。
AIリスクは「技術リスク」に留まることなく、「法律リスク」や「倫理リスク」と多岐にわたります。そのため、AIシステムの「技術リスク」のみに視点を当ててテスト計画を立案すると、「法律リスク」「倫理リスク」などを想起できず、テスト計画から蓋然性のあるリスクシナリオが漏れてしまう懸念が生じます。
AIの不正利用に伴って考慮すべきリスクとインパクトは、そのビジネスユースケースに依存するため、AIシステムのみに視点を当てるのではなく「ビジネスユースケース」から想起されるリスクシナリオを特定できるかが重要です。
AIは確率的プロセスに基づいて動作するなど、仕組み・挙動・脆弱性を生むポイントなどが従来のITサービスとは異なります。また、AIに関する新たな攻撃手法は日々発見・報告されています。このためAIサービスのリスク特定に求められる専門性やその手法も従来のITサービスとは異なります。AI独自のリスクを効果的に特定するためには、AIに精通するエンジニアによるテストが必要不可欠と言えるでしょう。
検出された課題に対して対症療法となる対策のみを講じるのではなく、将来的にリスクを生みづらい管理態勢の整備や全体最適を踏まえたROIの高い対策などを検討することも重要です。例えば、課題の表面だけを見て直接的な実装レベルの対策(例:入出力のフィルター)のみを行うのではなく、AIガバナンスの整備・改善、MLOps(Machine Learning Operations)の改善・高度化も含めサービス設計、実装、運用と多角的に対策を検討していくことが重要です。
上記のポイントを考慮すると、一般的に「AIレッドチーム」を既存の内部リソースのみで実施することは容易ではありません。「AIレッドチーム」の実施にあたっては、AIリスクを効率的・効果的に特定するために、外部リソースの活用も検討すべきでしょう。