最近報道などでもしばしば目にするようになった「デジタルフォレンジック」だが、日本に本格的に導入されるようになってから15年程度になる。これまでの間に起きた最も大きな変化はデータ量の爆発的な増加である。この大きな変化に対応するために徐々に使われるようになってきたのが人工知能(AI)である。
不正調査の現場で最も使用頻度の高いデジタルフォレンジックの取り組みは、電子メールやドキュメントなどの電子データに対してキーワード検索をかけ、ヒットしたドキュメントを人の目によりレビュー(確認)することで証拠となる情報を特定するものである。
デジタルフォレンジックが日本で使われ始めた2000年代前半、企業で生成され保存された電子データの量はそれほど多くはなく、集めたデータを全件レビューすることも不可能ではなかった。しかし現在、クラウド環境の拡大などにより、企業や個人が保有するデータ量は爆発的に増加している。また、企業の業務プロセスがデジタル化されたことで、企業で日々生成されるデータ量についても指数関数的に増加している。
このようなデータ量が爆発的に増加する環境下でも「デジタルフォレンジック」を実施できたのは、調査ツールを実行するコンピューターのハードウエアの性能向上によるところが大きい。意外と思われるかもしれないが、デジタルフォレンジックの世界でAIは、他の業界と比べると急速に普及したとも、業界に大きな技術的な革新をもたらしたとも必ずしも言えない。
その背景には、調査業務においてAIのようなブラックボックス化されたテクノロジーは受け入れられないという事情があるためだ。システムが証拠として分類したデータが、どのようなアルゴリズムに基づいて特定されたのかを明確に説明できなければ、調査業務への使用に値する信頼性のあるシステムとして法廷や当局には受け入れてもらえない。
とはいえ、AIの活用も徐々にだが進んでいる。その一つが、AIの一種である機械学習を使って明確なアルゴリズムに基づいて設計したシステムで、比較的長期間にわたって使われてきている。
デジタルフォレンジックで使われるAIとは、膨大なデータの中から証拠となるファイルを人に代わってピンポイントで特定していくようなものではない。機械学習システムが学んだ専門家の判断基準を基に、大量なデータを関係ありそうなものとそうでないものとに仕分けるために使われる。
この仕分け作業を全て人が行うには、大人数で膨大な時間をかけ全てのドキュメントに目を通していく必要がある。しかし、機械学習システムを使えば、まず少数のサンプルファイルに少人数の専門家が目を通してAIに判断基準を教えこませ、その結果AIが出力した結果を少人数で品質管理すれば、仕分け作業が可能となる。
これにより、調査の初めにしなければならない単純なデータの仕分け作業を、少人数で短時間で行うことができる。
デジタルフォレンジックにおけるAIの役割は、時間ばかりがかかる単純作業から人を解放し、より価値のある業務に従事できるようにサポートすることである。最近では、自然言語処理(NLP)などの発展とAIの効果的な使用により、より高度な仕分け作業が可能なシステムも出てきており、調査の効率化に寄与している。