AIの責任性、「公平性」、「堅牢性」に関する調査 - NRIの先進テクノロジーに関する取り組み｜atlax/アトラックス｜野村総合研究所(NRI)

IT基盤技術戦略室

小売・製造、金融・公共をはじめ、幅広い業界において「先進技術を活用してビジネスモデルを変革(DX)し、お客さまへ価値提供していきたい」というテクノロジー活用への期待が高まっています。一方、その期待に反して、技術変化のスピードが速く、技術キャッチアップやその活用が難しいといった悩みもお聞きします。

そのような声にお応えするため、株式会社野村総合研究所（NRI）では「潜在的な顧客ニーズ発の技術調査」「技術動向を見据えた先進技術の早期評価」「獲得した技術の事業適用」に継続的に取り組んでいます。このような活動を通して、NRIは専門知識を用いて企業様のビジネスとテクノロジーの架け橋となり、DX実現まで伴走します。

このブログでは、NRIで推進している先進的な技術獲得の取り組みについて、ご紹介していきます。今回は、「AIシステムの「公平性」と「堅牢性」の実現を支える合成データ」に関する調査研究の成果をピックアップしました。

AIシステムの「公平性」と「堅牢性」の実現を支える合成データ

AIの実現方法の１つとして機械学習があります。機械学習では膨大なデータを学習しますが、その学習データに偏りや不足がある場合は、AIは偏った判断をする可能性があります。例えば、特定の属性を多く持つデータを学習データとして利用した場合は、AIの判断も特定の属性で偏りが生じます。また実社会では発生頻度が低くデータの確保が難しい場合は、学習データが不足するため、AIはレアケースを判断することが難しくなります。

AIのこのような性質を考慮した上で、品質を保つための考え方の中に、「公平性」と「堅牢性」があります。「公平性」とは、AIの公平さに関する弊害を可能な限り検出し、軽減することを目標としています。公平さは、さまざまな歴史的・社会的・文化的な背景から形成されるため、全体として一意に定義したり、公平性を保証することは困難です。特定の指標に対し集団間の差異を減らしていくことが重要です。しかし、社会そのものに公平さの問題が内在するため、社会の実データをAIがそのまま学習すると公平性を欠く可能性があります。例えば、男性の採用履歴が多いデータをAIが学習した場合、AIは女性の応募者評価を下げる可能性があります。また時代とともにその指標も変わるため、AIシステムの導入時だけではなく、運用時もモニタリングし問題を検知した場合は対処する仕組みを有することも大切です。

一方、「堅牢性」とは、AIがどのような状況下でも品質を維持できることです。つまりAIシステムの「品質の堅さ」です。例をあげますと、晴れの日に撮影されたセダンの画像も、台風の日に撮影されたミニバンの画像も、「車」と判断されることです。気象や車種をとっても多種多様な条件があるため、全ての条件を満たす学習データを社会の実データから集めることは多くの時間と労力を要します。AIの「堅牢性」を保つためには、学習データの被覆性^※1、均一性^※2が大切です。しかし、これらの性質をもつデータを実社会から収集することは容易ではありません。

そこで、注目されている技術が「合成データ」です。
「合成データ」とは、「元データや元データの特徴・構造を再現するように人為的に生成されるデータ」^※3のことです。実在のデータを使う必要がないためバイアスを取り除くことができ公平性を高める効果や、レアケースのデータ生成も可能であるため品質確保も期待されています。

「合成データ」はどのように作成するのでしょうか。NRIでは、合成データ作成の工程とパターンを整理しました(図1)。合成データの作成は、パーツ作り、合成、バリエーション、ラベリングの４つの工程で行います。まず、「パーツ作り」の工程では、合成データを構成する各パーツのデータを写真撮影やモデリングツールなどを活用して作成します。ベンダーよりデータを購入することも可能です。次に、「合成」の工程では、各パーツのデータの組み合わせやアニメーションの追加（合成）を行います。そして、「バリエーション」の工程では、合成したデータの角度や配色など様々な条件を変えたデータを大量に生成します。最後に、「ラベリング」の工程では、生成したデータに対して属性（アノテーション）を付与します。

合成データ作成の上記工程を行うにあたり、その方法（パターン）は４つに分類されます（図1）。品質とコストのバランスを考慮し、最も生産性の高いパターンを選択することが望ましいです。生成したい合成データがサービス提供されている場合やAI活用が可能である場合は、これらを利用することが合理的です（パターン①②）。例えば、自動運転や工場のライン等の合成データは、サービスから提供されています。一方で、サービス提供やAI活用で生成される合成データは汎用的なものが主であるため、レアケースや個別用途の場合は作りこむ必要があります（パターン③④）。この場合、個々の製品知識やスキルを要するためコスト高になる傾向がありますが、細部までカスタマイズが可能です。

NRIでは、これらの作成パターンの各工程における、製品・手法の調査、比較検証も行っています。製品・手法は、ベンダーからの提供やOSS、3Dモデリングやシミュレーションが得意なもの、AIやファインチューニングを組み合わせたもの等、さまざまなものがあり、それぞれ特徴があります。今回は、AIの「公平性」と「堅牢性」の実現を支える「合成データ」作成の調査研究の一部についてご紹介しました。今後も、NRIでは、この分野での最新の動向をキャッチアップ、調査・検証を通じ、安全・安心なAIの活用を推進していきます。

※1 被覆性：「対応すべき状況の組み合わせ」の各々に対して、状況の抜け漏れがなく、十分な量のデータが与えられていること。（機械学習品質マネジメントガイドライン第3版より抜粋）

※2 均一性：データセット内の各状況や各ケースが、入力されるデータ全体におけるそれらの発生頻度に応じて抽出されていること。（機械学習品質マネジメントガイドライン第3版より抜粋）

※3 欧州データ保護監察官HP （https://edps.europa.eu/press-publications/publications/techsonar/synthetic-data_en）より翻訳

[関連キーワード] #AI（人工知能） #公平性 #堅牢性 #クリエイティブ