お客様のDXの推進やクラウド活用をサポートする
NRIグループのプロフェッショナルによるブログ記事を掲載

マルチモーダルAIで画像差分チェックを自動化し業務効率化 ~ Amazon Bedrock × Claude Opus 4.8 活用事例 ~

松本雄太

はじめに

こんにちは、NRIでAIソリューションの導入支援を担当している松本です。
「画面キャプチャの比較、500画面分お願いします」—このような依頼を受けたとき、皆さんはどう感じますか? 
5画面なら目視で十分です。しかし数百画面となると話は別です。1画面あたり3分としても、500画面×3分=25時間(丸3日以上)。しかも後半になるほど集中力が落ち、見落としリスクが高まります。
本記事では、この「大量の画像比較を正確に・高速に・低コストで」という課題を、生成AIで解決するアプローチをご紹介します。Amazon Bedrock 上の Claude Opus 4.8 のマルチモーダル機能を使い、2枚のスクリーンショットの差分を自動検知して赤枠で可視化するツールを開発しました。1回の比較が約30円、500画面でも約15,000円・数時間で完了します。

 

「2枚の画像を比べる」— 実はいろいろ使える

本ツールの本質は 「2枚の画像を AI に見比べさせて差分を可視化する」 というシンプルなものです。ブラウザ互換性テストはその一例に過ぎず、「大量の画面を正確に比較したい」場面であれば、どこでも威力を発揮します。

用途

比較対象

比較対象

ブラウザ互換性テスト

Edge vs IEモード

Chrome vs Safari

テキスト折り返し・省略・配置崩れ

デザイン QA

デザイナーが作った画面設計書 vs 開発者が実装した実物画面

デザインからの乖離・実装漏れ

リグレッションテスト

デプロイ前 vs デプロイ後

意図しない表示変更(CI/CDに組込み可)

帳票・PDF 比較

旧システム出力 vs 新システム出力

レイアウト崩れ・項目欠損

多言語対応

日本語版 vs 英語版

翻訳によるテキスト溢れ・はみ出し

SaaS 管理画面の変更監視

昨日の AWS 管理コンソール vs 今日の AWS 管理コンソール

UI の予告なし変更・メニュー配置変更の検知

マニュアル・手順書の陳腐化チェック

手順書に貼った画面キャプチャ vs 現在の画面

「手順書と画面が違う」クレームの事前防止

システム移行の現新比較

旧システム画面 × 数百画面 vs 新システム画面

移行後の表示品質を網羅的に担保


特にシステム移行(マイグレーション)では、数百~数千画面の現新比較が発生します。人手では到底カバーしきれない物量を、AIなら数時間・数万円で網羅できます。
また、AWSやAzureの管理コンソールは予告なくUIが変わることがあり、「運用手順書のスクリーンショットが今の画面と違う」という問題を定期チェックで未然に防ぐ、といったユニークな活用も可能です。
さらに、本ツールの核である「画像を見て該当箇所の座標(バウンディングボックス)を返す」という能力は、画像差分チェック以外にも応用できます。
たとえば、機械学習モデルの学習データ作成における アノテーション作業の補助—大量の画像に対してラベルと座標を半自動で付与する用途にも転用可能です。

AI活用に関するソリューション・事例はこちら

 

課題:目視チェックの限界

ブラウザ互換性テストの一般的なフローは以下の通りです:

  1.  自動テストツール等で Edge / IE モード両方のスクリーンショットを一括取得
  2.  2枚を並べて目視比較し、差異を報告書にまとめる

スクリーンショットの取得自体は自動化できます。問題は その後の比較作業 です。画面数が数百に及ぶシステムでは、差分確認だけで数日〜数週間を要することもあります。しかも、人間の目視では「見落とし」が避けられません。テキストが1行から2行に折り返されるような微妙な差異は、特に検知しにくいものです。

 

ソリューション:生成 AI による画像 DIFF

本ツールは、生成 AI の画像理解能力を活用して、この目視チェック作業を自動化します。

なぜ AI-OCR ベースのアプローチでは不十分か

「OCRで両方の画面のテキストを抽出して、テキスト同士を比較すればいいのでは?」と思われるかもしれません。実は我々も最初にそのアプローチを検討しましたが、以下の理由で ロバストな差分チェックが困難 でした。

AI-OCR アプローチの課題

具体例

アイコン・装飾の誤認識

バッジ(「ゴールド会員」等)やアイコン付きボタンを OCR すると、装飾部分がノイズとなり文字列が壊れる。結果として比較の基準となるテキスト自体が正しく取れない

画面サイズ・縦横比の違い

Edge と IE モードでは画面の描画幅が微妙に異なる。OCR 後に「どのテキストとどのテキストが同じ項目か」を突き合わせるのが困難になる

位置情報の喪失

OCR はテキストを抽出するだけなので「画面のどこが問題か」を示すアノテーションができない。結局、人間が目視で場所を特定する作業が残る

レイアウト情報の欠落

「1行→2行の折り返し」や「横並び→縦並び」といった空間的な変化は、テキスト内容が同じなので OCR 結果では差分として現れない

本ツールは OCR を一切使わず、画像そのものを直接 AI に理解させることで、これらの問題を根本的に解決しています。AI が「人間の目と同じように」画面全体を見て差異を判断するため、テキスト内容が同一でもレイアウトの変化を検知できます。

 

処理フロー



入力画像

Edge:



IEモード:

 

出力結果

AI が検知した問題箇所に赤枠を自動描画した結果です:

検知された差分の例:

  • 「購入者情報」の「氏名」行: 「野村 総研太郎」「ゴールド会員」の表示エリアの高さが Edge と IE モードで異なる(配置が変化)
  • 「配送先」の「住所」: テキストが省略されている
  • 「発送完了メールを送信する」の説明文: 複数行に折り返されている

 

ここがスゴい:3つの技術的ブレイクスルー

1. Claude モデルで正確に座標を返せるようになった

これまで座標情報の取得には物体検知が可能なQwen3 VL 235B A22Bモデルを併用する必要がありましたが、Claude Opus 4.8 では 1モデルで差分の検知から座標の取得まで完結できるようになりました。
Anthropic のビジョン機能の飛躍的な進化により、アーキテクチャがシンプルになり、運用コストも大幅に削減できます。

 

2. 「行の高さ比較」で微妙な差異も見逃さない

検知精度を上げるために試行錯誤した結果、最も効果的だったのは 「各行の縦方向の占有高さを比較する」 というアプローチです。
「要素が横並びか縦並びか」という配置の判定は AI にとって難しいタスクですが、「このエリアの高さは何行分か」という面積の比較は得意です。人間が目視で「なんか行が増えているな」と感じる直感を、AI が再現できるようになりました。

 

3. Amazon Bedrock で安心のエンタープライズ運用

観点

内容

セキュリティ

VPCエンドポイント(AWS PrivateLink)を設定することで、社内のクローズドなネットワーク内で完結。画像データがインターネットに出ない

データ

日本国内(東京リージョン)でデータを処理可能。海外にデータが渡らない

コスト

従量課金。1回の比較 数十円

運用負荷

フルマネージド。サーバー構築・保守が不要

 

まとめ

生成 AI の画像理解能力は、「画像の説明」を超えて 実務の自動化 に使えるレベルに到達しました。ある案件では実際にこの技術を利活用しています。

 

従来(人手)

本ツール

所要時間

1画面あたり数分

数十秒

見落とし

発生しうる

一定の基準で網羅的に検知

コスト

人件費(高い)

API 従量課金(安い)

スケール

担当者の稼働に依存

並列実行で画面数に比例しない

「目で見て確認する」仕事は、AI に任せる時代となりました。 浮いた時間を、より創造的な開発作業に充てていきましょう!

 

atlax公式SNS

各種SNSでも情報を発信しています。ぜひフォローをお願いいたします。

 

     

 

お問い合わせ

atlax では、ソリューション・サービス全般に関するご相談やお問い合わせを承っております。

 

関連リンク・トピックス

・2026/04/23 JSNation US 2025 現地参加レポート!

・2026/05/18 AI活用は「チャット」から「エージェント」へ。推論の転換点に応える「プライベート生成AI/RAG環境」の構築と、その先の「プライベートAIエージェント環境」

※ 記載された会社名 および ロゴ、製品名などは、該当する各社の登録商標または商標です。
※ アマゾン ウェブ サービス、Amazon Web Services、AWS および ロゴは、米国その他の諸国における、Amazon.com, Inc.またはその関連会社の商標です。
※ Microsoft、Azure は、米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です。
※ Google Cloud、Looker、BigQuery および Chromebook は、Google LLC の商標です。
※ Oracle、Java、MySQL および NetSuite は、Oracle Corporation、その子会社および関連会社の米国およびその他の国における登録商標です。NetSuite は、クラウド・コンピューティングの新時代を切り開いたクラウド・カンパニーです。