非構造化データから構造化データへ～Amazon Bedrock での Claude 利活用～

松本雄太

はじめに

こんにちは、NRIでAIソリューションの導入支援を担当している松本です。

AIや最新テクノロジーに興味のある方ならご存じかもしれませんが、最近、人工知能を活用した様々なサービスやアプリケーションが私たちの生活の中に浸透してきています。中でも、「Retrieval-Augmented Generation」（略してRAG）と呼ばれる技術が注目を集めており、これは情報検索を組み合わせたAIによる文章生成の手法です。

ただ、技術の進化にはいつも課題が伴います。RAGも完璧ではなく、非構造化データ、つまり一定の形式に整えられていないデータを扱うのが難しいのです。例としては、テキスト画像が埋め込まれたPDFファイルが挙げられます。これらのファイルをAIが理解できるようにするためには、AIによる光学文字認識（OCR）技術（略してAI-OCR）を用いて文字情報を抽出し、テキスト化する必要があります。

しかし、AI-OCRを使ってテキストを抽出したとしても、元の文書が複雑なレイアウトをしていると、AIによる文章生成がうまくいかないことがあります。これは特に日本のビジネスシーンにおいて多くの文書が複雑なレイアウトを持っているため、課題となっています。

そこで、今回はこのような非構造化データ、特に請求書や領収書、レシートを代表とするフォーマットがバラバラかつテキスト画像が埋め込まれた「非定型帳票」からどうやって対象項目を抽出し、ビジネスで活用できる構造化データに変えるかというアイデアをご紹介します。このアイデアを通じて、文書処理の効率化や情報活用の向上につながるヒントになれば幸いです。

非定型帳票に組み込まれているテキスト画像から対象の項目を抽出する方法

非定型帳票に組み込まれているテキスト画像から対象の項目を抽出する方法として、代表的なものを例に挙げます。

①キーワード情報抽出

AI-OCRした結果から、「氏名」「住所」「性別」などのキー項目を抽出し、そのキー項目の右側や下側にある対象項目を推定して、抽出します。

AI-OCRキーワード情報抽出例

②レイアウト構造抽出

AI-OCRした結果から、主にディープラーニングを利用し、レイアウト構造を解析し項目抽出を行います。これは、テキストの内容だけでなく、テキストの配置やページ上の位置といったレイアウト情報も利用し、キーワード情報抽出より、より汎用性が高く、精度が高い手法と言えます。代表的な手法としては、Microsoft Researchから2020年に提案された LayoutLM等が挙げられます。

③大規模言語モデル情報抽出（Large Language Models情報抽出、略してLLM情報抽出）

AI-OCRした結果から、LLMを用いて項目抽出する手法です。詳細は、後述します。

④マルチモーダルLLM 情報抽出

上記①②③は、AI-OCRをかけたあとに項目を抽出する手法でしたが、マルチモーダルLLM情報抽出は、1モデルで画像から対象項目をEnd-to-Endで情報抽出する手法となります。OCR機能も込みの手法と言えます。代表的な手法として、2023年9月に発表されたChatGPTのモデルである GPT-4V等が挙げられます。

マルチモーダルLLM情報抽出

AI-OCRの手法のメリット・デメリット

AI-OCRとLLM による非定型帳票からの項目抽出

現時点では、①②が主流ですが、今後、③④の手法も広く使われる可能性があります。④は本番業務に適用という意味では、もう少し時間がかかるかもしれません。ですので、今回は、本番業務ですぐ使える③LLM情報抽出をもう少し具体例を使って説明します。

AI-OCRは多くの企業で利用されており、特に定型的な文書（文書内の特定の位置で情報を読み取るタイプのOCR）の処理には広く活用されています。ただし、多種多様なフォーマットがある場合や、頻繁にレイアウトが変更される文書では、この従来の方法では対応しきれないことがあります。

そこで登場するのが、文書内の全てのテキストを読み取る「全文OCR」です。この方法では文書をHTML形式に変換し、それをLLMに読み込ませることで、特定の情報を簡単に抽出することができます。つまり、質問をするだけで必要なデータを得られるのです。

今回、LLMは、Amazon Bedrockで利用可能なAnthropic Claudeモデル（以後Claude）を利用しています。Claudeを利用することで、AWSの各種サービスと手軽に連携でき、セキュリティ対応も柔軟にできる、といったことで採用しました。なお、私たちのチームでは、簡単なレイアウトの場合はClaude Instantを利用し、複雑なレイアウトの場合はClaude 2 を利用するといった使い方をしています。Claudeは、Markdown、HTML、XML、Jsonなど様々な形式のテーブル情報を理解することができます。シンプルなテーブルであればMarkdown形式、複雑なテーブルであればHTML形式を採用しています。

AI-OCRとLLMの技術を活用することにより、複雑な学習過程を省きつつも、一枚の書類を数円から十数円の低コストで迅速かつ正確にデータ化できます。このスピーディーでコスト効率の良い方法は、ビジネスシーンでも十分に活用可能です。

さいごに

いかがでしたでしょうか？

私たちのチームでは、国内外の様々なAIサービスを網羅しており、お客様一人ひとりにぴったり合ったソリューションをご提案させていただいています。

時には「この技術は今すぐに導入するよりも、もう少し待ったほうが良いですよ」という正直なアドバイスをすることもありますし、「現在、これらのAIサービスが非常に優れていますから、実際に比較してみませんか」という提案をすることもあります。さらには、お客様の特別なニーズに応じて、自社開発のAI技術を用意することもあります。金融業界を含む多くの分野でAIサービスを導入してきた実績があり、セキュリティをはじめとする様々な要件にも対応しています。

私たちはいつでもお客様のご連絡をお待ちしておりますので、お気軽にご相談ください。