ドキュメント インテリジェンスのカスタム モデル

このコンテンツは適用対象:チェックマークv4.0 (GA) | 以前のバージョン:青チェックマークv3.1 (GA)赤チェックマークv3.0 (廃止)赤チェックマークv2.1 (廃止)

このコンテンツは適用対象です:チェックマークv3.1 (GA) | 最新バージョン:purple-checkmarkv4.0 (GA) | 以前のバージョン:blue-checkmarkv3.0blue-checkmarkv2.1

このコンテンツは適用対象:red-checkmarkv3.0 (廃止) | 最新バージョン:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | 以前のバージョン:blue-checkmarkv2.1 (廃止)

このコンテンツの適用対象:red-checkmarkv2.1 | Latest version:blue-checkmarkv4.0 (GA)

ドキュメント インテリジェンスでは、高度な機械学習テクノロジを使用してドキュメントを識別し、フォームとドキュメントから情報を検出して抽出し、抽出されたデータを構造化された JSON 出力で返します。 ドキュメント インテリジェンスを使用すると、ドキュメント分析モデル、事前構築/事前トレーニング済み、またはトレーニング済みのスタンドアロン カスタム モデルを使用できます。

カスタム モデルには、抽出モデルを呼び出す前にドキュメントの種類を識別する必要があるシナリオ用の カスタム分類 モデルが含まれるようになりました。 分類子モデルは、 2023-07-31 (GA) API 以降で使用できます。 分類モデルをカスタム抽出モデルと組み合わせて、ビジネスに固有のフォームやドキュメントからフィールドを分析および抽出できます。 スタンドアロンのカスタム抽出モデルを組み合わせて 、構成済みモデルを作成できます。

カスタム ドキュメント モデルの種類

カスタム ドキュメント モデルには、 カスタム テンプレートまたはカスタム フォーム、カスタム ニューラル またはカスタム ドキュメント モデルの 2 種類のいずれかを指定できます。 両方のモデルのラベル付けとトレーニングプロセスは同じですが、モデルは次のように異なります。

カスタム抽出モデル

カスタム抽出モデルを作成するには、抽出する値を使用してドキュメントのデータセットにラベルを付け、ラベル付けされたデータセットでモデルをトレーニングします。 作業を開始するには、同じフォームまたはドキュメントの種類の例が 5 つだけ必要です。

カスタム ニューラル モデル

重要

ドキュメント インテリジェンス v4.0 2024-11-30 (GA) API では、カスタム ニューラル モデル の重複フィールド署名の検出テーブル、行レベルとセル レベルの信頼度がサポートされます。

カスタム ニューラル (カスタム ドキュメント) モデルでは、ドキュメントの大規模なコレクションでトレーニングされたディープ ラーニング モデルと基本モデルが使用されます。 このモデルは、ラベル付けされたデータセットを使用してモデルをトレーニングするときに、データに合わせて微調整または調整されます。 カスタム ニューラル モデルでは、構造化ドキュメント、半構造化ドキュメント、および非構造化ドキュメントからキー データ フィールドを抽出できます。 2 つのモデルの種類から選択する場合は、まずニューラル モデルを使用して、機能ニーズを満たしているかどうかを判断します。 V4.0 では、カスタム ニューラル モデルでは、署名の検出、テーブルの信頼度、および重複するフィールドがサポートされます。 カスタム ドキュメント モデルの詳細については、 ニューラル モデルを参照してください。

カスタム テンプレート モデル

カスタム テンプレートまたはカスタム フォーム モデルは、ラベル付きデータを抽出するために一貫したビジュアル テンプレートに依存します。 ドキュメントの視覚的構造の差異は、モデルの精度に影響します。 アンケートやアプリケーションなどの構造化されたフォームは、一貫性のあるビジュアル テンプレートの例です。

トレーニング セットは、書式設定とレイアウトが静的で、あるドキュメント インスタンスから次のドキュメント インスタンスまで一定の構造化されたドキュメントで構成されます。 カスタム テンプレート モデルでは、キーと値のペア、選択マーク、テーブル、署名フィールド、および領域がサポートされます。 テンプレート モデル。 サポートされている任意の言語のドキュメントでトレーニングできます。 詳細については、カスタム テンプレート モデルを参照してください

ドキュメントと抽出シナリオの言語でカスタム ニューラル モデルがサポートされている場合は、テンプレート モデルに対してカスタム ニューラル モデルを使用して精度を向上することをお勧めします。

ヒント

トレーニング ドキュメントに一貫性のあるビジュアル テンプレートがあることを確認するには、セット内の各フォームからユーザーが入力したすべてのデータを削除します。 空白のフォームの外観が同じ場合、一貫性のあるビジュアル テンプレートを表します。

詳細については、「カスタム モデルの精度と信頼性を解釈して向上させる」を参照してください

入力要件

  • 最良の結果を得るには、ドキュメントごとに 1 つの明確な写真または高品質のスキャンを提供します。

  • サポートされているファイル形式:

    モデル PDF 画像:
    jpeg/jpgpngbmptiffheif
    Microsoft Office:
    Word (docx)、Excel (xlsx)、PowerPoint (pptx)
    読む
    レイアウト
    一般文書
    プリビルド
    カスタム抽出
    カスタム分類

    ✱ Microsoft Office ファイルは現在、他のモデルまたはバージョンではサポートされていません。

  • PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料プラン(S0)の場合は500 MB、無料プラン(F0)の場合は4 MBです。

  • 画像のサイズは、50 x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードロックされている場合は、提出前にロックを解除する必要があります。

  • 抽出するテキストの最小高さは、1024 x 768 ピクセルの画像で 12 ピクセルです。 このディメンションは、約 8ポイントのテキスト (1 インチあたり 150 ドット) に対応します。

  • カスタム モデル トレーニングの場合、トレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500 ページ、カスタム ニューラル モデルの場合は 50,000 ページです。

  • カスタム抽出モデルのトレーニングの場合、トレーニングデータの合計サイズは、テンプレートモデルは50 MB、ニューラルモデルは1 GBです。

  • カスタム分類モデルトレーニングの場合、トレーニング データの合計サイズは最大 10,000 ページで 1 GB されます。

最適なトレーニング データ

トレーニング入力データは、機械学習モデルの基礎となります。 モデルの品質、精度、およびパフォーマンスが決まります。 そのため、ドキュメント インテリジェンス プロジェクトに最適なトレーニング入力データを作成することが重要です。 ドキュメント インテリジェンス カスタム モデルを使用する場合は、独自のトレーニング データを提供します。 モデルを効果的にトレーニングするのに役立つヒントをいくつか次に示します。

  • 可能な場合は、画像ベースの PDF の代わりにテキストベースを使用します。 画像ベースの PDF を識別する 1 つの方法は、ドキュメント内の特定のテキストを選択することです。 テキストの画像全体のみを選択できる場合、ドキュメントは画像ベースであり、テキストベースではありません。

  • 各形式 (JPEG/JPG、PNG、BMP、PDF、または TIFF) のサブフォルダーを使用して、トレーニング ドキュメントを整理します。

  • 使用可能なすべてのフィールドが入力されているフォームを使用します。

  • 各フィールドで値が異なるフォームを使用します。

  • 画像の品質が低い場合は、より大きなデータセット (5 つ以上のトレーニング ドキュメント) を使用します。

  • 1 つのモデルを使用するか、1 つのモデルに構成された複数のモデルを使用する必要があるかどうかを判断します。

  • データセットをフォルダーに分割することを検討してください。各フォルダーは一意のテンプレートです。 フォルダーごとに 1 つのモデルをトレーニングし、結果のモデルを 1 つのエンドポイントに作成します。 モデルの精度は、1 つのモデルで分析される形式が異なる場合に低下する可能性があります。

  • フォームに形式と改ページのバリエーションがある場合は、データセットをセグメント化して複数のモデルをトレーニングすることを検討してください。 カスタム フォームは、一貫性のあるビジュアル テンプレートに依存します。

  • 形式、ドキュメントの種類、および構造を計算して、バランスの取れたデータセットがあることを確認します。

ビルド モード

build custom model操作により、テンプレートニューラル カスタム モデルのサポートが追加されます。 以前のバージョンの REST API とクライアント ライブラリでは、 テンプレート モードと呼ばれる 1 つのビルド モードのみがサポートされました。

  • テンプレート モデルでは、基本的なページ構造が同じドキュメント (外観が均一)、またはドキュメント内の要素の相対的な位置が同じドキュメントのみが受け入れられます。

  • ニューラル モデルは、同じ情報を持ち、ページ構造が異なるドキュメントをサポートします。 これらのドキュメントの例には、同じ情報を共有する 米国 W2 フォームが含まれますが、企業によって外観は異なります。

次の表は、ビルド モードプログラミング言語の SDK リファレンスと、GitHubのコード サンプルへのリンクを示しています。

プログラミング言語 SDK リファレンス コード サンプル
C#/.NET DocumentBuildMode 構造体 Sample_BuildCustomModelAsync
Java DocumentBuildMode クラス BuildDocumentModel
JavaScript DocumentBuildMode 型 buildModel.js
Python DocumentBuildMode 列挙型

モデルの特徴を比較する

次の表では、カスタム テンプレートとカスタム ニューラル機能を比較します。

機能 カスタム テンプレート (フォーム) カスタム ニューラル (ドキュメント)
ドキュメント構造 テンプレート、フォーム、および構造化 構造化、半構造化、非構造化
トレーニング時間 1 ~ 5 分 30 分から 12 時間*
データ抽出 キー値ペア、テーブル、選択マーク、座標、署名 キーとバリューのペア、セレクションマーク、およびテーブル
重複するフィールド サポートされていません サポートされています
ドキュメントのバリエーション 各バリエーションごとにモデルが必要 すべてのバリエーションに 1 つのモデルを使用する
言語のサポート 言語サポートカスタム テンプレート カスタム ニューラルの言語対応

*-既定のトレーニング時間は 30 分で、有料トレーニングでは 30 分を超えるモデルをトレーニングできます。 カスタム ニューラルのトレーニング サポートの詳細を確認しましょう

カスタム分類モデル

ドキュメント分類は、 2023-07-31 (v3.1 GA) API を使用してドキュメント インテリジェンスでサポートされる新しいシナリオです。 ドキュメント分類子 API では、分類と分割のシナリオがサポートされています。 分類モデルをトレーニングして、アプリケーションがサポートするさまざまな種類のドキュメントを識別します。 分類モデルの入力ファイルには、複数のドキュメントを含め、関連付けられているページ範囲内の各ドキュメントを分類できます。 詳細については、カスタム分類モデルを参照してください

メモ

v4.0 2024-11-30 (GA) ドキュメント分類モデルでは、分類用の Office ドキュメントの種類がサポートされています。 この API バージョンでは、分類モデルの 増分トレーニング も導入されています。

カスタム モデル ツール

ドキュメント インテリジェンス v3.1 以降のモデルでは、次のツール、アプリケーション、ライブラリ、プログラム、およびライブラリがサポートされています。

機能 リソース モデル ID
カスタム モデル Document Intelligence Studio
REST API
C# SDK
Python SDK
custom-model-id

カスタム モデルのライフ サイクル

カスタム モデルのライフ サイクルは、トレーニングに使用される API バージョンによって異なります。 API バージョンが一般公開 (GA) バージョンの場合、カスタム モデルのライフ サイクルはそのバージョンと同じです。 API バージョンが非推奨の場合、カスタム モデルは推論に使用できません。 API バージョンがプレビュー バージョンの場合、カスタム モデルのライフ サイクルは API のプレビュー バージョンと同じです。

ドキュメント インテリジェンス v2.1 では、次のツール、アプリケーション、およびライブラリがサポートされています。

メモ

カスタム モデルの種類の カスタム ニューラル および カスタム テンプレート は、ドキュメント インテリジェンス バージョン v3.1 および v3.0 API で使用できます。

機能 リソース
カスタム モデル ドキュメント インテリジェンス ラベル付けツール
REST API
クライアント ライブラリ SDK
ドキュメント インテリジェンス Docker コンテナー

カスタム モデルを構築する

カスタム モデルを使用して、特定のドキュメントまたは一意のドキュメントからデータを抽出します。 次のリソースが必要です。

  • Azure サブスクリプション。 無料で 作成できます。

  • Azure ポータルの Document Intelligence インスタンス。 無料価格レベル (F0) を使用して、サービスを試すことができます。 リソースがデプロイされたら、[ リソースに移動 ] を選択してキーとエンドポイントを取得します。

    Azure portal のキーとエンドポイントの場所を示すスクリーンショット。

サンプル ラベル付けツール

ヒント

  • エクスペリエンスの向上と高度なモデル品質を実現するには、 ドキュメント インテリジェンス v3.0 Studio をお試しください。
  • v3.0 Studio では、v2.1 ラベル付きデータでトレーニングされたすべてのモデルがサポートされます。
  • v2.1 から v3.0 への移行の詳細については、API 移行ガイドを参照してください。
  • 参照してくださいREST API または C#JavaJavaScript、またはPython SDK ../quickstarts を利用して、バージョン3.0の利用を開始してください。
  • ドキュメント インテリジェンス サンプル ラベル付けツールは、ドキュメント インテリジェンスと光学式文字認識 (OCR) 機能の最新機能をテストできるオープンソース ツールです。

  • カスタム モデルの構築と使用を開始するには、 サンプル ラベル付けツールのクイック スタート を試してください。

ドキュメント インテリジェンス スタジオ

メモ

ドキュメント インテリジェンス スタジオは、v3.1 および v3.0 API で使用できます。

  1. Document Intelligence Studio のホーム ページで、[カスタム抽出モデル] を選択します。

  2. [ マイ プロジェクト] で、[ プロジェクトの作成] を選択します。

  3. プロジェクトの詳細フィールドを記入してください。

  4. トレーニング データ ソースを接続するためにストレージ アカウントBLOB コンテナーを追加して、サービス リソースを構成します。

  5. プロジェクトを確認して作成します。

  6. カスタム モデルのラベル付け、ビルド、テストにサンプル ドキュメントを追加します。

最初のカスタム抽出モデルを作成する詳細なチュートリアルについては、「カスタム抽出モデルを作成する方法」を参照してください

カスタム モデル抽出の概要

次の表は、サポートされているデータ抽出領域を比較します。

モデル フォーム フィールド 選択マーク 構造化フィールド (テーブル) 署名 リージョンのラベル付け 重複するフィールド
カスタム テンプレート N/a
カスタム ニューラル *

テーブルシンボル:
✔ —サポートされています
**n/a— 現在使用できません。
*-モデルによって動作が異なります。 テンプレート モデルでは、トレーニング時に合成データが生成されます。 ニューラル モデルでは、リージョンで認識された既存のテキストが選択されます。

ヒント

2 つのモデルの種類から選択するには、カスタム ニューラル モデルが機能ニーズを満たしている場合に開始します。 カスタム ニューラル モデルの詳細については、カスタム ニューラルを参照してください。

カスタム モデル開発オプション

次の表では、関連するツールとクライアント ライブラリで使用できる機能について説明します。 ベスト プラクティスとして、ここに記載されている互換性のあるツールを使用してください。

ドキュメントの種類 REST API SDK ラベルとテスト モデル
カスタム テンプレート v 4.0 v3.1 v3.0 ドキュメント インテリジェンス 3.1 ドキュメント インテリジェンス SDK ドキュメント インテリジェンス スタジオ
カスタムニューラルv4.0 v3.1 v3.0 ドキュメント インテリジェンス 3.1 ドキュメント インテリジェンス SDK ドキュメント インテリジェンス スタジオ
カスタム フォーム v2.1 ドキュメント インテリジェンス 2.1 GA API ドキュメント インテリジェンス SDK サンプル ラベル付けツール

メモ

3.0 API でトレーニングされたカスタム テンプレート モデルでは、OCR エンジンの機能強化に起因する 2.1 API に対していくつかの機能強化が行われました。 2.1 API を使用してカスタム テンプレート モデルをトレーニングするために使用されるデータセットは、3.0 API を使用して新しいモデルをトレーニングするために引き続き使用できます。

  • 最良の結果を得るには、ドキュメントごとに 1 つの明確な写真または高品質のスキャンを提供する必要があります。

  • サポートされているファイル形式は、JPEG/JPG、PNG、BMP、TIFF、PDF (テキスト埋め込みまたはスキャン) です。 テキスト埋め込み PDF は、文字抽出と位置のエラーの可能性を排除するのに最適です。

  • 最大 2,000 ページの PDF ファイルと TIFF ファイルを処理できます。 Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます。

  • ファイル サイズは、有料 (S0) レベルでは 500 MB 未満、Free (F0) レベルでは 4 MB 未満である必要があります。

  • 画像のサイズは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。

  • PDF サイズは、最大 17 x 17 インチで、Legal または A3 の用紙サイズ以下に対応します。

  • トレーニング データの合計サイズは 500 ページ以下です。

  • パスワード ロックされている PDF には、送信前にパスワード ロックが削除されている必要があります。

    ヒント

    トレーニング データ:

    • 可能であれば、画像ベースのドキュメントではなく、テキストベースの PDF ドキュメントを使用します。 スキャンされた PDF はイメージとして処理されます。
    • ドキュメントごとにフォームのインスタンスを 1 つだけ指定します。
    • 入力フォームの場合は、すべてのフィールドが入力されている例を使用します。
    • 各フィールドで異なる値を持つフォームを使用します。
    • フォーム イメージの品質が低い場合は、より大きなデータセットを使用します。 たとえば、10 ~ 15 個の画像を使用します。

サポートされている言語とロケール

サポート されている言語の完全な一覧については、 言語サポートのカスタム モデル に関するページを参照してください。

次の手順