Microsoft.Extensions.DataIngestion ライブラリ

📦 Microsoft.Extensions.DataIngestion パッケージは、データ インジェストのための基本的な .NET 構成要素を提供します。 これにより、開発者は AI と機械学習のワークフロー (特に Retrieval-Augmented Generation (RAG) シナリオ) のドキュメントを読み取り、処理し、準備できます。

これらの構成要素を使用すると、アプリケーションのニーズに合わせて調整された、堅牢で柔軟でインテリジェントなデータ インジェスト パイプラインを作成できます。

  • 統一されたドキュメント表現: 大きな言語モデルに適した一貫性のある形式で任意のファイルの種類 (PDF、画像、Microsoft Word など) を表します。
  • 柔軟なデータ インジェスト: 複数の組み込みリーダーを使用してクラウド サービスとローカル ソースの両方からドキュメントを読み取り、どこからでも簡単にデータを取り込むことができます。
  • 組み込みの AI の機能強化: サマリー、センチメント分析、キーワード抽出、分類を使用してコンテンツを自動的に強化し、インテリジェントなワークフロー用にデータを準備します。
  • カスタマイズ可能なチャンク戦略: トークンベース、セクションベース、またはセマンティック対応のアプローチを使用してドキュメントをチャンクに分割することで、取得と分析のニーズに合わせて最適化できます。
  • 運用対応ストレージ: 処理されたチャンクを一般的なベクター データベースとドキュメント ストアに格納し、埋め込み生成をサポートし、実際のシナリオに合わせてパイプラインを準備します。
  • エンドツーエンドのパイプライン構成: リーダー、プロセッサ、チャンカー、ライターを IngestionPipeline<T> API と連結して、定型句を減らし、完全なワークフローを簡単に構築、カスタマイズ、拡張できるようにします。
  • パフォーマンスとスケーラビリティ: スケーラブルなデータ処理用に設計されたこれらのコンポーネントは、大量のデータを効率的に処理できるため、エンタープライズ レベルのアプリケーションに適しています。

これらのコンポーネントはすべて、設計によってオープンで拡張可能です。 カスタム ロジックと新しいコネクタを追加し、新しい AI シナリオをサポートするようにシステムを拡張できます。 .NET 開発者は、ドキュメントの表現、処理、および格納方法を標準化することで、すべてのプロジェクトに対して "ホイールを再発明" することなく、信頼性が高く、スケーラブルで保守しやすいデータ パイプラインを構築できます。

安定した基盤に基づいて構築

データ インジェスト アーキテクチャ図

これらのデータ インジェストの構成要素は、.NET エコシステムの実証済みで拡張可能なコンポーネントの上に構築され、信頼性、相互運用性、既存の AI ワークフローとのシームレスな統合を保証します。

  • Microsoft.ML.Tokenizers: トークナイザーは、トークンに基づいてドキュメントをチャンクするための基盤を提供します。 これにより、大規模な言語モデルのデータを準備し、取得戦略を最適化するために不可欠なコンテンツを正確に分割できます。
  • Microsoft.Extensions.AI: この一連のライブラリは、大規模な言語モデルを使用してエンリッチメント変換を強化します。 要約、センチメント分析、キーワード抽出、埋め込み生成などの機能が有効になり、インテリジェントな分析情報を使用してデータを簡単に強化できます。
  • Microsoft.Extensions.VectorData: この一連のライブラリは、Qdrant、Azure SQL、CosmosDB、MongoDB、ElasticSearch など、さまざまなベクター ストアに処理されたチャンクを格納するための一貫したインターフェイスを提供します。 これにより、データ パイプラインが運用環境に対応し、さまざまなストレージ バックエンド間でスケーリングできるようになります。

これらの抽象化は、使い慣れたパターンやツールに加えて、既に拡張可能なコンポーネントに基づいて構築されています。 プラグインの機能と相互運用性が最も重要であるため、.NET AI エコシステムの残りの部分が拡大するにつれて、データ インジェスト コンポーネントの機能も拡張されます。 このアプローチにより、開発者は新しいプロバイダー、エンリッチメント、ストレージ オプションを簡単に統合でき、パイプラインの将来の準備が整い、進化する AI シナリオに適応できます。

こちらも参照ください