你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

创建 Document Intelligence Studio 自定义项目

此内容适用于:checkmarkv4.0 (GA) | 早期版本:blue-checkmarkv3.1 (GA)red-checkmarkv3.0(停用)

Azure Foundry Tools Studio 中的文档智能是一种联机工具,可用于直观地浏览、理解和将文档智能中的功能集成到应用程序中。 本快速入门旨在介绍如何在 Document Intelligence Studio 中设置自定义项目。

先决条件

有关订阅、资源和身份验证设置的信息,请参阅 Document Intelligence Studio 入门

新用户的先决条件

除了Azure帐户和文档智能或 Microsoft Foundry 资源之外,还需要一个Azure Blob 存储容器和Azure角色分配。

Azure Blob 存储容器

需要一个标准性能Azure Blob 存储 帐户。 可以创建容器以在存储帐户中存储和组织训练文档。 如果不知道如何使用容器创建Azure存储帐户,请按照以下快速入门操作:

  • 创建存储帐户:创建存储帐户时,在 “实例详细信息>性能 ”字段中,选择“ 标准 性能”。
  • 创建容器:在 “新建容器 ”窗格中,将 “公共访问级别 ”字段设置为 “容器 ”(容器和 Blob 的匿名读取访问权限)。

Azure角色分配

对于自定义项目,不同方案需要以下角色分配:

  • 基本

    • 认知服务用户:需要文档智能或 Microsoft Foundry 资源使用此角色来训练自定义模型或对已训练的模型进行分析。
    • 存储 Blob 数据参与者:需要为存储帐户分配此角色,才能创建项目并标记数据。
  • 高级

    • 存储帐户参与者:存储帐户需要此角色才能设置跨域资源共享(CORS)设置。 (如果重复使用同一存储帐户,此操作是一次性的。
    • 参与者:需要此角色来创建资源组和资源。

    注意

    如果为文档智能服务资源和存储帐户禁用本地(基于密钥的)身份验证,请确保分别获取认知服务用户和存储 Blob 数据参与者角色,以便有足够的权限使用 Document Intelligence Studio。 存储帐户参与者和参与者角色允许列出密钥,但在禁用密钥访问时,它们不会授予使用资源的权限。

配置 CORS

跨域资源共享必须在 Azure 存储帐户上进行配置,以便可以从 Document Intelligence Studio 访问。 若要在 Azure 门户中配置 CORS,需要访问存储帐户的 CORS 选项卡。

  1. 选择存储帐户的 CORS 选项卡。

    截图,显示 Azure 门户中的 CORS 设置菜单。

  2. 首先,在 Blob 服务 选项卡上创建新的 CORS 条目。

  3. 允许的源 设置为 https://documentintelligence.ai.azure.com

    显示存储帐户的 CORS 配置的屏幕截图。

    可以使用通配符 * 而不是指定的域来允许所有源域通过 CORS 发出请求。

  4. 选择 允许方法的所有可用八个选项。

  5. 通过在每个字段中输入星号 (*) 来批准所有 允许的标头暴露的标头

  6. 将最大年龄设置为 120 秒或任何可接受的值。

  7. 若要保存更改,请选择页面顶部的“ 保存 ”。

CORS 现在应配置为使用 Document Intelligence Studio 中的存储帐户。

示例文档集

  1. 登录到 Azure 门户。 转到存储帐户并选择 “数据存储>容器”。

    显示 Azure 门户中数据存储菜单的屏幕截图。

  2. 从列表中选择容器。

  3. 在页面顶部的菜单上,选择“ 上传”。

    包含容器上传按钮的 Azure 门户截图。

  4. “上传 Blob ”窗格中,选择要上传的文件。

    截图中显示 Azure 门户中的“上传 blob”窗格。

注意

默认情况下,Document Intelligence Studio 使用位于容器根目录中的文档。 可以在创建自定义窗体项目的过程中,通过指定文件夹路径来使用文件夹中整理的数据。 有关详细信息,请参阅 在子文件夹中组织数据

使用文档智能工作室功能

使用预生成模型或你自己的模型之一自动标记文档

在自定义提取模型的标签页上,现在可以使用文档智能服务预生成模型或已训练的模型之一自动标记文档。

显示自动标记的动画屏幕截图。

对于某些文档,运行自动标签后可能会出现重复标签。 请确保修改标签,以便以后标签页上没有重复的标签。

显示自动标记后重复标签警告的屏幕截图。

自动标记表

在自定义提取模型的标记页上,现在可以自动标记文档中的表,而无需手动标记表。

显示自动表标签的动画屏幕截图。

将测试文件直接添加到训练数据集

训练自定义提取模型后,如果需要,请使用测试页通过将测试文档上传到训练数据集来提高模型质量。

如果为某些标签返回低置信度分数,请确保正确标记内容。 如果没有,请将它们添加到训练数据集并重新标记以提高模型质量。

显示如何将测试文件添加到训练数据集的动画屏幕截图。

在自定义项目中使用文档列表选项和筛选器

使用自定义提取模型的标签页,通过使用搜索、筛选和排序功能,轻松浏览训练文档。

使用网格视图预览文档,或使用列表视图更轻松地滚动浏览文档。

显示文档列表视图选项和筛选器的屏幕截图。

项目共享

轻松共享自定义提取项目。 有关详细信息,请参阅与自定义模型进行项目共享