将 Azure Synapse Spark 迁移到 Fabric概述

使用本文作为将 Azure Synapse Spark 工作负载迁移到Microsoft Fabric的起点。 它可帮助你确定要使用的指南、可以直接迁移的内容,以及仍需要手动重构或验证的位置。

Fabric数据工程支持湖仓笔记本环境Spark作业定义管道项。 大多数 Synapse Spark 迁移涉及项迁移、数据访问更改、元数据迁移、代码重构和迁移后验证的一些组合。

迁移之前

在开始之前,请确认Fabric数据工程是您的工作负荷的正确目的地。 查看当前 Synapse 实现所依赖的 Spark 运行时、安全模型、池模型、环境模型和数据访问模式。

从以下文章开始:

如果要迁移现有的 Synapse 工作区,请计划创建或使用现有的Fabric工作区作为迁移目标。 本文不介绍完整的工作区预配或非 Spark 工作负荷迁移。

可以迁移哪些内容?

Synapse-to-Fabric 迁移通常跨越多个工作流。

迁移区域 典型范围 主要指南
规划和评估 列出 Spark 池、笔记本、Spark 作业定义、湖数据库、关联服务和瓶颈 阶段 1:迁移策略和规划
项、代码重构、池、配置和库 笔记本、Spark 作业定义、Spark 池、Lake 数据库映射、 mssparkutils、链接服务、文件路径、目录 API、连接器身份验证、环境、自定义池、Spark 属性、库兼容性 阶段 2:Spark 工作负荷迁移
Hive Metastore 和湖泊元数据 数据库、表、分区、托管表与外部表 阶段 3:Hive 元存储和数据迁移
数据访问和管道 OneLake 快捷方式、ADLS Gen2 访问权限、复制活动、管道迁移 迁移数据和管道
安全性、验证和切换 角色,连接,治理,验证,切换规划 阶段 4:安全性和治理迁移

选择迁移路径

使用与目标匹配的路径。

  • 需要端到端迁移计划。 从 4 阶段最佳做法系列开始。 这是大多数生产迁移的最佳入口点。
  • 你希望快速移动支持的 Spark 项。Spark 迁移助手开始,然后使用重构和验证文档来弥补差距。
  • 你只需要在一个领域得到帮助。 请使用针对任务的资源,用于笔记本、Spark 作业定义、池、库、Hive Metastore 元数据或数据/管道迁移。

对于大多数团队来说,接近 Synapse Spark 迁移的最快方法是:

  1. 查看 Compare Fabric 和 Azure Synapse Spark:关键差异
  2. 阅读 阶段 1:迁移策略和规划
  3. 运行 Spark Synapse 到 Fabric Spark 迁移助手(如果适用)。
  4. 重构笔记本、Spark 作业、池和库,使用 阶段 2:Spark 工作负荷迁移
  5. 使用剩余的最佳实践文章验证数据访问、元数据、安全性和切换准备情况。

显示迁移方案的屏幕截图。

从 Synapse Spark 迁移到 Fabric 通常是复制和适应的过程,而不是直接就地移动。 可以快速迁移许多资产,但仍应期望验证运行时行为、替换 Synapse 特定的集成,并将安全、元数据和操作模式与Fabric保持一致。

最佳做法系列

使用最佳实践系列来获得结构化的端到端迁移路径:

任务特定的迁移文章

如果需要特定迁移任务的目标指南,请使用以下文章: