使用本文作为将 Azure Synapse Spark 工作负载迁移到Microsoft Fabric的起点。 它可帮助你确定要使用的指南、可以直接迁移的内容,以及仍需要手动重构或验证的位置。
Fabric数据工程支持湖仓、笔记本、环境、Spark作业定义和管道项。 大多数 Synapse Spark 迁移涉及项迁移、数据访问更改、元数据迁移、代码重构和迁移后验证的一些组合。
迁移之前
在开始之前,请确认Fabric数据工程是您的工作负荷的正确目的地。 查看当前 Synapse 实现所依赖的 Spark 运行时、安全模型、池模型、环境模型和数据访问模式。
从以下文章开始:
如果要迁移现有的 Synapse 工作区,请计划创建或使用现有的Fabric工作区作为迁移目标。 本文不介绍完整的工作区预配或非 Spark 工作负荷迁移。
可以迁移哪些内容?
Synapse-to-Fabric 迁移通常跨越多个工作流。
| 迁移区域 | 典型范围 | 主要指南 |
|---|---|---|
| 规划和评估 | 列出 Spark 池、笔记本、Spark 作业定义、湖数据库、关联服务和瓶颈 | 阶段 1:迁移策略和规划 |
| 项、代码重构、池、配置和库 | 笔记本、Spark 作业定义、Spark 池、Lake 数据库映射、 mssparkutils、链接服务、文件路径、目录 API、连接器身份验证、环境、自定义池、Spark 属性、库兼容性 |
阶段 2:Spark 工作负荷迁移 |
| Hive Metastore 和湖泊元数据 | 数据库、表、分区、托管表与外部表 | 阶段 3:Hive 元存储和数据迁移 |
| 数据访问和管道 | OneLake 快捷方式、ADLS Gen2 访问权限、复制活动、管道迁移 | 迁移数据和管道 |
| 安全性、验证和切换 | 角色,连接,治理,验证,切换规划 | 阶段 4:安全性和治理迁移 |
选择迁移路径
使用与目标匹配的路径。
- 需要端到端迁移计划。 从 4 阶段最佳做法系列开始。 这是大多数生产迁移的最佳入口点。
- 你希望快速移动支持的 Spark 项。 从Spark 迁移助手开始,然后使用重构和验证文档来弥补差距。
- 你只需要在一个领域得到帮助。 请使用针对任务的资源,用于笔记本、Spark 作业定义、池、库、Hive Metastore 元数据或数据/管道迁移。
建议的阅读顺序
对于大多数团队来说,接近 Synapse Spark 迁移的最快方法是:
- 查看 Compare Fabric 和 Azure Synapse Spark:关键差异。
- 阅读 阶段 1:迁移策略和规划。
- 运行 Spark Synapse 到 Fabric Spark 迁移助手(如果适用)。
- 重构笔记本、Spark 作业、池和库,使用 阶段 2:Spark 工作负荷迁移。
- 使用剩余的最佳实践文章验证数据访问、元数据、安全性和切换准备情况。
从 Synapse Spark 迁移到 Fabric 通常是复制和适应的过程,而不是直接就地移动。 可以快速迁移许多资产,但仍应期望验证运行时行为、替换 Synapse 特定的集成,并将安全、元数据和操作模式与Fabric保持一致。
最佳做法系列
使用最佳实践系列来获得结构化的端到端迁移路径:
任务特定的迁移文章
如果需要特定迁移任务的目标指南,请使用以下文章:
- Spark Synapse 到 Fabric Spark 迁移助手
- 将 Azure Synapse 笔记本迁移到 Fabric
- 将 Spark 作业定义从 Azure Synapse 迁移到 Fabric
- 将 Spark 池从 Azure Synapse 迁移到 Fabric
- 将 Spark 配置从 Azure Synapse 迁移到 Fabric
- 将 Spark 库从 Azure Synapse 迁移到 Fabric
- 迁移 Hive Metastore 元数据
- 迁移数据和管道