你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在无服务器 SQL 池中同步用于Azure Synapse外部表定义的 Apache Spark

Tip

Microsoft Fabric Data Warehouse是数据湖基础上的企业规模关系仓库,具有未来就绪的体系结构、内置 AI 和新功能。 如果不熟悉数据仓库,请从Fabric Data Warehouse开始。 现有的指定 SQL 池工作负荷可以升级到 Fabric,以跨数据科学、实时分析和报告访问新功能。

无服务器 SQL 池可以自动从 Apache Spark 同步元数据。 将为无服务器 Apache Spark 池中现有的每个数据库创建无服务器 SQL 池数据库。

对于基于 Parquet 或 CSV 且位于 Azure 存储 的每个 Spark 外部表,外部表在无服务器 SQL 池数据库中创建。 因此,可以关闭 Spark 池,但仍从无服务器 SQL 池查询 Spark 外部表。

在 Spark 中对表进行分区时,存储中的文件按文件夹进行组织。 无服务器 SQL 池将使用分区元数据,并且仅针对查询的相关文件夹和文件。

为Azure Synapse工作区中预配的每个无服务器 Apache Spark 池自动配置元数据同步。 可以立即开始查询 Spark 外部表。

位于Azure 存储中的每个 Spark Parquet 或 CSV 外部表都用 dbo 架构中的外部表表示,该表对应于无服务器 SQL 池数据库。

对于 Spark 外部表查询,请运行面向外部 [spark_table] 的查询。 运行以下示例之前,请确保对文件所在的存储帐户具有正确的 访问权限

SELECT * FROM [db].dbo.[spark_table]

Apache Spark 数据类型到 SQL 数据类型映射

有关将 Apache Spark 数据类型映射到 SQL 数据类型的详细信息,请参阅Azure Synapse Analytics共享元数据表

后续步骤

转到 存储访问控制 一文,以了解更多有关存储访问控制的信息。