你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Tip
Microsoft Fabric Data Warehouse是数据湖基础上的企业规模关系仓库,具有未来就绪的体系结构、内置 AI 和新功能。 如果不熟悉数据仓库,请从Fabric Data Warehouse开始。 现有的指定 SQL 池工作负荷可以升级到 Fabric,以跨数据科学、实时分析和报告访问新功能。
无服务器 SQL 池可以自动从 Apache Spark 同步元数据。 将为无服务器 Apache Spark 池中现有的每个数据库创建无服务器 SQL 池数据库。
对于基于 Parquet 或 CSV 且位于 Azure 存储 的每个 Spark 外部表,外部表在无服务器 SQL 池数据库中创建。 因此,可以关闭 Spark 池,但仍从无服务器 SQL 池查询 Spark 外部表。
在 Spark 中对表进行分区时,存储中的文件按文件夹进行组织。 无服务器 SQL 池将使用分区元数据,并且仅针对查询的相关文件夹和文件。
为Azure Synapse工作区中预配的每个无服务器 Apache Spark 池自动配置元数据同步。 可以立即开始查询 Spark 外部表。
位于Azure 存储中的每个 Spark Parquet 或 CSV 外部表都用 dbo 架构中的外部表表示,该表对应于无服务器 SQL 池数据库。
对于 Spark 外部表查询,请运行面向外部 [spark_table] 的查询。 运行以下示例之前,请确保对文件所在的存储帐户具有正确的 访问权限 。
SELECT * FROM [db].dbo.[spark_table]
Apache Spark 数据类型到 SQL 数据类型映射
有关将 Apache Spark 数据类型映射到 SQL 数据类型的详细信息,请参阅Azure Synapse Analytics共享元数据表。
后续步骤
转到 存储访问控制 一文,以了解更多有关存储访问控制的信息。