Caricare i dati nel Lakehouse utilizzando il partizionamento in una pipeline

La funzionalità di partizione nella tabella Lakehouse come destinazione offre la possibilità di caricare i dati nella tabella Lakehouse con partizioni. Le partizioni vengono generate nella destinazione Lakehouse, a beneficio dei processi downstream o per il consumo.

Questo tutorial ti aiuta a imparare come caricare dati su Lakehouse usando partizioni in una pipeline. Ad esempio, si carica il set di dati di esempio in Lakehouse usando una o più colonne di partizione seguendo questa procedura. Il set di dati di esempio Festività pubbliche viene usato come dati di esempio.

Prerequisito

Assicurarsi di avere un'area di lavoro abilitata per Project Microsoft Fabric: Creare un'area di lavoro.

Creare un flusso di lavoro

Passare a Power BI.
Selezionare l'icona Power BI nella parte inferiore sinistra della schermata, quindi selezionare Fabric per aprire la home page di Data Factory.
Passare all'area di lavoro Microsoft Fabric. Se hai già creato una nuova area di lavoro nella sezione precedente Prerequisiti, usare questa.

Selezionare + Nuovo elemento.
Cercare e selezionare Pipeline e quindi immettere un nome di pipeline per creare una nuova pipeline. per creare una nuova pipeline.

Caricare dati in Lakehouse usando colonne di partizione

Aprire la pipeline e aggiungere un'attività di copia selezionando Attività pipeline ->Copiare i dati. In Origine selezionare Altro nella parte inferiore dell'elenco di connessioni, quindi selezionare Festività pubbliche nella scheda Dati di esempio .
Nella scheda Destinazione selezionare Altro nella parte inferiore dell'elenco di connessioni, quindi selezionare un Lakehouse esistente nella scheda OneLake, specificare la tua Lakehouse o creare una nuova Lakehouse nella scheda Home. Scegliere Tabella nella cartella Radice e specificare il nome della tabella.
Espandere Avanzate, in Azione Tabella, selezionare Sovrascrivi e quindi selezionare Abilita partizione, in Colonne di partizione, selezionare Aggiungi colonna e scegliere la colonna che si vuole usare come colonna di partizione. Come colonna di partizione, puoi scegliere di usare una singola colonna o più colonne.

Se si decide di usare una singola colonna, in questa esercitazione viene selezionato come esempio countryOrRegion (tipo stringa). I dati verranno ripartiti in base a diversi valori di colonna.

Nota

La colonna di partizione che può essere selezionata deve essere di tipo stringa, intero, booleano e datetime. Le colonne di altri tipi di dati non vengono visualizzate nell'elenco a discesa.

Se si usano più colonne di partizione, aggiungere un'altra colonna e selezionare isPaidTimeOff, che è un tipo booleano, come esempio. Quindi esegui la pipeline. La logica è che la tabella viene ripartita inizialmente in base ai primi valori di colonna aggiunti, e successivamente i dati ripartiti continuano a essere ripartiti in base ai valori della seconda colonna aggiunta.

Suggerimento

È possibile trascinare le colonne per modificarne la sequenza, cambierà anche la sequenza di ripartizione.
Seleziona Esegui e quindi Salva ed esegui per avviare la pipeline.
Una volta che la pipeline è stata eseguita con successo, vai al Lakehouse. Trova la tabella che hai copiato. Fare clic con il pulsante destro del mouse sul nome della tabella e selezionare Visualizza file.

Per una colonna di partizione (countryOrRegion), la tabella viene partizionata in diverse cartelle in base ai nomi di paese o area geografica. Il carattere speciale nel nome della colonna è codificato; il nome del file potrebbe essere diverso dai valori di colonna quando si visualizzano i file in Lakehouse.

Per più colonne di partizione, la tabella viene partizionata in cartelle diverse in base ai nomi di paese o area geografica.

Selezionare una cartella, ad esempio contryOrRegion=United States. La tabella partizionata in base al nome del paese o dell'area geografica viene nuovamente partizionata dalla seconda colonna aggiunta con il valore isPaidTimeOff: True, False o __HIVE_DEFAULT_PARTITION__ (rappresenta un valore vuoto nel set di dati di esempio).

Analogamente, se si aggiungono tre colonne per partizionare la tabella, si ottiene la cartella di secondo livello partizionata dalla terza colonna aggiunta.

Passa quindi a scoprire di più sul processo di copia dei dati da Azure Blob Storage a Lakehouse.

Copia da Azure Blob Storage a Lakehouse

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-22