Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
La funzionalità di partizione nella tabella Lakehouse come destinazione offre la possibilità di caricare i dati nella tabella Lakehouse con partizioni. Le partizioni vengono generate nella destinazione Lakehouse, a beneficio dei processi downstream o per il consumo.
Questo tutorial ti aiuta a imparare come caricare dati su Lakehouse usando partizioni in una pipeline. Ad esempio, si carica il set di dati di esempio in Lakehouse usando una o più colonne di partizione seguendo questa procedura. Il set di dati di esempio Festività pubbliche viene usato come dati di esempio.
Prerequisito
- Assicurarsi di avere un'area di lavoro abilitata per Project Microsoft Fabric: Creare un'area di lavoro.
Creare un flusso di lavoro
Passare a Power BI.
Selezionare l'icona Power BI nella parte inferiore sinistra della schermata, quindi selezionare Fabric per aprire la home page di Data Factory.
Passare all'area di lavoro Microsoft Fabric. Se hai già creato una nuova area di lavoro nella sezione precedente Prerequisiti, usare questa.
Selezionare + Nuovo elemento.
Cercare e selezionare Pipeline e quindi immettere un nome di pipeline per creare una nuova pipeline. per creare una nuova pipeline.
Caricare dati in Lakehouse usando colonne di partizione
Aprire la pipeline e aggiungere un'attività di copia selezionando Attività pipeline ->Copiare i dati. In Origine selezionare Altro nella parte inferiore dell'elenco di connessioni, quindi selezionare Festività pubbliche nella scheda Dati di esempio .
Nella scheda Destinazione selezionare Altro nella parte inferiore dell'elenco di connessioni, quindi selezionare un Lakehouse esistente nella scheda OneLake, specificare la tua Lakehouse o creare una nuova Lakehouse nella scheda Home. Scegliere Tabella nella cartella Radice e specificare il nome della tabella.
Espandere Avanzate, in Azione Tabella, selezionare Sovrascrivi e quindi selezionare Abilita partizione, in Colonne di partizione, selezionare Aggiungi colonna e scegliere la colonna che si vuole usare come colonna di partizione. Come colonna di partizione, puoi scegliere di usare una singola colonna o più colonne.
Se si decide di usare una singola colonna, in questa esercitazione viene selezionato come esempio countryOrRegion (tipo stringa). I dati verranno ripartiti in base a diversi valori di colonna.
Nota
La colonna di partizione che può essere selezionata deve essere di tipo stringa, intero, booleano e datetime. Le colonne di altri tipi di dati non vengono visualizzate nell'elenco a discesa.
Se si usano più colonne di partizione, aggiungere un'altra colonna e selezionare isPaidTimeOff, che è un tipo booleano, come esempio. Quindi esegui la pipeline. La logica è che la tabella viene ripartita inizialmente in base ai primi valori di colonna aggiunti, e successivamente i dati ripartiti continuano a essere ripartiti in base ai valori della seconda colonna aggiunta.
Suggerimento
È possibile trascinare le colonne per modificarne la sequenza, cambierà anche la sequenza di ripartizione.
Seleziona Esegui e quindi Salva ed esegui per avviare la pipeline.
Una volta che la pipeline è stata eseguita con successo, vai al Lakehouse. Trova la tabella che hai copiato. Fare clic con il pulsante destro del mouse sul nome della tabella e selezionare Visualizza file.
Per una colonna di partizione (countryOrRegion), la tabella viene partizionata in diverse cartelle in base ai nomi di paese o area geografica. Il carattere speciale nel nome della colonna è codificato; il nome del file potrebbe essere diverso dai valori di colonna quando si visualizzano i file in Lakehouse.
Per più colonne di partizione, la tabella viene partizionata in cartelle diverse in base ai nomi di paese o area geografica.
Selezionare una cartella, ad esempio contryOrRegion=United States. La tabella partizionata in base al nome del paese o dell'area geografica viene nuovamente partizionata dalla seconda colonna aggiunta con il valore isPaidTimeOff:
True,Falseo__HIVE_DEFAULT_PARTITION__(rappresenta un valore vuoto nel set di dati di esempio).Analogamente, se si aggiungono tre colonne per partizionare la tabella, si ottiene la cartella di secondo livello partizionata dalla terza colonna aggiunta.
Contenuto correlato
Passa quindi a scoprire di più sul processo di copia dei dati da Azure Blob Storage a Lakehouse.