Modello di articolo
Informazioni su Joins
I join consentono di combinare le righe di 2 o più origini dati in base a una colonna di dati correlata che condividono. Utilizzando un join, è possibile raccogliere e analizzare i dati combinati in modo più efficiente ed efficace, creando maggiori approfondimenti.
Il modellatore di dati supporta solo le giunzioni esterne a sinistra.
Capire le giunzioni esterne a sinistra
Per capire come funziona una join esterna sinistra, vediamo un esempio.
Guardate l’immagine del set di dati qui sotto. La prima origine dati in alto è la nostra origine dati “sinistra”, mentre la seconda origine dati in basso è la nostra origine dati “destra”.
Diciamo che queste tabelle rappresentano i dati che si possono trovare in ogni sondaggio
:Origine del SONDAGGIO (Origine sinistra)
ID ubicazione | Nome località |
555 | Provo |
777 | Dublino |
999 | Seattle |
1000 | Tokyo |
Feedback dei clienti (fonte giusta)
ID cliente | Soddisfazione (1-5) | ID ubicazione |
101 | 2 | 555 |
102 | 4 | 777 |
103 | 5 | 999 |
104 | 5 | 222 |
Si sceglie di unire i dati in base all’ID della località. Questo campo è chiamato “chiave di collegamento”
Questi sono i dati unici del secondo set di dati. Questo sarebbe stato rimosso:
ID cliente | Soddisfazione (1-5) | ID ubicazione |
104 | 5 | 222 |
Questo è l’output finale, ovvero tutti i dati che saranno inclusi nei risultati:
ID ubicazione | Nome località | ID cliente | Soddisfazione (1-5) |
555 | Provo | 101 | 2 |
777 | Dublino | 102 | 4 |
999 | Seattle | 103 | 5 |
1000 | Tokyo | Nullo | Nullo |
Si noti come i risultati di Provo, Dublino e Seattle contengano colonne di dati provenienti sia dall’origine destra che da quella sinistra, perché queste righe condividono ID di località comuni.
Nell’origine dati non c’erano dati per Tokyo, quindi la riga di Tokyo ha valori nulli nelle nuove colonne ID cliente e Soddisfazione.
Importanza delle chiavi di accesso univoche
Poiché le chiavi di join aiutano a identificare le righe che devono essere combinate dalle fonti di sinistra e di destra, si consiglia di assicurarsi che la chiave di join utilizzata agisca come un identificatore unico. Altrimenti, se nell’origine destra ci sono più record che corrispondono alla chiave di join dell’origine sinistra, solo uno di essi verrà estratto in modo casuale.
Esempio: Riprendiamo l’esempio di cui abbiamo parlato sopra. Abbiamo la stessa fonte di sinistra. Ma nella fonte giusta abbiamo queste righe:
ID cliente | Soddisfazione (1-5) | ID ubicazione |
101 | 2 | 555 |
107 | 4 | 555 |
Nella join risultante, verrà salvata solo una delle 555 righe, ma non entrambe.
Se la chiave di join non è unica per ogni record di una sorgente destra e si desidera includere tutti i record della sorgente destra e di quella sinistra, è necessario utilizzare un’unione. I sindacati inseriscono ogni record separatamente invece di combinare le righe di informazioni.
Creazione di join
- Creare un modello di dati.
- Aggiungere almeno 2 fonti al modello di dati.
Consiglio Q: assicurarsi di includere tutti i campi necessari nelle Origini dati, compreso il campo comune che verrà utilizzato per unire i dati (ad esempio, un ID univoco). - Fare clic sul segno più ( + ) accanto all’origine dati che si desidera utilizzare come origine dati sinistra.
- Selezionate Partecipa.
- Dare un nome all’uscita. È utile se si intende aggiungere più join al set di dati.
- In Input, selezionare l’origine dati Right.
- Creare una condizione di unione. Abbinare il campo che ogni set di dati ha in comune.
Esempio: Qui stiamo mappando il nostro campo Unique ID da ciascuna origine dati all’altra.Consiglio q: nelle condizioni di join si possono usare campi di qualsiasi tipo. Si consiglia di utilizzare un identificatore unico che corrisponda a entrambe le origini dati.Consiglio Q: non è possibile utilizzare le ricodifiche delle chiavi di unione.
- Se si dispone di almeno un’altra origine dati separata al di sotto delle origini unite, è possibile creare un’altra unione utilizzando l’unione esistente.
- È possibile creare join separati nello stesso set di dati. In questa schermata, si uniscono i dati di 2022 SONDAGGIO e Actionability, ma non le prime due origini dati.
- Terminare la creazione del modello di dati con un set di dati di output.
Utilizzo delle giunzioni ausiliarie
I join ausiliari consentono di unire più fonti con la stessa condizione di join. Sono quindi utili quando si vogliono creare più join sovrapposti utilizzando le stesse origini dati.
Prima abbiamo spiegato come funzionano le giunzioni esterne a sinistra con due fonti: una fonte destra e una fonte sinistra. Le giunzioni ausiliarie consentono di impostare più sorgenti di sinistra per la stessa sorgente di destra in una giunzione.
Esempio di join ausiliario
Supponiamo di avere un database di sedi di negozi, con nomi collegati a ID. Avete 2 anni di sondaggi in cui raccogliete feedback sui vostri negozi. Nell’esempio seguente, troveremo l’indice di gradimento e l’ID cliente per il 2020 e il 2021 e li collegheremo a un nome di località.
Sedi dei negozi (fonte sinistra)
ID ubicazione | Nome località |
555 | Provo |
777 | Dublino |
999 | Seattle |
1000 | Tokyo |
Feedback dei clienti 2020 (Right Source)
ID cliente | Soddisfazione (1-5) | ID ubicazione |
101 | 2 | 555 |
102 | 4 | 777 |
103 | 5 | 999 |
104 | 5 | 222 |
Feedback dei clienti 2021 (fonte ausiliaria giusta)
ID cliente | Soddisfazione (1-5) | ID ubicazione |
656 | 5 | 1000 |
838 | 4 | 222 |
979 | 3 | 999 |
343 | 5 | 777 |
Si uniscono i dati in base all’ID della località.
Questo è l’output finale, ovvero tutti i dati che saranno inclusi nei risultati:
ID ubicazione | Nome località | 2020 ID cliente | 2020 Soddisfazione | 2021 ID cliente | 2021 Soddisfazione |
777 | Dublino | 102 | 4 | 343 | 5 |
1000 | Tokyo | N/D | N/D | 656 | 5 |
999 | Seattle | 103 | 5 | 979 | 3 |
555 | Provo | 101 | 2 | N/D | N/D |
Si noti come i dati del 2020 e del 2021 siano diventati colonneseparate nello stesso set di dati di output.
Poiché il 2020 non ha fornito dati per Tokyo, ma il 2021 sì, le colonne del 2020 sono vuote (N/A) per Tokyo. Allo stesso modo, il 2021 non aveva dati su Provo.
I record con l’ID della località “222” di entrambi gli anni sono stati esclusi dall’Origine dati finale, poiché il file delle ubicazioni dei punti vendita non aveva una località corrispondente a quell’ID. Per una spiegazione del modo in cui i dati vengono esclusi, si veda la sezione Comprendere le giunzioni esterne a sinistra.
Creazione di una giunzione ausiliaria
- Fare clic su unisci.
- Andare alle impostazioni di partecipazione.
- Fare clic sul segno più ( + ).
- Selezionare l’ingresso giusto.
Esempio: Questa è la seconda sorgente che si vuole unire alla sorgente sinistra. Nell’esempio precedente, si tratta del sondaggio sul feedback dei clienti del 2021. - Impostare la condizione di unione della colonna sinistra.
- Impostare la condizione di unione della colonna destra.
Ripetere le operazioni necessarie per aggiungere altre giunzioni ausiliarie.
Giunzioni ausiliarie vs. Giunti ausiliari. Unioni successive
Oltre alle unioni ausiliarie, è possibile fare clic sul segno più ( + ) avanti all’unione completata e selezionare Unisci. Questo metodo viene chiamato “join successivo”
In generale, le join ausiliarie sono utili quando si desidera creare più join sovrapposti utilizzando le stesse origini dati. Le unioni successive sono ideali se si desidera creare un’unione con altre 2 origini dati che non sono state incluse nella prima unione.
CONSIGLIO Q: Le giunzioni successive sono utili anche se si vogliono fare giunzioni multiple in cui una seconda chiave di giunzione deve essere prelevata da un’altra fonte. Ad esempio, supponiamo di avere un sondaggio con ID negozio.
- L’ID del negozio viene utilizzato per unire questi dati a un’origine separata con altri dati sulla posizione.
- L’origine dati dell’ubicazione ha anche un campo chiamato “Store Manager”
- Nella terza fonte, sono presenti informazioni sulla gerarchia aziendale che vengono unite in base al campo “Store Manager”.
Con questo metodo, i dati del sondaggio, i dati relativi all’ubicazione e la gerarchia aziendale possono essere combinati in un unico set di dati.
Tuttavia, in alcuni casi le giunzioni ausiliarie e le giunzioni successive possono avere lo stesso risultato.
Esempio: Se si amplia l’esempio precedente, si otterrebbero gli stessi risultati se si creasse un join successivo con l’ID della sede da Punti vendita a sinistra e l’ID della sede di 2021 a destra.
Tuttavia, quando si crea la prima unione, non si ottiene un solo campo ID località. In questo esempio, si ottiene una colonna per le versioni dell’ID sede del punto vendita e dell’ID sede del 2020 Customer Feedback. Se si tenta di unire i dati utilizzando l’ID della sede dal FEEDBACK 2020, i risultati saranno diversi da quelli ottenuti con il join ausiliario.
Ecco come si presenterebbe la tabella risultati. Poiché il 2020 non ha dati per Tokyo, i dati esistenti di Tokyo 2021 vengono esclusi dai risultati finali.
ID ubicazione | Nome località | 2020 ID cliente | 2020 Soddisfazione | 2021 ID cliente | 2021 Soddisfazione |
777 | Dublino | 102 | 4 | 343 | 5 |
1000 | Tokyo | N/D | N/D | N/D | N/D |
999 | Seattle | 103 | 5 | 979 | 3 |
555 | Provo | 101 | 2 | N/D | N/D |