Join (CX)
Informazioni sui join
I join consentono di combinare righe di 2 o più origini dati in base a una colonna correlata di dati condivisi. Utilizzando un join, è possibile raccogliere e analizzare i dati combinati in modo più efficiente ed efficace, creando più analisi.
Il modellatore di dati supporta solo join esterni a sinistra.
Comprensione dei join esterni sinistri
Per capire come funziona un join esterno sinistro, diamo un esempio.
Guarda l’immagine del set di dati qui sotto. La prima origine dati in alto è quella “sinistra” e la seconda in basso è la “destra”.
Supponiamo che queste tabelle rappresentino i dati che si possono trovare in ogni sondaggio:
Store Locations (sorgente sinistra)
ID ubicazione | Nome località |
555 | Provo |
777 | Dublino |
999 | Seattle |
1000 | Tokyo |
Feedback del cliente (fonte corretta)
ID cliente | Soddisfazione (1-5) | ID ubicazione |
101 | 2 | 555 |
102 | 4 | 777 |
103 | 5 | 999 |
104 | 5 | 222 |
Si sceglie di collegare i dati in base all’ID ubicazione. Questo campo viene definito come “chiave join”.
Si tratta dei dati univoci per il secondo insieme di dati. Questo verrebbe rimosso:
ID cliente | Soddisfazione (1-5) | ID ubicazione |
104 | 5 | 222 |
Questo è l’output finale o tutti i dati che verrebbero inclusi nei risultati:
ID ubicazione | Nome località | ID cliente | Soddisfazione (1-5) |
555 | Provo | 101 | 2 |
777 | Dublino | 102 | 4 |
999 | Seattle | 103 | 5 |
1000 | Tokyo | Null | Null |
Notare come i risultati di Provo, Dublino e Seattle contengono colonne di dati provenienti sia dalle sorgenti di destra che di sinistra, poiché queste righe condividevano ID di posizione comuni.
Non erano presenti dati per Tokyo nell’origine destra, pertanto la riga Tokyo presenta valori nulli nelle nuove colonne ID cliente e Soddisfazione.
Importanza delle chiavi di collegamento univoche
Poiché le chiavi di collegamento aiutano a identificare le righe che devono essere combinate tra le origini sinistra e destra, si consiglia di assicurarsi che la chiave di collegamento utilizzata funga da identificatore univoco. In caso contrario, se nell’origine di destra sono presenti più record che corrispondono alla chiave di collegamento dell’origine di sinistra, solo uno di essi verrà estratto in modo casuale.
Esempio: diamo un’occhiata all’esempio di cui abbiamo discusso sopra. Abbiamo la stessa fonte sinistra. Tuttavia, nella fonte corretta, sono presenti queste righe:
ID cliente | Soddisfazione (1-5) | ID ubicazione |
101 | 2 | 555 |
107 | 4 | 555 |
Nel join risultante, verrà salvata solo una delle 555 righe, ma non entrambe.
Se la chiave di collegamento non è univoca per ogni record in un’origine di destra e si desidera includere tutti i record sia dell’origine di destra che di sinistra, è necessario utilizzare un‘unione. Le unioni rilevano ciascuno dei record separatamente invece di combinare le righe di informazioni.
Creazione di join
- Creare un modello dati.
- Aggiungere almeno 2 origini al modello di dati.
Consiglio Q: assicurati di includere tutti i campi necessari nelle tue origini dati, incluso il campo comune che utilizzerai per collegare i tuoi dati (ad esempio, un ID univoco). - Fare clic sul segno più ( + ) accanto all’origine dati che si desidera fungere da origine dati sinistra.
- Selezionare Unisci.
- Denominare l’output. Ciò è utile se si prevede di aggiungere più join all’insieme di dati.
- In Input, selezionare l’origine dati destra.
- Creare una condizione join. Corrispondono al campo che ogni insieme di dati ha in comune.
Esempio: qui stiamo mappando il campo ID univoco da ogni origine dati l’uno all’altro.Consiglio Q: i campi di qualsiasi tipo possono essere utilizzati nelle condizioni join. Si consiglia vivamente di utilizzare un identificatore univoco che corrisponda in entrambe le origini dati.
- Se si dispone di almeno un’altra sorgente dati separata sotto le sorgenti collegate, è possibile creare un altro collegamento utilizzando il collegamento esistente.
- È possibile creare join separati nello stesso insieme di dati. In questa schermata, ti uniresti ai dati del sondaggio 2022 e alle azioni, ma non alle prime 2 sorgenti di dati.
- Concludere la creazione del modello di dati con un insieme di dati di output.
Utilizzo di join ausiliari
I join ausiliari consentono di collegare più origini con la stessa condizione join. Pertanto, sono utili quando si desidera creare più join sovrapposti utilizzando le stesse origini dati.
In precedenza, abbiamo parlato di come funzionano i join esterni a sinistra con 2 origini: un’origine di destra e una sinistra. I join ausiliari consentono di impostare più origini di sinistra per la stessa origine di destra in un collegamento.
Esempio di un join ausiliario
Si supponga di disporre di un database di ubicazioni dei punti di vendita, con nomi collegati a ID. Hai 2 anni di sondaggi in cui raccogli feedback sui tuoi negozi. Nell’esempio seguente, troveremo la valutazione della soddisfazione e l’ID cliente per il 2020 e il 2021, quindi li collegheremo al nome di un’ubicazione.
Ubicazioni PdV (sorgente sinistra)
ID ubicazione | Nome località |
555 | Provo |
777 | Dublino |
999 | Seattle |
1000 | Tokyo |
Feedback del cliente 2020 (fonte corretta)
ID cliente | Soddisfazione (1-5) | ID ubicazione |
101 | 2 | 555 |
102 | 4 | 777 |
103 | 5 | 999 |
104 | 5 | 222 |
Feedback del cliente 2021 (sorgente ausiliaria destra)
ID cliente | Soddisfazione (1-5) | ID ubicazione |
656 | 5 | 1000 |
838 | 4 | 222 |
979 | 3 | 999 |
343 | 5 | 777 |
Si uniscono i dati in base all’ID ubicazione.
Questo è l’output finale o tutti i dati che verrebbero inclusi nei risultati:
ID ubicazione | Nome località | ID cliente 2020 | Soddisfazione 2020 | ID cliente 2021 | Soddisfazione 2021 |
777 | Dublino | 102 | 4 | 343 | 5 |
1000 | Tokyo | N/D | N/D | 656 | 5 |
999 | Seattle | 103 | 5 | 979 | 3 |
555 | Provo | 101 | 2 | N/D | N/D |
Notare come i dati 2020 e 2021 sono diventati colonne separate nello stesso insieme di dati di output.
Poiché il 2020 non aveva dati per Tokyo, ma il 2021 sì, le colonne 2020 sono vuote (N/A) per Tokyo. Allo stesso modo, il 2021 non aveva dati Provo.
I record con ID ubicazione “222” di entrambi gli anni sono stati esclusi dalla sorgente dati finale, poiché il file delle ubicazioni archivio non aveva un’ubicazione corrispondente per quell’ID. Vedere Comprensione dei join esterni sinistri per una spiegazione sulla modalità di esclusione dei dati.
Creazione di un join ausiliario
- Fare clic sul join.
- Passare alle impostazioni di collegamento.
- Fare clic sul segno più ( + ).
- Selezionare l’input corretto.
Esempio: si tratta della seconda origine che si desidera collegare all’origine sinistra. Nell’esempio precedente, questo sarebbe il sondaggio di feedback dei clienti del 2021. - Impostare la condizione di join della colonna di sinistra.
- Impostare la condizione di join della colonna di destra.
Ripetere i passaggi necessari per aggiungere più join ausiliari.
Collegamenti ausiliari vs. Join successivi
Oltre ai join ausiliari, è possibile fare clic sul segno più ( + ) accanto al join completato e selezionare Join. Questo metodo verrà chiamato “join successivo”.
In generale, i join ausiliari sono utili quando si desidera creare più join sovrapposti utilizzando le stesse origini dati. I join successivi sono ideali se si desidera creare un join con 2 origini dati aggiuntive non incluse nel primo join.
Qtip: I join successivi sono utili anche se si desidera creare più join in cui una seconda chiave di join deve essere estratta da un’altra origine. Ad esempio, si supponga di avere un questionario con ID punto vendita.
- L’ ID memoria viene utilizzato per collegare questi dati a una sorgente separata con più dati ubicazione.
- La sorgente dati dell’ubicazione ha anche un campo denominato “Store Manager”.
- Nella terza fonte, hai le informazioni sulla gerarchia della società a cui stai aderendo in base al campo “Responsabile del punto vendita”.
Utilizzando questo metodo, i dati dell’indagine, i dati dell’ubicazione e la gerarchia della società possono tutti essere combinati in un unico set di dati.
Tuttavia, ci sono volte che i join ausiliari e i join successivi possono avere lo stesso output.
Esempio: espandendo l’esempio precedente, si otterrebbero gli stessi risultati se si creasse un collegamento successivo con ID ubicazione da Ubicazioni del punto di vendita a sinistra e ID ubicazione del 2021 a destra.
Tuttavia, quando si crea il primo join, non risulta in un solo campo ID ubicazione. Per questo esempio, si finisce con una colonna per le versioni Ubicazioni del punto di vendita e Feedback cliente 2020 dell’ ID ubicazione. Se si tenta di unirsi ai dati utilizzando l’ID ubicazione del feedback cliente 2020, i risultati sarebbero diversi da quelli del join ausiliario.
Ecco come apparirebbe quella tabella di risultati. Poiché il 2020 non ha dati per Tokyo, i dati esistenti di Tokyo 2021 vengono esclusi dai risultati finali.
ID ubicazione | Nome località | ID cliente 2020 | Soddisfazione 2020 | ID cliente 2021 | Soddisfazione 2021 |
777 | Dublino | 102 | 4 | 343 | 5 |
1000 | Tokyo | N/D | N/D | N/D | N/D |
999 | Seattle | 103 | 5 | 979 | 3 |
555 | Provo | 101 | 2 | N/D | N/D |