Modèle d’article
À propos de Joins
Les jointures vous permettent de combiner des lignes provenant de 2 sources de données ou plus, sur la base d’une colonne de données connexe qu’elles partagent. L’utilisation d’une jointure permet de rassembler et d’analyser les données combinées de manière plus efficace, ce qui permet d’obtenir davantage d’informations.
Le modeleur de données ne prend en charge que les jointures externes gauches.
Comprendre les jointures externes gauches
Pour comprendre le fonctionnement d’une jointure externe gauche, prenons un exemple.
Regardez l’image de l’ensemble de données ci-dessous. La première source de données en haut est notre source de données “gauche”, et la deuxième source de données en bas est notre source de données “droite”.
Disons que ces tableaux représentent les données que vous pouvez trouver dans chaque enquête
:Emplacement des magasins (Source gauche)
Identifiant d’emplacement | Nom de l’emplacement |
555 | Provo |
777 | Dublin |
999 | Seattle |
1000 | Tokyo |
Retour d’information des clients (Right Source)
Identifiant du client | Satisfaction (1-5) | Identifiant d’emplacement |
101 | 2 | 555 |
102 | 4 | 777 |
103 | 5 | 999 |
104 | 5 | 222 |
Vous choisissez de joindre les données sur la base de l’ID de localisation. Ce champ est appelé “clé de jointure”
Il s’agit des données propres au deuxième ensemble de données. Cette disposition serait supprimée
:
Identifiant du client | Satisfaction (1-5) | Identifiant d’emplacement |
104 | 5 | 222 |
Il s’agit de la sortie finale, c’est-à-dire de toutes les données qui seront incluses dans vos résultats :
Identifiant d’emplacement | Nom de l’emplacement | Identifiant du client | Satisfaction (1-5) |
555 | Provo | 101 | 2 |
777 | Dublin | 102 | 4 |
999 | Seattle | 103 | 5 |
1000 | Tokyo | Nul | Nul |
Remarquez que les résultats de Provo, Dublin et Seattle contiennent des colonnes de données provenant à la fois des sources de droite et de gauche, car ces lignes partagent des identifiants de lieux communs.
Il n’y avait pas de données pour Tokyo dans la Source de droite, et donc la ligne Tokyo a des valeurs nulles sous les nouvelles colonnes ID client et Satisfaction.
Importance des clés de jointure uniques
Comme les clés de jointure permettent d’identifier les lignes qui doivent être combinées à partir des sources de gauche et de droite, nous vous recommandons de vous assurer que la clé de jointure que vous utilisez agit comme un identifiant unique. Dans le cas contraire, si plusieurs enregistrements de la source de droite correspondent à la clé de jointure de la source de gauche, seul l’un d’entre eux sera généralisé de manière aléatoire.
Exemple : Reprenons l’exemple que nous avons évoqué plus haut. Nous avons la même source gauche. Mais dans la bonne source, nous avons ces lignes :
Identifiant du client | Satisfaction (1-5) | Identifiant d’emplacement |
101 | 2 | 555 |
107 | 4 | 555 |
Dans la jointure résultante, seule l’une des 555 lignes sera sauvegardée, mais pas les deux.
Si la clé de jointure n’est pas unique pour chaque enregistrement d’une source droite et que vous souhaitez inclure tous les enregistrements de la source droite et de la source gauche, il convient d’utiliser une union. Les syndicats recueillent chaque dossier séparément au lieu de combiner les rangées d’informations.
Création de jointures
- Créer un modèle de données.
- Ajoutez au moins 2 sources de données à votre modèle de données.
Astuce : Veillez à inclure tous les champs dont vous avez besoin dans vos sources de données, y compris le champ commun que vous utiliserez pour joindre vos données (par exemple, un identifiant unique). - Cliquez sur le signe plus ( + ) suivant la source de données que vous souhaitez utiliser comme source de données de gauche.
- Sélectionnez Join.
- Nommez la sortie. Ceci est utile si vous prévoyez d’ajouter plusieurs jointures à votre ensemble de données.
- Sous Input, sélectionnez la source de données Right.
- Créez une condition de jointure. Faites correspondre le champ que chaque ensemble de données a en commun.
Exemple : Ici, nous faisons correspondre notre champ d’identification unique de chaque source de données l’une à l’autre.Astuce : des champs de tout type peuvent être utilisés dans des conditions de jointure. Nous vous recommandons vivement d’utiliser un identifiant unique qui corresponde aux deux sources de données.Astuce : les recodes sur les clés de jonction ne peuvent pas être utilisés.
- Si vous disposez d’au moins une autre source de données distincte en dessous des sources que vous avez jointes, vous pouvez créer une autre jointure en utilisant la jointure existante.
- Vous pouvez créer des jointures distinctes dans le même ensemble de données. Dans cette capture d’écran, vous joindriez les données de l’Enquête 2022 et de l’Actionnabilité, mais pas les deux premières sources de données.
- Terminez la création de votre modèle de données avec un ensemble de données de sortie.
Utilisation de jointures auxiliaires
Les jointures auxiliaires vous permettent de joindre plusieurs sources avec la même condition de jointure. Elles sont donc utiles lorsque vous souhaitez créer plusieurs jointures qui se chevauchent en utilisant les mêmes sources de données.
Plus tôt, nous avons expliqué comment les jointures externes gauches fonctionnent avec deux sources : une source droite et une source gauche. Les jointures auxiliaires vous permettent de définir plusieurs sources gauches pour la même source droite dans une jointure.
Exemple de jointure auxiliaire
Supposons que vous disposiez d’une base de données des emplacements de magasins, avec des noms liés à des identifiants. Vous disposez de deux années d’enquêtes au cours desquelles vous recueillez des commentaires sur vos magasins. Dans l’exemple ci-dessous, nous trouverons l’indice de satisfaction et l’identifiant du client pour 2020 et 2021, et nous les relierons à un nom de lieu.
Emplacement des magasins (source gauche)
Identifiant d’emplacement | Nom de l’emplacement |
555 | Provo |
777 | Dublin |
999 | Seattle |
1000 | Tokyo |
Customer Feedback 2020 (Right Source)
Identifiant du client | Satisfaction (1-5) | Identifiant d’emplacement |
101 | 2 | 555 |
102 | 4 | 777 |
103 | 5 | 999 |
104 | 5 | 222 |
Feedback client 2021 (source de droit auxiliaire)
Identifiant du client | Satisfaction (1-5) | Identifiant d’emplacement |
656 | 5 | 1000 |
838 | 4 | 222 |
979 | 3 | 999 |
343 | 5 | 777 |
Vous joignez les données sur la base de l’ID de localisation.
Il s’agit de la sortie finale, c’est-à-dire de toutes les données qui seront incluses dans vos résultats :
Identifiant d’emplacement | Nom de l’établissement | 2020 ID du client | 2020 Satisfaction | 2021 ID du client | 2021 Satisfaction |
777 | Dublin | 102 | 4 | 343 | 5 |
1000 | Tokyo | S/O | S/O | 656 | 5 |
999 | Seattle | 103 | 5 | 979 | 3 |
555 | Provo | 101 | 2 | S/O | S/O |
Remarquez que les données de 2020 et 2021 sont devenues des colonnesdistinctes dans le même ensemble de données de sortie.
Étant donné que 2020 ne disposait pas de données pour Tokyo, mais que 2021 en disposait, les colonnes de 2020 sont vides (N/A) pour Tokyo. De même, 2021 n’avait pas de données sur Provo.
Les enregistrements avec l’identifiant de lieu “222” de l’une ou l’autre année ont été exclus de la source de données finale, car le fichier des lieux de vente n’avait pas de lieu correspondant à cet identifiant. Voir Comprendre les jointures externes gauches pour une explication de la manière dont les données sont exclues.
Création d’une jointure auxiliaire
- Cliquez sur le lien.
- Allez dans les paramètres de l’adhésion.
- Cliquez sur le signe plus ( + ).
- Sélectionner la bonne entrée.
Exemple : Il s’agit de la deuxième source que vous souhaitez joindre à votre source de gauche. Dans notre exemple ci-dessus, il s’agirait de l’enquête sur les réactions des clients en 2021. - Ensemble de conditions de la colonne de gauche.
- Ensemble de conditions de la colonne de droite.
Répéter les étapes si nécessaire pour ajouter d’autres raccords auxiliaires.
Joints auxiliaires vs. Joints ultérieurs
Outre les jointures auxiliaires, vous pouvez cliquer sur le signe plus ( + ) suivant votre jointure terminée et sélectionner Joindre. Nous appellerons cette méthode une “jointure ultérieure”
En général, les jointures auxiliaires sont utiles lorsque vous souhaitez créer plusieurs jointures qui se chevauchent en utilisant les mêmes sources de données. Les jointures ultérieures sont idéales si vous souhaitez créer une jointure avec deux sources de données supplémentaires qui n’ont pas été incluses dans votre première jointure.
Astuce : Les jointures ultérieures sont également utiles si vous souhaitez effectuer des jointures multiples pour lesquelles une deuxième clé de jointure doit être extraite d’une autre source. Par exemple, disons que vous avez une enquête avec l’ID du magasin.
- Vous utilisez l’identifiant du magasin pour relier ces données à une source distincte contenant davantage de données de localisation.
- La Source de données de localisation possède également un champ appelé “Store Manager”
- Dans votre troisième source, vous disposez d’informations sur la hiérarchie de l’entreprise que vous rejoignez sur la base du champ “Store Manager”.
Grâce à cette méthode, les données d’enquête, les données de localisation et la hiérarchie de l’entreprise peuvent être combinées en un seul ensemble de données.
Toutefois, il arrive que les jointures auxiliaires et les jointures ultérieures produisent le même résultat.
Exemple : En développant notre exemple ci-dessus, vous obtiendriez les mêmes résultats si vous créiez une jointure ultérieure avec l’ID d’emplacement des Emplacements du magasin sur la gauche et l’ID d’emplacement de 2021 sur la droite.
Cependant, lorsque vous créez la première jointure, il n’y a pas qu’un seul champ d’identification de l’emplacement. Dans cet exemple, vous obtenez une colonne pour les versions Emplacement des magasins et Commentaires des clients 2020 de l’ID d’emplacement. Si vous essayez de joindre vos données à l’aide de l’ID de l’emplacement à partir du retour client 2020, les résultats seront différents de ceux obtenus à l’aide de la jointure auxiliaire.
Voici à quoi ressemblerait ce tableau de résultats. Puisque 2020 n’a pas de données pour Tokyo, les données existantes de 2021 pour Tokyo sont exclues des résultats finaux.
Identifiant d’emplacement | Nom de l’établissement | 2020 ID du client | 2020 Satisfaction | 2021 ID du client | 2021 Satisfaction |
777 | Dublin | 102 | 4 | 343 | 5 |
1000 | Tokyo | S/O | S/O | S/O | S/O |
999 | Seattle | 103 | 5 | 979 | 3 |
555 | Provo | 101 | 2 | S/O | S/O |