Jointures (CX)
À propos des jointures
Les jointures vous permettent de combiner des lignes de deux sources de données ou plus en fonction d’une colonne de données liée qu’elles partagent. En utilisant une jointure, vous pouvez collecter et analyser les données combinées plus efficacement, en créant plus d’informations.
Le modéliseur de données prend uniquement en charge les jointures externes gauches.
Compréhension des jointures externes gauches
Pour comprendre comment fonctionne une jointure externe gauche, regardons un exemple.
Regardez l’image du jeu de données ci-dessous. La première source de données en haut est notre source de données « de gauche » et la deuxième source de données en bas est notre source de données « droite ».
Supposons que ces tableaux représentent les données que vous pouvez trouver dans chaque enquête :
Lieux des points de vente (source gauche)
Identifiant d’emplacement | Nom de l’emplacement |
555 | Provo |
777 | Dublin |
999 | Seattle |
1000 | Tokyo |
Feedback des clients (bonne source)
ID client | Satisfaction (1-5) | Identifiant d’emplacement |
101 | 2 | 555 |
102 | 4 | 777 |
103 | 5 | 999 |
104 | 5 | 222 |
Vous choisissez de joindre les données en fonction de l’ID de site. Cette zone est appelée “clé de jointure”.
Il s’agit des données propres au deuxième jeu de données. Cela serait supprimé :
ID client | Satisfaction (1-5) | Identifiant d’emplacement |
104 | 5 | 222 |
Il s’agit de la sortie finale ou de toutes les données qui seraient incluses dans vos résultats :
Identifiant d’emplacement | Nom de l’emplacement | ID client | Satisfaction (1-5) |
555 | Provo | 101 | 2 |
777 | Dublin | 102 | 4 |
999 | Seattle | 103 | 5 |
1000 | Tokyo | Nul | Nul |
Notez que les résultats Provo, Dublin et Seattle contiennent des colonnes de données provenant à la fois des sources Droite et Gauche, car ces lignes partageaient des ID d’emplacement communs.
Il n’y avait pas de données pour Tokyo dans la source Droite et la ligne Tokyo a donc des valeurs nulles sous les nouvelles colonnes ID client et Satisfaction.
Importance des clés de jointure uniques
Étant donné que les clés de jointure aident à identifier les lignes qui doivent être combinées entre les sources gauche et droite, nous vous recommandons de vous assurer que la clé de jointure que vous utilisez agit comme un identifiant unique. Sinon, si plusieurs enregistrements de la source droite correspondent à la clé de jointure de la source gauche, un seul d’entre eux sera extrait au hasard.
Exemple : voyons l’exemple dont nous avons parlé ci-dessus. Nous avons la même source gauche. Mais dans la bonne source, nous avons les lignes suivantes :
ID client | Satisfaction (1-5) | Identifiant d’emplacement |
101 | 2 | 555 |
107 | 4 | 555 |
Dans la jointure qui en résulte, une seule des 555 lignes sera enregistrée, mais pas les deux.
Si la clé de jointure n’est pas unique pour chaque enregistrement d’une source droite et que vous souhaitez inclure tous les enregistrements de la source de droite et de gauche, une union doit être utilisée à la place. Les unions extraient chacun des enregistrements séparément au lieu de combiner les lignes d’informations.
Création de jointures
- Créez un modèle de données.
- Ajoutez au moins 2 sources à votre modèle de données.
Astuce Qualtrics : assurez-vous d’inclure tous les champs dont vous avez besoin dans vos sources de données, y compris le champ commun que vous utiliserez pour joindre vos données (p. ex., un identifiant unique). - Cliquez sur le signe plus (+ ) en regard de la source de données que vous souhaitez utiliser comme source de données de gauche.
- Sélectionnez Jointure.
- Nommez la sortie. Cela est utile si vous prévoyez d’ajouter plusieurs jointures à votre jeu de données.
- Sous Entrée, sélectionnez la source de données Droite.
- Créez une condition de jointure. Faites correspondre le champ en commun de chaque jeu de données.
Exemple : ici, nous mappons notre champ ID unique de chaque source de données à l’autre.Astuce Qualtrics : les champs de tout type peuvent être utilisés dans les conditions de jointure. Nous vous recommandons vivement d’utiliser un identifiant unique qui correspond dans les deux sources de données.
- Si vous avez au moins une autre source de données distincte sous les sources que vous avez jointes, vous pouvez créer une autre jointure à l’aide de la jointure existante.
- Vous pouvez créer des jointures distinctes dans le même jeu de données. Dans cette capture d’écran, vous rejoindriez les données de 2022 Survey and Actionability, mais pas les 2 premières sources de données.
- Terminez la création de votre modèle de données avec un jeu de données de sortie.
Utilisation des jointures auxiliaires
Les jointures auxiliaires vous permettent de joindre plusieurs sources avec la même condition de jointure. Ainsi, elles sont utiles lorsque vous souhaitez créer plusieurs jointures qui se chevauchent à l’aide des mêmes sources de données.
Plus tôt, nous avons parlé de la façon dont les jointures externes gauches fonctionnent avec 2 sources : une source droite et une source gauche. Les jointures auxiliaires vous permettent de définir plusieurs sources gauche pour la même source droite dans une jointure.
Exemple de jointure auxiliaire
Supposons que vous ayez une base de données d’emplacements de points de vente, avec des noms liés à des ID. Vous avez 2 ans d’enquêtes où vous collectez des avis sur vos magasins. Dans l’exemple ci-dessous, nous trouverons l’évaluation de satisfaction et l’ID client pour 2020 et 2021, et nous les lierons à un nom de site.
Sites du point de vente (source gauche)
Identifiant d’emplacement | Nom de l’emplacement |
555 | Provo |
777 | Dublin |
999 | Seattle |
1000 | Tokyo |
Feedback des clients 2020 (bonne source)
ID client | Satisfaction (1-5) | Identifiant d’emplacement |
101 | 2 | 555 |
102 | 4 | 777 |
103 | 5 | 999 |
104 | 5 | 222 |
Feedback client 2021 (source secondaire)
ID client | Satisfaction (1-5) | Identifiant d’emplacement |
656 | 5 | 1000 |
838 | 4 | 222 |
979 | 3 | 999 |
343 | 5 | 777 |
Vous joignez les données en fonction de l’ID de site.
Il s’agit de la sortie finale ou de toutes les données qui seraient incluses dans vos résultats :
Identifiant d’emplacement | Nom de l’établissement | ID client 2020 | Satisfaction 2020 | ID client 2021 | Satisfaction 2021 |
777 | Dublin | 102 | 4 | 343 | 5 |
1000 | Tokyo | Non applicable | Non applicable | 656 | 5 |
999 | Seattle | 103 | 5 | 979 | 3 |
555 | Provo | 101 | 2 | Non applicable | Non applicable |
Notez comment les données 2020 et 2021 sont devenues des colonnes distinctes dans le même jeu de données de sortie.
Comme 2020 ne contenait pas de données pour Tokyo, mais 2021, les colonnes 2020 sont vides (N/A) pour Tokyo. De même, 2021 n’avait pas de données Provo.
Les enregistrements avec l’ID de site “222” de l’une ou l’autre année ont été exclus de la source de données finale car le fichier des sites de stockage n’avait pas d’emplacement correspondant pour cet ID. Voir Comprendre les jointures externes gauches pour une explication de la manière dont les données sont exclues.
Création d’une jointure auxiliaire
- Cliquez sur la jointure.
- Accédez aux paramètres de jointure.
- Cliquez sur le signe plus ( + ).
- Sélectionnez la Saisie droite.
Exemple : il s’agit de la deuxième source que vous souhaitez joindre à votre source gauche. Dans notre exemple ci-dessus, il s’agit de l’enquête de feedback des clients 2021. - Définissez la condition de jointure de la colonne de gauche.
- Définissez la condition de jointure de la colonne de droite.
Répétez les étapes si nécessaire pour ajouter d’autres jointures auxiliaires.
Jointures auxiliaires vs. Jointures suivantes
En plus des jointures auxiliaires, vous pouvez cliquer sur le signe plus ( + ) en regard de votre jointure terminée et sélectionner Joindre. Nous appellerons cette méthode une « jointure ultérieure ».
Généralement, les jointures auxiliaires sont utiles lorsque vous souhaitez créer plusieurs jointures qui se chevauchent à l’aide des mêmes sources de données. Les jointures suivantes sont recommandées si vous souhaitez créer une jointure avec 2 sources de données supplémentaires qui n’étaient pas incluses dans votre première jointure.
Astuce Qualtrics : les jointures suivantes sont également utiles si vous souhaitez créer plusieurs jointures où une deuxième clé de jointure doit être extraite d’une autre source. Par exemple, supposons que vous ayez une enquête avec un ID de point de vente.
- Vous utilisez l’ ID du point de vente pour joindre ces données à une source distincte avec d’autres données de site.
- La source de données du site comporte également une zone appelée “Gestionnaire de point de vente”.
- Dans votre troisième source, vous disposez d’informations sur la hiérarchie de la société que vous rejoignez en fonction du champ “Directeur de point de vente”.
À l’aide de cette méthode, les données d’enquête, les données de localisation et la hiérarchie de l’entreprise peuvent toutes être combinées dans un seul ensemble de données.
Cependant, il arrive que les jointures auxiliaires et suivantes aient la même sortie.
Exemple : en développant notre exemple ci-dessus, vous obtiendrez les mêmes résultats si vous créez une jointure ultérieure avec l‘ID de site à partir des magasins à gauche et l’ID de site de 2021 à droite.
Cependant, lorsque vous créez la première jointure, elle n’entraîne pas la création d’une seule zone ID de site. Dans cet exemple, vous obtenez une colonne pour les versions Sites du point de vente et Feedback client 2020 de l’ID de site. Si vous tentez de joindre vos données à l’aide de l’ID d’emplacement du Feedback client 2020, les résultats seront différents de ceux obtenus avec la jointure auxiliaire.
Voici à quoi ressemblerait ce tableau de résultats. Comme 2020 ne contient pas de données pour Tokyo, les données existantes de Tokyo 2021 sont exclues des résultats finaux.
Identifiant d’emplacement | Nom de l’établissement | ID client 2020 | Satisfaction 2020 | ID client 2021 | Satisfaction 2021 |
777 | Dublin | 102 | 4 | 343 | 5 |
1000 | Tokyo | Non applicable | Non applicable | Non applicable | Non applicable |
999 | Seattle | 103 | 5 | 979 | 3 |
555 | Provo | 101 | 2 | Non applicable | Non applicable |