Artikelvorlage
Joins im Überblick
Mit Joins können Sie Zeilen aus zwei oder mehr Datenquellen basierend auf einer zugehörigen Datenspalte kombinieren, die sie gemeinsam nutzen. Durch die Verwendung eines Joins können Sie die kombinierten Daten effizienter und effektiver sammeln und analysieren und so mehr Erkenntnisse gewinnen.
Der Datenmodellierer unterstützt nur Left-Outer-Joins.
Linke äußere Joins verstehen
Um zu verstehen, wie ein Left Outer Join funktioniert, sehen wir uns ein Beispiel an.
Sehen Sie sich das Bild des Datensatzes unten an. Die erste Datenquelle oben ist unsere „linke“ Datenquelle, und die zweite Datenquelle unten ist unsere „rechte“ Datenquelle.
Angenommen, diese Tabellen stellen die Daten dar, die Sie in jeder Umfrage finden:
Filialstandorte (linke Quelle)
Standort-ID | Standortname |
555 | Provo |
777 | Dublin |
999 | Seattle |
1000 | Tokio |
Feedback (richtige Quelle)
Kunden-ID | Zufriedenheit (1-5) | Standort-ID |
101 | 2 | 555 |
102 | 4 | 777 |
103 | 5 | 999 |
104 | 5 | 222 |
Sie entscheiden sich für die Verknüpfung der Daten basierend auf Lokations-ID. Dieses Feld wird als “Join-Schlüssel” bezeichnet.
Dies sind die Daten, die für den zweiten Datensatz eindeutig sind. Dies wäre entfernt:
Kunden-ID | Zufriedenheit (1-5) | Standort-ID |
104 | 5 | 222 |
Dies ist die endgültige Ausgabe oder alle Daten, die enthalten in Ihren Ergebnisse:
Standort-ID | Standortname | Kunden-ID | Zufriedenheit (1-5) |
555 | Provo | 101 | 2 |
777 | Dublin | 102 | 4 |
999 | Seattle | 103 | 5 |
1000 | Tokio | Null | Null |
Beachten Sie, dass die Ergebnisse Datenspalten sowohl aus der rechten als auch aus der linken Quelle enthalten, da diese Zeilen gemeinsame Standort-IDs geteilt haben.
Da in der rechten Quelle keine Daten für Tokio vorhanden waren, enthält die Tokyo-Zeile Nullwerte in den neuen Spalten Kunden-ID und Zufriedenheit.
Wichtigkeit eindeutiger Join-Schlüssel
Da Join-Schlüssel helfen, Zeilen zu identifizieren, die aus der linken und rechten Quelle kombiniert werden müssen, empfehlen wir, sicherzustellen, dass der von Ihnen verwendete Join-Schlüssel wie eine eindeutige ID fungiert. Wenn in der rechten Quelle mehrere Datensätze vorhanden sind, die mit dem Join-Schlüssel der linken Quelle übereinstimmen, wird nur einer von ihnen zufällig abgerufen..
Beispiel: Sehen wir uns das oben besprochene Beispiel an. Wir haben die gleiche linke Quelle. Aber in der richtigen Quelle gibt es folgende Zeilen:
Kunden-ID | Zufriedenheit (1-5) | Standort-ID |
101 | 2 | 555 |
107 | 4 | 555 |
Im resultierenden Join wird nur eine der 555 Zeilen gesichert, aber nicht beides.
Wenn der Join-Schlüssel nicht für jeden Datensatz in einer rechten Quelle eindeutig ist und Sie alle Datensätze aus der rechten und linken Quelle einschließen möchten, Union stattdessen verwendet werden. Unionen ziehen jeden Datensatz separat ein, anstatt die Informationszeilen zu kombinieren.
Joins anlegen
- Datenmodell anlegen.
- Fügen Sie Ihrem Datenmodell mindestens zwei Quellen hinzu.
Tipp: Stellen Sie sicher, dass Sie alle Felder einschließen, die Sie in Ihren Datenquellen benötigen, einschließlich des allgemeinen Felds, das Sie zum Verknüpfen Ihrer Daten verwenden werden (z. B. eine eindeutige ID). - Klicken Sie auf das Pluszeichen ( + ) weiter der Datenquelle, die Sie als Ihre Links Datenquelle.
- Auswählen Join.
- Benennen Sie die Ausgabe. Dies ist hilfreich, wenn Sie Ihrem Datenset mehrere Joins hinzufügen möchten.
- Unter Eingabewählen Sie die Option Rechts Datenquelle.
- Legen Sie eine Bedingung. Entspricht dem Feld, das jeder Datensatz gemeinsam hat.
Beispiel: Hier bilden wir unsere Eindeutige ID Feld aus jeder Datenquelle aufeinander.Tipp: Felder beliebiger Typ können in Join-Bedingungen verwendet werden. Wir empfehlen dringend die Verwendung eines eindeutige ID die über beides Datenquellen.Tipp: Umkodierungen für Join-Schlüssel können nicht verwendet werden.
- Wenn Sie mindestens eine weitere, separate Datenquelle unter den Quellen haben, die Sie verknüpft haben, können Sie einen weiteren Join erstellen. über den bestehenden Join.
- Sie können separate Joins im selben Datenset. In diesem Screenshot würden Sie den Daten aus „2022 Umfrage and Actionability“ beitreten, aber nicht den beiden wichtigsten Datenquellen.
- Fertigstellen Anlegen Ihres Datenmodells mit einem Ausgabedatenset.
Hilfs-Joins verwenden
Mit zusätzlichen Joins können Sie mehrere Quellen mit derselben Bedingung verknüpfen. Daher sind sie nützlich, wenn Sie mehrere überlappende Joins mit denselben Datenquellen erstellen möchten.
Zuvor haben wir darüber gesprochen, wie Left Outer Joins funktionieren mit 2 Quellen: einer rechten und einer linken Quelle. Mit zusätzlichen Joins können Sie mehrere linke Quellen für dieselbe rechte Quelle in einem Join festlegen.
Beispiel für einen Auxiliary Join
Angenommen, Sie haben eine Datenbank mit Speicherorten, deren Namen mit IDs verknüpft sind. Sie haben 2 Jahre Umfragen, in denen Sie Feedback zu Ihren Geschäften sammeln. Im Beispiel unten finden wir die Zufriedenheitsbewertung und die Kunden-ID für 2020 und 2021 und verknüpfen sie mit einem Lokationsnamen.
Filialstandorte (linke Quelle)
Standort-ID | Standortname |
555 | Provo |
777 | Dublin |
999 | Seattle |
1000 | Tokio |
Feedback 2020 (richtige Quelle)
Kunden-ID | Zufriedenheit (1-5) | Standort-ID |
101 | 2 | 555 |
102 | 4 | 777 |
103 | 5 | 999 |
104 | 5 | 222 |
Feedback 2021 (zusätzliche rechte Quelle)
Kunden-ID | Zufriedenheit (1-5) | Standort-ID |
656 | 5 | 1000 |
838 | 4 | 222 |
979 | 3 | 999 |
343 | 5 | 777 |
Sie verknüpfen die Daten basierend auf Lokations-ID.
Dies ist die endgültige Ausgabe oder alle Daten, die enthalten in Ihren Ergebnisse:
Standort-ID | Ortsname | Kunden-ID 2020 | Zufriedenheit 2020 | 2021 Kunden-ID | Zufriedenheit 2021 |
777 | Dublin | 102 | 4 | 343 | 5 |
1000 | Tokio | Nicht zutreffend | Nicht zutreffend | 656 | 5 |
999 | Seattle | 103 | 5 | 979 | 3 |
555 | Provo | 101 | 2 | Nicht zutreffend | Nicht zutreffend |
Erfahren Sie, wie die Daten für 2020 und 2021 separat Spalten im selben Ausgabedatenset.
Da 2020 keine Daten für Tokio enthielt, 2021 jedoch, sind die 2020-Spalten für Tokio leer (N/A). Ebenso verfügte 2021 über keine Provo-Daten.
Datensätze mit der Lokations-ID “222” aus einem der beiden Jahre wurden aus der endgültigen Datenquelle ausgeschlossen, da die Speicherortdatei keinen entsprechenden Speicherort für diese ID hatte. Siehe Linke äußere Joins verstehen für eine Erläuterung, wie Daten ausgeschlossen werden.
Anlegen eines Hilfs-Joins
- Klicken Sie auf den Join.
- Gehe zu Join-Einstellungen.
- Klicken Sie auf das Pluszeichen ( + ).
- Wählen Sie die Rechte Eingabe.
Beispiel: Dies ist die zweite Quelle, die Sie mit Ihrer linken Quelle verknüpfen möchten. In unserem Beispiel oben wäre dies die Umfrage zum Feedback aus dem Jahr 2021. - Legen Sie die Bedingung.
- Legen Sie die Bedingung.
Wiederholen Sie die Schritte nach Bedarf, um weitere Hilfs-Joins hinzuzufügen.
Zusätzliche Joins vs. Nachfolgende Joins
Zusätzlich zu den Hilfs-Joins können Sie auf das Pluszeichen ( + ) weiter Ihrem abgeschlossenen Join, und wählen Sie Join. Wir nennen diese Methode einen “nachfolgenden Join”.
Im Allgemeinen sind Hilfs-Joins nützlich, wenn Sie Mehrere überlappende Joins mit denselben Datenquellen. Nachfolgende Joins sind am besten, wenn Sie einen Join mit 2 zusätzliche Datenquellen, die nicht in Ihrem ersten Join enthalten waren.
Tipp: Nachfolgende Joins sind auch nützlich, wenn Sie mehrere Joins erstellen möchten, bei denen ein zweiter Join-Schlüssel aus einer anderen Quelle abgerufen werden muss. Angenommen, Sie haben eine Umfrage mit der Filial-ID.
- Sie verwenden die Filial-ID, um diese Daten mit einer separaten Quelle mit mehr Lokationsdaten zu verknüpfen.
- Die Datenquelle enthält auch das Feld “Store Manager:in”.
- In Ihrer dritten Quelle verfügen Sie über Hierarchie, die Sie basierend auf dem Feld “Manager:in” verknüpfen.
Mit dieser Methode können Umfrage, Standortdaten und die Hierarchie in einem Datensatz kombiniert werden.
Es gibt jedoch Zeiten, in denen Hilfs-Joins und nachfolgende Joins die die gleiche Ausgabe.
Beispiel: Wenn Sie unser obiges Beispiel erweitern, erhalten Sie dieselben Ergebnisse, wenn Sie einen nachfolgenden Join mit Lokations-ID aus Filiallokationen auf der linken Seite und die Lokations-ID des Jahres 2021 auf der rechten Seite.
Wenn Sie jedoch den ersten Join anlegen, führt dies nicht nur zu einem einzigen Lokations-ID-Feld. Für dieses Beispiel erhalten Sie eine Spalte sowohl für die Filiallokationen als auch für die Feedback 2020 der Lokations-ID. Wenn Sie versuchen, Ihre Daten über die Standort-ID aus dem Feedback 2020 sind die Ergebnisse anders als beim Hilfs-Join.
So würde diese Ergebnisse aussehen. Da 2020 keine Daten für Tokio enthält, werden die vorhandenen Tokiot-Daten für 2021 von den Ergebnisse ausgeschlossen.
Standort-ID | Ortsname | Kunden-ID 2020 | Zufriedenheit 2020 | 2021 Kunden-ID | Zufriedenheit 2021 |
777 | Dublin | 102 | 4 | 343 | 5 |
1000 | Tokio | Nicht zutreffend | Nicht zutreffend | Nicht zutreffend | Nicht zutreffend |
999 | Seattle | 103 | 5 | 979 | 3 |
555 | Provo | 101 | 2 | Nicht zutreffend | Nicht zutreffend |