zum Hauptinhalt springen
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Benutzerfreundlicher Leitfaden zur linearen Regression


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Was ist Regression?

Die Regression schätzt eine mathematische Formel, die eine oder mehrere Eingabevariablen mit einer Ausgabevariablen in Beziehung setzt.

Angenommen, Sie führen einen Limonadenstand und sind daran interessiert, was den Umsatz steigert. Deine Daten umfassen jeden Tag „Umsatz“, „Hohe Temperatur“, „Anzahl Kinder, die vorbeikamen“, „Anzahl der Erwachsenen, die vorbeigelaufen sind“, was „Beschilderung“ Sie an diesem Tag verwendet haben, und einen nahegelegenen „Umsatz des Wettbewerbers“.

Umsatz Temperatur (Celsius) Minuten der Pausenzeit Anzahl der Kinder, die vorbeikamen Anzahl der Erwachsenen, die vorbeigelaufen sind Beschilderung Umsatz des Wettbewerbers
44 USD 28.2 30 43 380 Handlackiert 20 EUR
23 EUR 21.4 42 28 207 LED 30 EUR
43 USD 32.9 14 43 364 Handlackiert 34 €
30 EUR 24,0 24 18 103 LED 15 €
usw. usw. usw. usw. usw. usw. usw.

 

Sie sind der Meinung, dass “Temperatur” (eine Eingabe- oder erklärende Variable) Auswirkungen auf “Umsatz” (eine Ausgabe- oder Antwortvariable) haben könnte. Wenn Sie diese Beziehung mithilfe der Regression analysieren, kann dies folgende Formel ergeben:

Umsatz = 2,71 * Temperatur   –   35Diese

Formel ist aus zwei Gründen nützlich.

Erstens ermöglicht es Ihnen, eine Beziehung zu verstehen: heißere Tage führen zu mehr “Umsatz”. Vor allem die 2,71 vor “Temperatur” (der sogenannte Koeffizient) bedeutet, dass für jeden Grad “Temperatur” nach oben geht, im Schnitt werden 2,71 Dollar mehr “Umsatz” liegen. Diese Erkenntnis kann dazu führen, dass Sie entscheiden, Limonade an kalten Tagen nicht zu verkaufen.

Zweitens und zeitnah kann es Ihnen auch dabei helfen, bestimmte Prognosen zu erstellen. Wenn die “Temperatur” 24 ist, könnten Sie schätzen, dass seit…

Umsatz = 2,71 * Temperatur   –   35
Umsatz = 2,71 * 24   –   35
Umsatz = 30

…Sie haben ungefähr 30 $ in “Umsatz”. Dies kann hilfreich sein, um zu erfahren, ob Sie an diesem Tag eine Zahlung vornehmen können, vorausgesetzt, Sie sind sicher, dass Ihr Modell korrekt ist.

Nun gehen wir durch den Prozess zum Anlegen dieser Regressionsgleichung.

Erstellen eines Regressionsmodells vorbereiten

1. Denken Sie über die Theorie Ihrer Regression nach.

Nachdem Sie eine Antwortvariable ausgewählt haben, hypothetisieren “Umsatz“, wie verschiedene Eingaben damit zusammenhängen können. Sie könnten beispielsweise glauben, dass höhere „Temperatur“ zu einem höheren „Umsatz“ führen wird, Sie sind sich möglicherweise unsicher, wie sich verschiedene Beschilderungen auf „Umsatz“ auswirken werden, und Sie könnten glauben, dass „Umsatz des Wettbewerbers“ von „Temperatur“ betroffen ist, aber keinen Einfluss auf deinen Limonadenstand hat.
Diagramm der Beziehung zwischen Signage, Temp, Revenue und Competitors

Das Ziel der Regression besteht in der Regel darin, die Beziehung zwischen mehreren Eingaben und einer Ausgabe zu verstehen. In diesem Fall würden Sie sich also wahrscheinlich entscheiden, ein Modell zu erstellen, das “Umsatz” mit “Temperatur” und “Beschilderung” erläutert (auch als “Erlös aus Temperatur und Beschilderung vorhersagen” gesagt, auch wenn Sie mehr an einer Erklärung als an der tatsächlichen Prognose interessiert sind).

Wahrscheinlich würden Sie “Umsatz des Wettbewerbers” nicht in Ihre Regression einbeziehen. Es ist wahrscheinlich mit „Umsatz“ korreliert, aber es kommt in der Kausalkette nicht davor, sodass es auch Ihr Modell verwirren würde.

2. „Beschreiben“ Sie alle Variablen, die für Ihr Modell nützlich sein könnten.

Beginnen Sie mit der Beschreibung der Antwortvariablen, in diesem Fall “Umsatz”, und erhalten Sie ein gutes Gefühl dafür. Wiederholen Sie diese Schritte für Ihre erklärenden Variablen.

Hinweis, die eine solche Form haben…
Rechtsläufiges Histogramm der Variablen

…wobei sich der Großteil der Daten in den ersten Bins des Histogramms befindet. Diese Variablen erfordern später besondere Aufmerksamkeit.

3. „Verknüpfen“ aller möglichen erklärenden Variablen mit der Response-Variable

Stats iQ sortiert die Ergebnisse nach der Stärke der statistischen Beziehung. Schauen Sie sich die Ergebnisse an, und notieren Sie, welche Variablen sich auf „Umsatz“ beziehen und wie.

Wenn Sie bereits eine gute Vorstellung davon haben, welche Variablen die Ausgabe theoretisch steuern sollen (z.B. aus früheren akademischen Papieren), sollten Sie diesen Schritt überspringen. Wenn Ihre Analyse jedoch etwas explorativer ist (wie eine Kundenumfrage), ist dies ein nützlicher und wichtiger Schritt.

4. Beginn der Regression

Die Erstellung eines Regressionsmodells ist ein iterativer Prozess. Sie durchlaufen die folgenden drei Phasen so oft wie nötig.

Die drei Stufen des Aufbaus eines Regressionsmodells

Stufe 1: Variable addieren oder subtrahieren

Fügen Sie nacheinander Variablen hinzu, die von Ihren zuvor angegebenen Analysen mit “Umsatz” verknüpft waren (oder fügen Sie Variablen hinzu, die Sie theoretisch hinzufügen müssen). Es ist nicht unbedingt notwendig, nacheinander zu gehen, aber es erleichtert Ihnen, Probleme im Laufe der Zeit zu erkennen und zu beheben, und hilft Ihnen, ein Gefühl für das Modell zu bekommen.

Angenommen, Sie sagen zunächst „Umsatz“ mit „Temperatur“ voraus. Sie finden eine starke Beziehung, bewerten das Modell und finden es zufriedenstellend (weitere Details in einer Minute).

Umsatz = 2,71 * Temperatur   –   35Sie

fügen dann “Anzahl der Kinder, die vorbeigelaufen sind” hinzu und nun hat Ihr Regressionsmodell zwei Begriffe, die beide statistisch signifikante Prädiktoren sind. So:

Umsatz = 2,5 * Temperatur   +   0,3 * NumberOfChildrenWhoWalkedBy   –   12Dann

fügen Sie “Anzahl der Erwachsenen, die vorbeigelaufen sind” hinzu, und die Modellergebnisse zeigen nun, dass “Anzahl der Erwachsenen” im Modell statistisch signifikant ist, aber “Anzahl der Kinder” nicht mehr. In der Regel entfernen Sie “Anzahl der untergeordneten Elemente” aus dem Modell. Jetzt haben wir:

Umsatz = 2,6 * Temperatur   +   0,4 * NumberOfAdultsWhoWalkedBy   –   14

Das bedeutet, dass “Anzahl der Erwachsenen” der bessere Prädiktor von “Umsatz” ist. Wenn Sie also wissen, wie viele Erwachsene kommen, dann fügt das Wissen, wie viele Kinder zu uns kommen, keine neuen Informationen hinzu – es hilft Ihnen nicht, den Umsatz vorherzusagen.

Vielleicht denken Sie zurück und denken daran, dass Kinder Ihre Limonade nicht wirklich jemals kaufen, sodass es sinnvoll ist, dass diese Variable nicht zum Modell gehört.

Aber warum war es im ersten Modell statistisch signifikant? Wahrscheinlich, weil “Anzahl Kinder” mit “Anzahl Erwachsene” korreliert und da “Anzahl Erwachsene” noch nicht im Modell war, fungierte “Anzahl Kinder” als grober Proxy für “Anzahl Erwachsene”.

Die Interpretation von Regressionsergebnissen erfordert eine große Ermessensausübung, und nur weil eine Variable statistisch signifikant ist, bedeutet dies nicht, dass sie tatsächlich ursächlich ist. Wenn Sie jedoch Variablen sorgfältig hinzufügen und subtrahieren, sich merken, wie sich das Modell ändert, und immer über die Theorie hinter Ihrem Modell nachdenken, können Sie interessante Beziehungen in Ihren Daten auseinanderhalten.

Phase 2: Modell bewerten

Jedes Mal, wenn Sie eine Variable hinzufügen oder subtrahieren, sollten Sie die Genauigkeit des Modells beurteilen, indem Sie dessen R-Quadrat (R2), AICR und seine Restdiagramme betrachten. Jedes Mal, wenn Sie das Modell ändern, vergleichen Sie die neuen R-Quadrat-, AICR- und Restdiagramme mit den alten, um zu ermitteln, ob sich das Modell verbessert hat oder nicht.

R-Quadrat (R2)

Die numerische Kennzahl zur Quantifizierung der Prognosegenauigkeit des Modells wird als R-Quadrat bezeichnet und liegt zwischen Null und Eins. Eine Null bedeutet, dass das Modell keinen Prognosewert hat, und ein Wert, der bedeutet, dass das Modell alles perfekt vorhersagt.

Zum Beispiel ist das Modell auf der linken Seite genauer als das Modell auf der rechten Seite; wenn Sie also “Temperatur” kennen, haben Sie eine ziemlich gute Einschätzung, was “Umsatz” auf der linken Seite sein wird, aber nicht wirklich auf der rechten Seite.
Hohe und niedrige R-Quadratwerte für Temperatur im Vergleich zu Umsatz

Es gibt keine feste Definition eines „guten“ R-Quadrats. In einigen Einstellungen kann es interessant sein, irgendwelche Auswirkungen zu sehen, während in anderen Einstellungen Ihr Modell nutzlos sein könnte, es sei denn, es ist sehr genau.

Jedes Mal, wenn Sie eine Variable hinzufügen, steigt das R-Quadrat, sodass das Erreichen des höchstmöglichen R-Quadrats nicht das Ziel ist. Stattdessen möchten Sie die Genauigkeit des Modells (R-Quadrat) mit seiner Komplexität (in der Regel die Anzahl der darin enthaltenen Variablen) ausgleichen.

AICR

AICR ist eine Kennzahl, die die Genauigkeit mit der Komplexität in Einklang bringt. Eine höhere Genauigkeit führt zu besseren Scores, zusätzliche Komplexität (mehr Variablen) führt zu schlechteren Scores. Das Modell mit der unteren AICR ist besser.

Beachten Sie, dass die AICR-Metrik nur für den Vergleich von AICRs aus Modellen nützlich ist, die dieselbe Anzahl von Datenzeilen unddieselbe Ausgabevariable haben.

Vorhersageintervalle

Eine weitere nützliche Möglichkeit, ein Gefühl für die Genauigkeit Ihres Modells zu erhalten, besteht darin, Beispielwerte in Ihrer Formel beizubehalten und das Prognoseintervall anzuzeigen, das Stats iQ berechnet. Wenn Sie beispielsweise die Zahl 30 in die Formel setzen, teilt Stats iQ mit, dass der prognostizierte Wert 45,5 beträgt, das 95 %-Konfidenzintervall jedoch 36,4 bis 54,5 beträgt. Das bedeutet, dass Sie mit 95 % sicher sein könnten, dass Sie bei einem morgigen Verlauf von 30 Grad zwischen 36,0 und 54,50 USD Umsatz erzielen würden. Sie könnten sich ein genaueres Modell vorstellen, bei dem das Vorhersageintervall ein enges Band wie 44 bis 48 USD oder ein weniger genaues war, in dem das Intervall breit war, z.B. 20 bis 72 USD.
Gleichung zur Berechnung von Vorhersageintervallen

Dieser Ansatz ist nur hilfreich, wenn Ihre Restplots gesund aussehen (siehe unten), da sie sonst ungenau sind.

Residuen

Residuals sind das primäre Diagnosetool für die Bewertung und Verbesserung der Regression, daher gibt es einen separaten Abschnitt zur Interpretation von Residuen, um Ihr Modell zu verbessern. Sie erfahren oder aktualisieren Ihr Gedächtnis darüber, was Residuen sind, wie Sie sie zum Bewerten und Verbessern des Modells verwenden und wie Sie darüber nachdenken können, wie genau Sie Ihr Modell benötigen.

Wir empfehlen Ihnen, sie vollständig zu lesen, da sie alles abdeckt, was Sie noch benötigen, um ein tolles Modell zu produzieren. Aber man kann natürlich immer wieder darauf zurückkommen.

Phase 3: Passen Sie das Modell entsprechend an.

Wenn Ihre Bewertung des Modells zufriedenstellend war, sind Sie entweder fertig, oder Sie gehen zurück zu Stufe 1 und geben weitere Variablen ein.

Wenn bei Ihrer Bewertung festgestellt wird, dass das Modell fehlt, verwenden Sie Stats iQ-Warnungen und den Restdiagnoseabschnitt, um die Probleme zu beheben.

Wenn Sie das Modell ändern, beachten Sie kontinuierlich die wechselnde R-Quadrat-, AICR- und Residualdiagnostik, und entscheiden Sie, ob die Änderungen, die Sie vornehmen, Ihr Modell unterstützen oder schädigen.

Häufig gestellte Fragen

Viele Seiten dieses Portals wurden mithilfe maschineller Übersetzung aus dem Englischen übersetzt. Obwohl wir bei Qualtrics die bestmögliche maschinelle Übersetzung ausgewählt haben, um ein möglichst gutes Ergebnis zu bieten, ist maschinelle Übersetzung nie perfekt. Der englische Originaltext gilt als offizielle Version. Abweichungen zwischen dem englischen Originaltext und den maschinellen Übersetzungen sind nicht rechtlich bindend.