zum Hauptinhalt springen
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Benutzerfreundlicher Leitfaden für die lineare Regression


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Was ist Regression?

Regression schätzt eine mathematische Formel, die eine oder mehrere Eingabevariablen mit einer Ausgabevariablen verknüpft.

Nehmen wir zum Beispiel an, Sie führen einen Limonadenstand und Sie interessieren sich dafür, was den Umsatz steigert. Zu Ihren Daten gehören der „Umsatz“, die hohe „Temperatur“, die „Anzahl der Kinder, die vorbeigegangen sind“, „Anzahl der Erwachsenen, die vorbeigegangen sind“, die „Beschilderung“, die Sie an diesem Tag verwendet haben, und ein nahegelegener „Umsatz des Wettbewerbers“.

Umsatz Temperatur (Celsius) Minuten der Pausenzeit Anzahl der Kinder, die vorbeigegangen sind Anzahl der Erwachsenen, die vorbeigegangen sind Beschilderung Umsatz des Wettbewerbers
44 USD 28,2 30 43 380 Handbemalt 20 EUR
23 EUR 21,4 42 28 207 LED 30 EUR
43 USD 32,9 14 43 364 Handbemalt 34 USD
30 EUR 24,0 24 18 103 LED 15 USD
usw. usw. usw. usw. usw. usw. usw.

 

Sie denken, dass “Temperatur” (ein Input oder erklärende Variable) kann sich auf “Umsatz” (eine Ausgabe oder Antwortvariable). Wenn Sie die Regression verwenden, um diese Beziehung zu analysieren, kann dies zu folgender Formel führen:

Umsatz = 2,71 * Temperatur – 35

Diese Formel ist aus zwei Gründen sinnvoll.

Erstens ermöglicht es Ihnen, eine Beziehung zu verstehen: Heißere Tage führen zu mehr “Umsatz”. Insbesondere die 2,71 vor “Temperatur” (der sogenannte Koeffizient) bedeutet, dass für jeden Grad “Temperatur” höher geht, im Durchschnitt werden 2,71 US-Dollar mehr “Umsatz” sein. Diese Erkenntnis könnte dazu führen, dass Sie entscheiden, Limonade an kalten Tagen nicht zu verkaufen.

Zweitens, und damit verbunden, kann es Ihnen auch helfen, bestimmte Prognosen zu erstellen. Wenn die “Temperatur” 24 ist, könnte man schätzen, dass seit…

Umsatz = 2,71 * Temperatur – 35
Erlös = 2,71 * 24 – 35
Erlös = 30

… Sie haben rund 30 US-Dollar im “Umsatz”. Das können nützliche Informationen sein, um zu wissen, ob Sie an diesem Tag eine Zahlung vornehmen können, vorausgesetzt, Sie sind sicher, dass Ihr Modell korrekt ist.

Nun gehen wir durch den Prozess der Erstellung dieser Regressionsgleichung.

Anlegen eines Regressionsmodells vorbereiten

1. Denken Sie durch die Theorie Ihrer Regression

Nachdem Sie eine Antwortvariable ausgewählt haben,,” Hypothese, wie verschiedene Eingaben damit verbunden sein können. Beispiel: Sie denken, dass eine höhere “Temperatur” zu einem höheren “Umsatz” führt. Sie sind sich möglicherweise nicht sicher, wie sich verschiedene Beschriftungen auf den Umsatz auswirken.,” und Sie glauben vielleicht, dass “Mitbewerberverkäufe” von “Temperatur” betroffen sind, aber keine Auswirkungen auf Ihren Limonadenstand haben.
Diagramm der Beziehung zwischen Signage, Temp, Umsatz und Wettbewerbern

Das Ziel der Regression besteht in der Regel darin, die Beziehung zwischen mehreren Eingaben und einer Ausgabe zu verstehen. Daher würden Sie in diesem Fall wahrscheinlich ein Modell anlegen, das “Umsatz” mit “Temperatur” erläutert. und “Signage” (auch als „Vorhersage Erlös von Temperatur und Beschilderungselbst wenn Sie mehr an einer Erklärung als an einer tatsächlichen Vorhersage interessiert sind).

Wahrscheinlich würden Sie “Mitbewerberumsätze” nicht in Ihre Regression einbeziehen. Es ist wahrscheinlich mit „Umsatz“ korreliert, aber es kommt in der Kausalkette nicht davor, sodass es Ihr Modell verwirren würde.

2. „Beschreiben“ Sie alle Variablen, die für Ihr Modell nützlich sein könnten.

Beginnt von beschreibende die Antwortvariable, in diesem Fall „Umsatz“, und ein gutes Gefühl dafür zu bekommen. Gehen Sie für Ihre erklärenden Variablen genauso vor.

Hinweis, die eine Form wie diese haben…
Histogramm der Variablen mit rechter Schiefe

… wo sich der Großteil der Daten in den ersten Bins des Histogramms befindet. Diese Variablen erfordern später besondere Aufmerksamkeit.

3. „Verknüpfen“ aller möglichen erklärenden Variablen mit der Antwortvariablen

Stats iQ wird die Ergebnisse nach der Stärke der statistischen Beziehung. Sehen Sie sich die Ergebnisse an, und notieren Sie, welche Variablen sich auf „Umsatz“ beziehen und wie.

Wenn Sie bereits eine gute Vorstellung davon haben, welche Variablen theoretisch die Ausgabe steuern sollen (z.B. aus vorherigen akademischen Arbeiten), sollten Sie diesen Schritt überspringen. Wenn Ihre Analyse jedoch etwas explorativer ist (z.B. eine Umfrage), ist dies ein nützlicher und wichtiger Schritt.

4. Mit dem Aufbau der Regression beginnen

Erstellen einer Regression -Modell ist ein iterativer Prozess. Sie durchlaufen die folgenden drei Phasen so oft wie nötig.

Die drei Phasen des Aufbaus eines Regressionsmodells

Stufe 1: Variable addieren oder subtrahieren

Beginnen Sie nacheinander mit dem Hinzufügen von Variablen, die Ihre vorherigen Analysen angegeben haben, die sich auf „Umsatz“ bezogen haben (oder fügen Sie Variablen hinzu, die Sie theoretisch hinzufügen sollten). Eins nach dem anderen zu gehen ist nicht unbedingt notwendig, aber es macht es einfacher, Probleme zu erkennen und zu beheben, während Sie weitergehen, und hilft Ihnen, ein Gefühl für das Modell zu bekommen.

Angenommen, Sie beginnen mit der Prognose von „Umsatz“ mit „Temperatur“. Sie finden eine starke Beziehung, bewerten das Modell und finden es zufriedenstellend (weitere Details in einer Minute).

Umsatz = 2,71 * Temperatur – 35

Anschließend fügen Sie “Anzahl der Kinder, die durchgegangen sind” hinzu, und nun hat Ihr Regressionsmodell zwei Begriffe, von denen beide statistisch signifikante Prädiktoren sind. So:

Umsatz = 2,5 * Temperatur + 0,3 * NumberOfChildrenWhoWalkedBy – 12

Anschließend fügen Sie “Anzahl der Erwachsene wer vorbeiging” und die Ergebnisse zeigen nun, dass “Anzahl Erwachsene” im Modell statistisch signifikant ist, “Anzahl Kinder” aber nicht mehr. In der Regel würden Sie “Anzahl untergeordneter Elemente” aus dem Modell entfernen. Jetzt haben wir:

Erlös = 2,6 * Temperatur + 0,4 * AnzahlVonErwachseneWhoWalkedBy – 14

Das bedeutet, dass “Anzahl Erwachsene” der bessere Prädiktor für “Umsatz” ist. Wenn Sie also wissen, wie viele Erwachsene vorbeikommen, fügt das Wissen, wie viele Kinder vorbeikommen, keine neuen Informationen hinzu – es hilft Ihnen nicht, Verkäufe vorherzusagen.

Vielleicht denken Sie zurück und denken daran, dass Kinder nicht wirklich jemals Ihre Limonade kaufen, daher ist es sinnvoll, dass diese Variable nicht zum Modell gehört.

Warum war es im ersten Modell jedoch statistisch signifikant? Wahrscheinlich, weil “Anzahl Kinder” mit “Anzahl Erwachsene” korreliert ist,” und da “Anzahl Erwachsene” noch nicht im Modell war, “Anzahl Kinder” fungierte als grober Vertreter für „Anzahl Erwachsener“.

Die Interpretation von Ergebnisse erfordert viel Einschätzung, und nur weil eine Variable statistisch signifikant ist, bedeutet dies nicht, dass sie tatsächlich kausal ist. Aber indem Sie Variablen sorgfältig addieren und subtrahieren, notieren, wie sich das Modell ändert, und immer über die Theorie hinter Ihrem Modell nachdenken, können Sie interessante Beziehungen in Ihren Daten auseinanderreißen.

Phase 2: Modell bewerten

Jedes Mal, wenn Sie eine Variable addieren oder subtrahieren, sollten Sie die Genauigkeit des Modells bewerten, indem Sie das R-Quadrat (R2), AICR und deren Restplots. Jedes Mal, wenn Sie das Modell ändern, vergleichen Sie die neuen R-Quadrat-, AICR- und Residualdiagramme mit den alten, um zu ermitteln, ob sich das Modell verbessert hat oder nicht.

R-Quadrat (R)2)

Die numerische Metrik zur Quantifizierung der Prognosegenauigkeit des Modells wird als R-Quadrat bezeichnet, das zwischen null und eins liegt. Eine Null bedeutet, dass das Modell keinen Prognosewert hat, und eine davon bedeutet, dass das Modell alles perfekt vorhersagt.

Beispiel: Das Modell auf der linken Seite ist genauer als das Modell auf der rechten Seite. Das heißt, wenn Sie “Temperatur” kennen, haben Sie eine ziemlich gute Vermutung, was “Umsatz” auf der linken Seite, aber nicht wirklich auf der rechten Seite.
Darstellung von hohen und niedrigen R-Quadrat-Werten für die Temperatur im Vergleich zum Umsatz

Es gibt keine feste Definition eines „guten“ R-Quadrats. In einigen Einstellungen kann es interessant sein, irgendeinen Effekt zu sehen, während Ihr Modell in anderen unbrauchbar sein könnte, es sei denn, es ist sehr genau.

Jedes Mal, wenn Sie eine Variable hinzufügen, geht das R-Quadrat hoch, sodass das Erreichen des höchstmöglichen R-Quadrats nicht das Ziel ist. Stattdessen möchten Sie die Genauigkeit (R-Quadrat) des Modells mit seiner Komplexität (in der Regel die Anzahl der Variablen darin) ausgleichen.

AICR

AICR ist eine Metrik, die Genauigkeit mit Komplexität ausgleicht. Eine höhere Genauigkeit führt zu besseren Bewertungen, eine hinzugefügte Komplexität (mehr Variablen) führt zu schlechteren Bewertungen. Das Modell mit dem unteren AICR ist besser.

Beachten Sie, dass die Kennzahl AICR nur für den Vergleich von AIKR aus Modellen mit der gleiche Anzahl von Datenzeilen und dieselbe Ausgabevariable.

Prognoseintervalle

Eine weitere nützliche Möglichkeit, ein Gefühl für die Genauigkeit Ihres Modells zu erhalten, besteht darin, Stichprobe in Ihrer Formel zu speichern und das Prognoseintervall anzuzeigen, das Stats iQ berechnet. Wenn Sie beispielsweise die Zahl 30 in die Formel einfügen, teilt Stats iQ Ihnen mit, dass der vorhergesagte Wert 45,5 beträgt, das Konfidenzintervall von 95 % jedoch 36,4 bis 54,5 beträgt. Das bedeutet, dass Sie 95 % sicher sein könnten, dass Sie bei einem morgigen Ertrag von 30 Grad zwischen 36,40 USD und 54,50 USD in “Umsatz” erhalten würden. Sie könnten sich ein genaueres Modell vorstellen, bei dem das Prognoseintervall ein enges Band wie 44 bis 48 USD war, oder ein weniger genaues, bei dem das Intervall breit war, wie 20 bis 72 USD.
Gleichung zur Berechnung von Prognoseintervallen

Dieser Ansatz ist nur hilfreich, wenn Ihre Restflächen gesund aussehen (siehe unten), andernfalls sind sie ungenau.

Residuen

Residuen sind das primäre Diagnosewerkzeug zur Beurteilung und Verbesserung der Regression. Daher gibt es einen ganzen separaten Abschnitt über Interpretieren von Resten zur Verbesserung Ihres Modells. Sie erfahren oder aktualisieren Ihr Gedächtnis darüber, was Reste sind, wie Sie sie verwenden, um das Modell zu bewerten und zu verbessern, und wie Sie darüber nachdenken, wie genau Sie Ihr Modell sein müssen.

Wir empfehlen Ihnen, es vollständig zu lesen, da es alles andere abdeckt, was Sie benötigen, um ein tolles Modell zu produzieren. Aber man kann natürlich immer wieder darauf zurückkommen.

Phase 3: Modell entsprechend ändern

Wenn Ihre Bewertung des Modells ergibt, dass es zufriedenstellend ist, sind Sie entweder fertig, oder Sie können zu Stufe 1 zurückkehren und weitere Variablen eingeben.

Wenn Ihre Bewertung feststellt, dass das Modell fehlt, verwenden Sie Stats iQ und die residualer Diagnoseabschnitt um die Probleme zu beheben.

Wenn Sie das Modell ändern, notieren Sie sich kontinuierlich die sich ändernden R-Quadrate, AICR und Residualdiagnosen und entscheiden Sie, ob die Änderungen, die Sie vornehmen, Ihr Modell unterstützen oder verletzen.

FAQs

Viele Seiten dieses Portals wurden mithilfe maschineller Übersetzung aus dem Englischen übersetzt. Obwohl wir bei Qualtrics die bestmögliche maschinelle Übersetzung ausgewählt haben, um ein möglichst gutes Ergebnis zu bieten, ist maschinelle Übersetzung nie perfekt. Der englische Originaltext gilt als offizielle Version. Abweichungen zwischen dem englischen Originaltext und den maschinellen Übersetzungen sind nicht rechtlich bindend.