zum Hauptinhalt springen

Residualdiagramme interpretieren und die Regression verbessern

Inhalt Dieser Seite:

Wenn Sie eine Regression durchführen, berechnet Stats iQ automatisch die Residuen und stellt sie dar, um Ihnen zu helfen, Ihr Regressionsmodell zu verstehen und zu verbessern. Im Folgenden erfahren Sie alles, was Sie über die Interpretation von Residuen wissen müssen (einschließlich Definitionen und Beispiele).

Beobachtungen, Vorhersagen und Residuen

Um zu demonstrieren, wie Residuen zu interpretieren sind, werden wir den Datensatz eines Limonadenstands verwenden, bei dem jede Zeile einen Tag mit „Temperatur“ und „Umsatz“ darstellt.

Temperatur (Celsius) Umsatz
28,2 44 $
21,4 23 $
32,9 43 $
24,0 30 $
usw. usw.

 

Die Regressionsgleichung, die die Beziehung zwischen „Temperatur“ und „Umsatz“ beschreibt, lautet:

Umsatz = 2,7 * Temperatur – 35

Nehmen wir an, die Temperatur am Limonadenstand betrug 30,7 Grad und der „Umsatz“ entsprach 50 $. 50 ist Ihr beobachteter bzw. tatsächlicher Erlös, also der Wert, der wahr ist.

Wenn wir als Wert für „Temperatur“ 30,7 eingeben ...

Umsatz = 2,7 * 30,7 – 35
Umsatz = 48

...erhalten wir 48 $. Das ist der vorhergesagte Wert für diesen Tag. Aus der Regressionsgleichung würde sich ergeben, dass dies der Wert für „Umsatz“ ist, basierend auf der „Temperatur“.

Ihr Modell ist natürlich nicht immer perfekt. In diesem Fall liegt die Vorhersage um 2 daneben. Diese Differenz, die 2, wird als Restwert bezeichnet. Der Restwert ist das, was übrig bleibt, wenn Sie den vorhergesagten Wert vom beobachteten Wert subtrahieren.

Restwert = Beobachtet – Vorhergesagt

Sie können sich vorstellen, dass jede Zeile jetzt zusätzlich einen vorausgesagten Wert und einen Restwert aufweist.

Temperatur
(Celsius)
Umsatz
(Beobachtet)
Umsatz
(Vorhergesagt)
Restwert
(Beobachtet – Vorhergesagt)
28,2 44 $ 41 $ 3 $
21,4 23 $ 23 $ 0 $
32,9 43 $ 54 $ -11 $
24,0 30 $ 29 $ 1 $
usw. usw. usw. usw.

 

Wir werden die beobachteten, vorhergesagten und Restwerte verwenden, um das Modell zu bewerten und zu verbessern.

Verstehen der Genauigkeit vom Beobachteten im Vergleich zum Vorhergesagten

In einem einfachen Modell wie diesem, mit nur zwei Variablen, bekommen Sie ein Gefühl dafür, wie genau das Modell ist, indem Sie lediglich „Temperatur“ und „Umsatz“ in Beziehung setzen. Hier ist derselbe Regressionslauf für zwei verschiedene Limonadenstände, einer, bei dem das Modell sehr genau ist, einer, bei dem das Modell ungenau ist:
Diagramm der genauen im Vergleich zur ungenauen Modellvorhersage

Es wird deutlich, dass für beide Limonadenstände eine höhere „Temperatur“ in Beziehung zu einem höherem „Umsatz“ steht. Bei einer gegebenen „Temperatur“ können Sie den „Umsatz“ des linken Limonadenstandes viel genauer vorhersagen als den des rechten Limonadenstandes, was bedeutet, dass das Modell viel genauer ist.

Jedoch haben die meisten Modelle mehr als eine erklärende Variable, und es ist nicht praktisch, mehr Variablen in einem Diagramm wie diesem darzustellen. Lassen Sie uns stattdessen die vorhergesagten Werte den beobachteten Werten für dieselben Datensätze gegenüberstellen.
Diagramme der vorhergesagten im Vergleich zu den tatsächlichen Werten für genaue und ungenaue Modelle

Auch hier ist das Modell für das Diagramm links sehr genau; es gibt eine starke Korrelation zwischen den Vorhersagen des Modells und seinen tatsächlichen Ergebnissen. In dem Modell für das Diagramm ganz rechts ist das Gegenteil der Fall; die Vorhersagen des Modells sind überhaupt nicht gut.

Beachten Sie, dass bei diesen Diagrammen im Gegensatz zu den „Temperatur“ vs "Umsatz"-Diagrammen darüber die x-Achse den vorhergesagten „Umsatz“ statt der „Temperatur“ enthält. Das ist üblich, wenn Ihre Regressionsgleichung nur eine erklärende Variable hat. Häufiger jedoch haben Sie mehrere erklärende Variablen, und diese Diagramme sehen ganz anders aus als die mit einer einzelnen erklärenden Variable im Vergleich zum „Umsatz“.

Vorhersage im Vergleich zum Restwert („Residualdiagramm“)

Die Restwerte werden ermittelt, indem die vorhergesagten Werte auf der x-Achse und die Restwerte auf der y-Achse dargestellt werden.

(Stats iQ stellt Restwerte als standardisierte Restwerte dar, was bedeutet, dass sich jedes Residualdiagramm, das Sie für jedes Modell betrachten, auf derselben standardisierten y-Achse befindet.)
Diagramm der vorausgesagten im Vergleich zu tatsächlichen Werten und Diagramm der standardisierten Restwerte

Im rechten Diagramm ist jeder Punkt ein Tag, wobei die vom Modell gemachte Vorhersage auf der x-Achse und die Genauigkeit der Vorhersage auf der y-Achse steht. Der Abstand von der Linie bei 0 zeigt, wie schlecht die Vorhersage für diesen Wert war.

Da …

Restwert = Beobachtet – Vorhergesagt

... bedeuten positive Werte für den Restwert (auf der y-Achse), dass die Vorhersage zu niedrig war, und negative Werte bedeuten, dass die Vorhersage zu hoch war. 0 bedeutet, dass die Vermutung korrekt war.

Im Idealfall sieht Ihr Residualdiagramm wie eines von diesen aus:
Beispiele für ideale standardisierte Residualdiagramme

Das heißt,
(1) die Verteilung ist recht symmetrisch und neigt zu einem Cluster in der Diagrammmitte.
(2) es gibt eine Clusterbildung bei den unteren einstelligen Werten der y-Achse (z. B. 0,5 oder 1,5 nicht 30 oder 150).
(3) im Allgemeinen gibt es keine klaren Muster.

Hier sind einige Residualdiagramme, die diese Anforderungen nicht erfüllen:
Beispiele für ideale unerwünschte Residualdiagramme

Diese Diagramme sind vertikal nicht gleichmäßig verteilt, haben einen Ausreißerwert, oder eine klare Form.

Wenn Sie ein klares Muster oder einen Trend in Ihren Restwerten erkennen können, lässt sich Ihr Modell noch verbessern.

Im Folgenden wird erklärt, warum dies so ist und was man dagegen unternehmen kann.

Wie viel macht es aus, wenn mein Modell nicht perfekt ist?

Wie besorgt sollten Sie sein, wenn Ihr Modell nicht perfekt ist und Ihre Restwerte ein wenig unpräzise aussehen? Das hängt von Ihnen ab.

Wenn Sie eine Doktorarbeit in Teilchenphysik veröffentlichen, wollen Sie wahrscheinlich sicherstellen, dass Ihr Modell so genau wie möglich ist. Wenn Sie eine schnelle Analyse des Limonadenstandes Ihres Neffen durchzuführen, könnte ein weniger perfektes Modell gut genug sein, um Ihre Fragen zu beantworten (z. B., ob die „Temperatur“ einen Einfluss auf den „Umsatz“ hat).

Meistens ist ein annehmbares Modell besser als gar keines. Nehmen Sie also Ihr Modell, versuchen Sie, es zu verbessern, und entscheiden Sie dann, ob die Genauigkeit ausreichend ist, um für Ihre Zwecke nützlich zu sein.

Beispiel für Residualdiagramme und Diagnosen

Wenn Sie nicht sicher sind, was ein Restwert ist, lesen Sie den oberen Teil, und kommen Sie dann hierher zurück.

Nachfolgend finden Sie eine Auswahl unpräziser Residualdiagramme. Ihr Restwert sieht möglicherweise aus wie einer der dargestellten Typen oder wie eine Kombination aus mehreren.

Im ersten Fall, klicken Sie auf den Restwert, um zu verstehen, was passiert, und um zu erfahren, wie Sie ihn korrigieren können.

(Im Folgenden verwenden wir als Beispiel-Datensatz den „Umsatz“ eines Limonadenstandes im Vergleich zur „Temperatur“ des Tages).

Unsymmetrische y-Achse

Residualdiagramm mit unsymmetrischen y-Achse

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Stellen Sie sich vor, dass Ihr Limonadenstand, aus welchen Gründen auch immer, normalerweise niedrige Umsätze hat, aber hin und wieder auch sehr umsatzstarke Tage aufweist. Der „Umsatz“ sieht aus wie folgt ...

Beispiel für verzerrtes Histogramm des Umsatzes am Limonadenstand

... statt etwas symmetrischer und glockenförmiger wie folgt:

Beispiel für symmetrisches Histogramm des Umsatzes am Limonadenstand

So könnte „Temperatur“ im Vergleich zum „Umsatz“ aussehen, wobei die meisten Daten im unteren Bereich liegen ...

Temperatur im Vergleich zum Umsatz für verzerrte Limonaden-Daten

Die schwarze Linie stellt die Modellgleichung dar, also die Vorhersage des Modells für die Beziehung zwischen „Temperatur“ und „Umsatz“. Schauen Sie sich oben die einzelnen Vorhersagen an, die durch die schwarze Linie für eine bestimmte „Temperatur“ gemacht werden (z. B. wird bei einer „Temperatur“ von 30 ein „Umsatz“ von etwa 20 vorhergesagt). Sie sehen, dass die Mehrheit der Punkte unterhalb der Linie liegt (d. h. die Vorhersage war zu hoch), aber einige wenige Punkte liegen sehr weit oberhalb der Linie (d. h. die Vorhersage war viel zu niedrig).

Wenn man dieselben Daten auf die Diagnosediagrame überträgt, wären die meisten Vorhersagen der Gleichung etwas zu hoch, und einige wären dann viel zu niedrig.

Beispiel für vorausgesagte im Vergleich zu tatsächlichen und Residualdiagrammen am Limonadenstand

Auswirkungen

Das bedeutet fast immer, dass Ihr Modell deutlich genauer sein könnte. Meistens werden Sie feststellen, dass das Modell zwar tendenziell korrekt, aber im Vergleich zu einer verbesserten Version ziemlich ungenau war. Es ist nicht ungewöhnlich, dass nach der Lösung eines solchen Problems das r-Quadrat des Modells von 0,2 auf 0,5 springt (auf einer Skala von 0 bis 1).

Lösungswege

  • Die Lösung dafür ist fast immer, Ihre Daten zu transformieren (EN), normalerweise die Antwortvariable.
  • Es ist auch möglich, dass Ihrem Modell eine Variable fehlt.

Heteroskedastizität

Residualdiagramme, die Heteroskedastizität aufweisen

 

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Diese Diagramme weisen eine „Heteroskedastizität“ auf, was bedeutet, dass die Restwerte größer werden, sobald die Vorhersage von klein zu groß (oder von groß zu klein) geht.

Stellen Sie sich vor, dass an kalten Tagen die Höhe des Umsatzes sehr konstant ist, aber an wärmeren Tagen ist der Umsatz manchmal sehr hoch und manchmal sehr niedrig.

Die Diagramme würden aussehen wie folgt:

Beispiel für Heteroskedastizität in Diagrammen am Limonadenstand

Auswirkungen

Dies stellt nicht per se ein Problem dar, ist aber oft ein Indikator dafür, dass Ihr Modell verbesserungsfähig ist.

Die einzige Ausnahme hier ist, dass, wenn Ihre Stichprobengröße weniger als 250 beträgt, und Sie das Problem nicht mit den unten aufgeführten Methoden beheben können, Ihre p-Werte möglicherweise etwas höher oder niedriger sind, als sie sein sollten. Daher kann es sein, dass eine Variable, die genau an der Grenze zur Signifikanz liegt, auf der falschen Seite dieser Grenze liegt. Ihre Regressionskoeffizienten (die Anzahl der Einheiten, um die sich „Umsatz“ ändert, wenn „Temperatur“ um eine Einheit ansteigt) sind jedoch weiterhin korrekt.

Lösungswege

  • Die am häufigsten erfolgreiche Lösung ist es, eine Variable zu transformieren.
  • Oft weist Heteroskedastizität darauf hin, dass eine Variable fehlt.

Nichtlinear

Nichtlineare Residualdiagramme

 

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Möglicherweise ist es schwer, Limonade an kalten Tagen zu verkaufen, leicht an warmen Tagen und wiederum schwer an sehr heißen Tagen (vielleicht, weil an sehr heißen Tagen niemand das Haus verlässt).

Dieses Diagramm würde aussehen wie folgt:

Temperatur im Vergleich zum Umsatz mit parabolischen Daten

Das Modell, dargestellt durch die Linie, ist unzureichend. Die Vorhersagen würden weit daneben liegen, was bedeutet, dass Ihr Modell die Beziehung zwischen „Temperatur“ und „Umsatz“ ungenau abbildet.

Dementsprechend würden Restwerte aussehen wie folgt:

Nichtlineare Diagramme für vorhergesagte im Vergleich zu tatsächlichen und Residualdiagrammen

Auswirkungen

Wenn Ihr Modell weit daneben liegt, wie im obigen Beispiel, wären Ihre Vorhersagen wertlos (und Sie werden ein sehr niedriges r-Quadrat bemerken, wie das 0,027 r-Quadrat für das obige Beispiel).

In anderen Fällen zeigt eine suboptimale Anpassung immer noch eine Tendenz für die Beziehung, auch wenn sie nicht perfekt ist, wie in der folgenden Abbildung:

Diagramm der akzeptablen, aber suboptimalen nichtlinearen Anpassung

Das Modell erscheint recht genau. Wenn Sie genau hinschauen (oder wenn Sie sich die Restwerte ansehen), können Sie ein Muster erkennen, wobei die Punkte auf einer Kurve liegen, die nicht ganz mit der Linie übereinstimmt.

Vorausgesagte im Vergleich zu tatsächlichen Werten sehen gut aus, aber die Restwerte sind nichtlinear

Ist das wichtig? Das liegt an Ihnen. Um ein gutes Verständnis der Beziehung zu bekommen, ist Ihre gerade Linie eine ziemlich gute Annäherung. Wenn Sie dieses Modell zur Vorhersage und nicht zur Erklärung verwenden möchten, würde das genaueste Modell wahrscheinlich diese Kurve berücksichtigen.

Lösungswege

  • Manchmal weisen Muster wie diese darauf hin, dass eine Variable transformiert (EN) werden muss.
  • Wenn das Muster tatsächlich so eindeutig ist wie in diesen Beispielen, müssen Sie wahrscheinlich ein nichtlineares Modell erstellen (was nicht so schwer ist, wie es klingt).
  • Oder, wie immer, ist es auch möglich, dass das Problem eine fehlende Variable ist.

Ausreißer

Diagramme mit Ausreißern

 

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Was passiert, wenn einer Ihrer Datenpunkte eine „Temperatur“ von 80 anstelle der normalen 20er und 30er hätte? Ihre Diagramme würden aussehen wie folgt:

Temperatur-Umsatz-Diagramm mit einem Ausreißer-Temperaturpunkt

Diese Regression weist einen Ausreißer-Datenpunkt bei einer Eingangsvariablen für „Temperatur“ auf (Ausreißer bei einer Eingangsvariablen werden auch als „Hebelpunkte“ bezeichnet).

Was wäre, wenn einer Ihrer Datenpunkte einen Umsatz von 160 $ statt der normalen 20 $ bis 60 $ aufweisen würde? Ihre Diagramme würden aussehen wie folgt:

Temperatur-Umsatz-Diagramm mit einem Ausreißer-Umsatzpunkt

Diese Regression weist einen Ausreißer-Datenpunkt bei einer Ausgangsvariablen für „Umsatz“ auf.

Auswirkungen

Stats iQ führt eine Art von Regression durch, die im Allgemeinen nicht von Umsatz-Ausreißern beeinflusst wird (wie der Tag mit 160 $ Umsatz), wohl aber von Eingangs-Ausreißern (wie eine „Temperatur“ von über 80 Grad). Im schlimmsten Fall schwenkt Ihr Modell um, da versucht wird, sich diesem Punkt (und damit auch allen anderen Punkten) anzunähern. Am Ende wäre es völlig falsch, wie hier:

Diagramm von Modellen mit und ohne Ausreißer-Temperaturpunkt

Die blaue Linie ist wahrscheinlich das, was Sie sich für Ihr Modell wünschen, und die rote Linie ist das Modell, das Sie sehen könnten, wenn Sie den Ausreißer bei einer „Temperatur“ von 80 haben.

Lösungswege

  • Möglicherweise handelt es sich um einen Mess- oder Dateneingabefehler, bei dem der Ausreißerwert einfach falsch ist. In diesem Fall sollten Sie ihn löschen.
  • Es ist möglich, dass das, was nur ein paar Ausreißerwerte zu sein scheinen, in Wirklichkeit eine Leistungsverteilung ist. Ziehen Sie eine Transformation der Variablen in Betracht, wenn eine Ihrer Variablen eine asymmetrische Verteilung aufweist (d. h. nicht annähernd glockenförmig ist).
  • Handelt es sich um einen legitimen Ausreißer, sollten Sie die Auswirkungen des Ausreißerwerts beurteilen.

Mehrere Datenpunkte auf der y-Achse

Residualdiagramme mit mehreren Datenpunkten auf der y-Achse

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Stellen Sie sich vor, es gibt zwei weitere Limonadenstände. Die meiste Zeit ist nur einer der beiden geöffnet, dann ist der Umsatz durchweg gut. Es kommt vor, dass beide Konkurrenten geschlossen sind, und der Umsatz steigt an. Zu anderen Zeiten sind beide Konkurrenten geöffnet, und der Umsatz fällt ab.

„Umsatz“ im Vergleich zu „Temperatur“ könnte aussehen wie folgt:

Temperatur im Vergleich zu Umsatz für Daten mit mehreren Datenpunkten auf der y-Achse

Die obere Zeile entspricht Tagen, an denen beide Konkurrenten geschlossen sind. Die untere Zeile entspricht Tagen, an denen beide Konkurrenten geöffnet sind.

Das Ergebnis wären diese Residualdiagramme:

Prognostizierte im Vergleich zu tatsächlichen und Residualdiagrammen für mehrere Datenpunkte auf der y-Achse

Das heißt, es gibt eine ganze Reihe von Datenpunkten auf beiden Seiten von 0, die Restwerte von 10 oder höher aufweisen. Das Modell würde weit daneben liegen.

Wenn Sie jeden Tag Daten für eine Variable namens „Anzahl der geöffneten Limonadenstände“ gesammelt hätten, könnten Sie diese Variable zu Ihrem Modell hinzufügen, und das Problem wäre behoben. Häufig haben Sie aber nicht die benötigten Daten (und keine Ahnung, welche Art von Variable Sie benötigen).

Auswirkungen

Ihr Modell ist nicht wertlos, aber es ist definitiv nicht so gut, wie es mit allen benötigten Variablen wäre. Sie könnten es immer noch verwenden und beispielsweise sagen: „Dieses Modell ist die meiste Zeit über ziemlich genau, aber ab und zu liegt es weit daneben.“ Ist das hilfreich? Ja wahrscheinlich, aber das ist Ihre Entscheidung, und es hängt davon ab, welche Entscheidungen Sie auf der Grundlage Ihres Modells treffen möchten.

Lösungswege

  • Auch wenn dieser Ansatz im obigen Beispiel nicht funktionieren würde, lohnt es sich fast immer, nach einer Möglichkeit zu suchen, eine Variable sinnvoll zu transformieren (EN).
  • Wenn das nicht funktioniert, müssen Sie sich wahrscheinlich mit dem Problem der fehlenden Variablen auseinandersetzen.

Unsymmetrische x-Achse

Residualdiagramme mit unsymmetrischen Daten auf der y-Achse

 

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Stellen Sie sich vor, dass der „Umsatz“ durch den nahegelegenen „Fußverkehr“ gesteigert wird. Dies geschieht zusätzlich oder trotz der „Temperatur“. Stellen Sie sich vor, dass Ihr Limonadenstand, aus welchen Gründen auch immer, normalerweise niedrige Umsätze hat, aber hin und wieder auch extrem umsatzstarke Tage aufweist, sodass Ihr Umsatz aussieht wie folgt ...

Nach rechts verzerrtes Histogramm des Fußverkehrs

... statt etwas symmetrischer und glockenförmiger wie folgt:

Symmetrisches Temperatur-Histogramm

So könnte „Fußverkehr“ im Vergleich zum „Umsatz“ aussehen, wobei die meisten Daten links liegen ...

Diagramm von Fußverkehr im Vergleich zum Umsatz

Die schwarze Linie stellt die Modellgleichung dar, also die Vorhersage des Modells für die Beziehung zwischen „Fußverkehr“ und „Umsatz“. Sie können sehen, dass das Modell nicht wirklich den Unterschied zwischen „Fußverkehr“ 0 und, sagen wir, 100 oder 1.000 abbilden kann. Es würde für jeden Wert einen Umsatz von fast 53 $ voraussagen.

Wenn man dieselben Daten auf die Diagnosediagrame überträgt:

Vorhergesagte im Vergleich zu tatsächlichen und Residualdiagrammen für das Fußverkehr-Modell

Auswirkungen

Manchmal ist Ihr Modell eigentlich ganz in Ordnung. Im obigen Beispiel ist es ziemlich klar, dass dies kein gutes Modell ist, aber manchmal ist nur das Residualdiagramm unsymmetrisch, und das Modell ziemlich gut.

Die einzigen Möglichkeiten, dies herauszufinden, sind a) mit der Transformation Ihrer Daten zu experimentieren und zu sehen, ob Sie sich verbessern lassen oder b) sich das vorausgesagte im Vergleich zum tatsächlichen Diagramm anzuschauen und zu sehen, ob Ihre Voraussage für viele Datenpunkte stark abweicht, wie im obigen Beispiel (aber im Gegensatz zum unteren Beispiel).

Akzeptables voraussehbares Diagramm im Vergleich zum tatsächlichen Diagramm mit unsymmetrischer x-Achse

Zwar gibt es keine explizite Regel, die besagt, dass Ihr Restwert trotz Asymmetrie nicht genau ist (und tatsächlich ist dieses Modell ziemlich genau), aber es ist häufiger der Fall, dass ein Restwert auf der unsymmetrischen x-Achse bedeutet, dass Ihr Modell deutlich genauer gemacht werden könnte. Meistens werden Sie feststellen, dass das Modell zwar tendenziell korrekt, aber im Vergleich zu einer verbesserten Version ziemlich ungenau war. Es ist nicht ungewöhnlich, dass nach der Lösung eines solchen Problems das r-Quadrat des Modells von 0,2 auf 0,5 springt (auf einer Skala von 0 bis 1).

Lösungswege

  • Die Lösung dafür ist fast immer, Ihre Daten zu transformieren, normalerweise eine erklärende Variable. (Beachten Sie, dass sich das unten gezeigte Beispiel auf die Transformation Ihrer Antwortvariablen bezieht, aber der gleiche Prozess ist hier hilfreich).
  • Es ist auch möglich, dass Ihrem Modell eine Variable fehlt.

Ihr Modell verbessern: Auswirkungen eines Ausreißerwerts bewerten

Gehen wir davon aus, dass Sie einen Ausreißer-Datenpunkt haben, keinen Mess- oder Datenfehler. Um zu entscheiden, wie Sie weiter vorgehen, sollten Sie die Auswirkungen des Datenpunkts auf die Regression bewerten.

Am einfachsten ist es, wenn Sie die Koeffizienten Ihres aktuellen Modells notieren und diesen Datenpunkt aus der Regression herausfiltern. Wenn sich das Modell nur wenig ändert, ist alles in Ordnung.

Wenn sich das Modell erheblich ändert, prüfen Sie das Modell (insbesondere tatsächliches im Vergleich zum vorausgesagten Modell) und entscheiden Sie, welches Modell sich besser für Sie eignet. Es ist in Ordnung, den Ausreißer letztendlich zu verwerfen, solange Sie das theoretisch rechtfertigen können, indem Sie sagen: „In diesem Fall sind wir nicht an Ausreißerwerten interessiert, sie sind einfach nicht von Interesse“, oder „Das war der Tag, an dem Onkel Jerry einkaufte und mir 100 $ Trinkgeld gab; das ist nicht vorhersehbar, und es ist es nicht wert, in das Modell aufgenommen zu werden.“

Ihr Modell verbessern: Variablen transformieren

Übersicht

Die gebräuchlichste Methode zur Verbesserung eines Modells ist die Transformation einer oder mehrerer Variablen, in der Regel durch eine „Log“-Transformation.

Die Transformation einer Variablen ändert die Form ihrer Verteilung. Normalerweise beginnen Sie mit einer Variablen, die eine asymmetrische Verteilung aufweist, und nicht mit einer eher symmetrischen oder glockenförmigen Verteilung. Suchen Sie also eine Variable wie diese, die Sie transformieren möchten:

Rechts verzerrtes Histogramm des Umsatzes

Im Allgemeinen arbeiten Regressionsmodelle besser mit symmetrischeren, glockenförmigen Kurven. Probieren Sie verschiedene Arten von Transformationen aus, bis Sie diejenige gefunden haben, die dieser Form am nächsten kommt. Häufig ist es nicht möglich, sich anzunähern, aber das ist das Ziel. Nehmen wir also an, Sie nehmen die Quadratwurzel aus „Umsatz“ als Versuch, zu einer symmetrischeren Form zu gelangen, und Ihre Verteilung sieht aus wie folgt:
Histogramm der Quadratwurzel des Umsatzes

Das ist gut, aber noch immer etwas unsymmetrisch. Versuchen wir stattdessen, den Logarithmus von „Umsatz“ zu nehmen, was diese Form ergibt:
Histogramm des Logarithmus des Umsatzes

Das ist symmetrisch. Sie erhalten wahrscheinlich ein besseres Regressionsmodell mit log(„Umsatz“) anstelle von „Umsatz“. Ihre Gleichung, Ihre Restwerte und Ihr r-Quadrat könnten sich folgendermaßen ändern:
Restwertdiagramme von untransformierten und transformierten Daten

Stats iQ zeigt eine kleine Version der Variablenverteilung in Übereinstimmung mit der Regressionsgleichung:Stats iQ zeigt ein kleines Histogramm der Verteilung an

Wählen Sie die Transformation-Schaltfläche fx links neben der Variablen ...

Wählen Sie die Option Transformieren links neben dem Variablennamen

... und wählen Sie eine Transformation, meisten log(x) 

Wählen Sie Transformation aus der Dropdown-Liste aus

... und untersuchen Sie das Histogramm, um zu sehen, ob es mehr zentriert ist, wie dieses hier nach der Transformation:
Histogramm der Transformation sieht symmetrischer aus

Beachten Sie nach der Transformation einer Variablen, wie sich ihre Verteilung, das r-Quadrat der Regression und die Muster des Residualdiagramms ändern. Wenn sich diese verbessern (insbesondere das r-Quadrat und die Restwerte), ist es wahrscheinlich am besten, die Transformation beizubehalten.

Wenn eine Transformation notwendig ist, sollten Sie mit einer „Log“-Transformation beginnen, da die Ergebnisse Ihres Modells immer noch leicht verständlich sein werden. Beachten Sie, dass es zu Problemen kommt, wenn die Daten, die Sie transformieren möchten, Nullen oder negative Werte enthalten. Wenn Sie erfahren möchten, warum ein Logarithmus so nützlich ist, oder wenn Sie negative Zahlen haben, die Sie transformieren möchten, oder wenn Sie einfach ein besseres Verständnis dafür bekommen möchten, was passiert, wenn Sie Daten transformieren, lesen Sie auch den folgenden Teil.

Details

Wenn Sie log10() einer Zahl nehmen, fragen Sie „10 hoch wie viel ergibt diese Zahl?“ Im Folgenden steht eine beispielhafte einfache Tabelle mit vier Datenpunkten, einschließlich „Umsatz“ und Log(„Umsatz“):

Temperatur Umsatz Log(Umsatz)
20 100 2
30 1.000 3
40 10.000 4
45 31.623 4,5

 

Beachten Sie: Wenn wir „Temperatur“ vs. „Umsatz“ und „Temperatur“ vs. Log(„Umsatz“) auftragen, passt das letztere Modell viel besser.
Diagramm des transformierten Modells passt besser

Das Interessante an dieser Transformation ist, dass Ihre Regression nicht mehr linear ist. Als „Temperatur“ von 20 auf 30 stieg, stieg „Umsatz“ von 10 auf 100, ein Anstieg von 90 Einheiten. Als „Temperatur“ von 30 auf 40 stieg, stieg „Umsatz“ von 100 auf 1000, ein viel größerer Anstieg.

Wenn Sie einen Logarithmus Ihrer Antwortvariablen genommen haben, bedeutet eine Erhöhung der „Temperatur“ um eine Einheit nicht mehr eine Steigerung des „Umsatzes“ um x Einheiten. Jetzt ist es eine x-prozentige Steigerung des „Umsatzes“. In diesem Fall ist eine Erhöhung der „Temperatur“ um zehn Einheiten mit einer 1000%igen Steigerung von y verknüpft, das heißt, eine Erhöhung der „Temperatur“ um eine Einheit zieht eine 26%ige Erhöhung des „Umsatzes“ nach sich.

Beachten Sie auch, dass Sie nicht den Logarithmus von 0 oder einer negativen Zahl nehmen können (es gibt kein x, bei dem 10x = 0, oder 10x = -5 ist). Bei der Durchführung einer Logarithmentransformation, verlieren Sie diese Datenpunkte aus der Regression. Es gibt vier gebräuchliche Möglichkeiten, mit der Situation umzugehen:

  1. Nehmen Sie eine Quadratwurzel oder eine Kubikwurzel. Diese ändern die Form der Kurve nicht so sehr wie die Logarithmierung, aber sie erlauben, dass Nullen in der Regression bleiben.
  2. Wenn es nicht zu viele Datenzeilen sind, die eine Null haben, und diese Zeilen theoretisch nicht wichtig sind, können Sie sich entscheiden, mit dem Log weiterzumachen und ein paar Zeilen aus Ihrer Regression zu verlieren.
  3. Anstatt log(y) zu nehmen, nehmen Sie log(y+1), so dass Nullen zu Einsen werden und dann in der Regression beibehalten werden können. Dies verzerrt Ihr Modell ein wenig und ist etwas verpönt, aber in der Praxis sind die negativen Auswirkungen in der Regel verschwindend gering.

Ihr Modell verbessern: Fehlende Variablen

Der wahrscheinlich häufigste Grund, warum ein Modell nicht passt, ist, dass nicht alle korrekten Variablen enthalten sind. Für dieses spezielle Problem gibt es eine Vielzahl von Lösungswegen.

Eine neue Variable hinzufügen

Manchmal ist die Lösung einfach: Fügen Sie Ihrem Modell eine weitere Variable hinzu. Wenn z. B. der „Umsatz“ am Limonadenstand an einem verkehrsreichen Wochenende viel größer ist als an Wochentagen, könnte Ihr vorausgesagtes im Vergleich zum tatsächlichen Diagramm aussehen wie folgt (r-Quadrat von 0,053), da das Modell sowohl am Wochenende als auch an Wochentagen den Durchschnitt berechnet:
Diagramm mit Daten, denen eine Variable fehlt

Wenn das Modell eine Variable namens „Wochenende“ enthält, dann könnte das vorhergesagte im Vergleich zum tatsächlichen Diagramm aussehen wie folgt (r-Quadrat von 0,974):
Diagramm mit Daten, denen eine zweite Variable hinzugefügt wurde

Das Modell macht viel genauere Vorhersagen, weil es berücksichtigen kann, ob ein Tag ein Wochentag ist oder nicht.

Beachten Sie, dass Sie manchmal Variablen in Stats iQ erstellen müssen, um Ihr Modell auf diese Weise zu verbessern. Beispielsweise haben Sie eine Variable „Datum“ (mit Werten wie „10/26/2014“) und müssen eine neue Variable namens „Wochentag“ (d. h. Sonntag) oder „Wochenende“ (d. h. Wochenende) erstellen.

Nicht verfügbare ausgelassene Variable

So einfach ist es aber selten. Häufig ist die relevante Variable nicht verfügbar, weil unbekannt oder schwer zu erheben. Vielleicht ist es kein Problem bei Wochenende und Wochentag, wohl aber bei so etwas wie die „Anzahl der Konkurrenten in der Umgebung“, die Sie zu diesem Zeitpunkt nicht erfasst haben.

Wenn die Variable, die Sie benötigen, nicht verfügbar ist oder Sie nicht wissen, wie sie lauten könnte, kann Ihr Modell nicht wirklich verbessert werden, und Sie müssen bewerten und entscheiden, wie zufrieden Sie damit sind (ob es nützlich ist oder nicht, auch wenn es fehlerhaft ist).

Interaktionen zwischen Variablen

Vielleicht ist der Limonadenstand an Wochenenden immer zu 100 % ausgelastet, so dass unabhängig von der „Temperatur“ ein hoher „Umsatz“ erzielt wird. Aber an Wochentagen ist der Limonadenstand viel weniger ausgelastet, so dass „Temperatur“ ein wichtiger Treiber von „Umsatz“ ist. Wenn Sie eine Regression durchführen, die „Wochenende“ und „Temperatur“ einschließt, könnte das zu einem Diagramm wie dem folgenden führen, in dem die obere Reihe den Wochenendtagen entspricht.
Diagramm des Zwei-Variablen Modells ohne Interaktion

Wir würden sagen, dass es eine Interaktion zwischen „Wochenende“ und „Temperatur“ gibt. Die Auswirkung des einen auf den „Umsatz“ ist je nach Wert des anderen unterschiedlich. Wenn wir eine Interaktionsvariable erstellen, erhalten wir ein viel besseres Modell, bei dem vorausgesagte im Vergleich zu tatsächlichen Werten folgendermaßen aussehen:
Diagramm des Zwei-Variablen Modells mit hinzugefügter Interaktion

Ihr Modell verbessern: Nichtlinearität beheben

Nehmen wir an, Sie haben eine Beziehung, die aussieht wie folgt:

Diagramm mit nichtlinearen Daten mit linearem Modell

Vielleicht fällt Ihnen auf, dass es sich um die Form einer Parabel handelt, die typischerweise mit Formeln assoziiert wird, die wie diese aussehen:

y = x2 + x + 1

Standardmäßig verwendet Regression ein lineares Modell, das aussieht wie folgt:

y = x + 1

Tatsächlich folgt die Linie in der obigen Grafik dieser Formel:

y = 1,7x + 51

Jedoch ist dies eine schlechte Anpassung. Wenn wir also einen x2 Begriff hinzufügen, ist eine bessere Kurvenanpassung wahrscheinlich. Tatsächlich sieht es dann so aus:

Diagramm mit nichtlinearen Daten mit nichtlinearem Modell

Die Formel für diese Kurve lautet:

y = -2x2 +111x – 1408

Das bedeutet, dass sich unsere diagnostischen Diagramme ändern, von diesem ...

Diagnostische Diagramme mit linearem Modell

... zu diesem:

Diagnostische Diagramme mit nichtlinearem Modell

Beachten Sie, dass dies wohlgeformte diagnostische Diagramme sind, obwohl die Daten auf der rechten Seite unsymmetrisch zu sein scheinen.

Der oben genannte Ansatz kann durch Hinzufügen eines x3 Begriffs auch auf andere Formen, insbesondere eine S-förmige Kurve, erweitert werden. Das ist jedoch recht ungewöhnlich.

Hier noch einige Hinweise:

  • Im Allgemeinen, wenn Sie einen x2 Begriff aufgrund eines nichtlinearen Musters in Ihren Daten haben, möchten Sie einen einfachen x-nicht-x2-Begriff haben. Möglicherweise stellen Sie fest, dass Ihr Modell auch ohne diesen gut funktioniert, probieren Sie aber trotzdem beide aus.
  • Die Regressionsgleichung ist schwer zu verstehen. Bei der linearen Gleichung am Anfang dieses Abschnitts stieg „Umsatz“ für jede zusätzliche Einheit von „Temperatur“ um 1,7 Einheiten. Wenn Sie sowohl x2 als auch x in der Gleichung haben, kann man nicht einfach sagen: „Wenn die Temperatur um ein Grad steigt, passiert folgendes.“ Manchmal ist es aus diesem Grund einfacher, eine lineare Gleichung zu verwenden, vorausgesetzt, diese Gleichung ist ausreichend.