zum Hauptinhalt springen
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Annahmen für statistische Tests und technische Details


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Stats iQ wählt statistische Tests mit dem Ziel aus, statistische Tests intuitiv und fehlerfrei zu machen.

Auf dieser Seite werden übergreifende Themen des Ansatzes von Stats iQ beschrieben, und im Folgenden werden spezifische Entscheidungen für bestimmte Tests beschrieben:

Grundlegende Annahmen

Wenn möglich, verwendet Stats iQ standardmäßig Tests mit weniger Annahmen. Beispielsweise können unabhängige t-Tests auf verschiedene Arten berechnet werden, je nachdem, ob von gleichgroßen Stichproben oder Abweichungen ausgegangen wird. Stats iQ führt den Test mit den geringsten Annahmen aus.

Darüber hinaus mindert Stats iQ auf intelligente Weise Verstöße gegen die Annahmen statistischer Tests. Beispielsweise erfordern t-Tests an relativ kleinen Stichproben, dass normal verteilte Daten genau sind. Ausreißer oder nicht normale Verteilungen führen zu irreführenden Ergebnissen. Jeder Datenpunkt von

[1, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 7, 8, 9, 10]

ist niedriger als jeder Datenpunkt in

[11, 12, 13, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

, aber ein unabhängiger Stichproben-t-Test für diese Gruppen ergibt keinen signifikanten Unterschied, da der Unterschied statistisch nicht ausgeht. Stats iQ bemerkt den Ausreißer und empfiehlt stattdessen einen Ranglisten-t-Test, der zu einem deutlichen Unterschied zwischen den Gruppen führt.

Rang-Transformationen

Stats iQ verwendet häufig die Rank-Transformationsmethode, um nicht-parametrische Tests auszuführen, wenn Verstöße gegen parametrische Testannahmen festgestellt werden. Die Rangumwandlung von Stats iQ ersetzt Werte durch ihre Rangfolge – zum Beispiel

[86, 95, 40] wird in [2, 3, 1]

umgewandelt – führt dann den typischen parametrischen Test für die transformierten Daten aus. Gebundene Werte erhalten den durchschnittlichen Rang der gebundenen Werte, so dass

[11, 35, 35, 52] zu [1, 2,5, 2,5, 4] wird.

Die am häufigsten im Unterschied zwischen Pearson- und Spearman-Korrelationen auftretenden Rank-transformierten Tests sind robust zu nicht normalen Verteilungen und Ausreißern und konzeptionell einfacher als die Verwendung von etwas gängigeren nicht-parametrischen Tests.

ANOVA

Wenn Benutzer 1 kategorische Variable mit 3 oder mehr Gruppen und 1 kontinuierliche oder diskrete Variable auswählen, führt Stats iQ einen einseitigen ANOVA (Welch’s F-Test) und eine Reihe von paarweisen „post-hoc“-Tests (Games-Howell-Tests) aus. Die einseitige ANOVA testet auf eine Gesamtbeziehung zwischen den 2 Variablen, und die paarweisen Tests testen jedes mögliche Paar von Gruppen, um festzustellen, ob eine Gruppe tendenziell höhere Werte hat als die andere.

Annahmen für Welch’s F Test ANOVA

Stats iQ empfiehlt einen unbewerteten F-Test von Welch, wenn mehrere Annahmen über die Daten bestehen:

  • Die Stichprobengröße ist größer als das 10-Fache der Anzahl der Gruppen in der Berechnung (Gruppen mit nur einem Wert werden ausgeschlossen), und daher erfüllt der zentrale Limitsatz die Anforderung für normal verteilte Daten.
  • Die kontinuierlichen/diskreten Daten enthalten nur wenige oder keine Ausreißer.

Anders als der etwas häufigere F-Test auf gleiche Abweichungen geht Welchs F-Test nicht davon aus, dass die Varianzen der zu vergleichenden Gruppen gleich sind. Die Annahme, dass gleiche Abweichungen zu weniger genauen Ergebnissen führen, wenn die Abweichungen nicht identisch sind, und die Ergebnisse sehr ähnlich sind, wenn die Abweichungen tatsächlich gleich sind (Tomarken und Serlin, 1986).

ANOVA mit Rang

Wenn Annahmen verletzt werden, ist die nicht eingestufte ANOVA möglicherweise nicht mehr gültig. In diesem Fall empfiehlt Stats iQ die Rangfolge ANOVA (auch „ANOVA auf Rängen“ genannt); Stats iQ rank-transformiert die Daten (ersetzt Werte durch ihre Rangfolge) und führt dann dieselbe ANOVA für diese transformierten Daten aus.

Das ANOVA-Ranking ist robust für Ausreißer und nicht normal verteilte Daten. Die Rank-Transformation ist eine etablierte Methode zum Schutz vor Vermutungsverletzungen (eine „nicht-parametrische“ Methode) und wird am häufigsten im Unterschied zwischen Pearson- und Spearman-Korrelation beobachtet. Die Rang-Transformation mit anschließendem F-Test von Welch ähnelt dem Kruskal-Wallis-Test (Zimmerman, 2012).

Die Effektgröße gibt an, ob die Differenz zwischen den Durchschnittswerten der Gruppen groß genug ist, um eine praktische Bedeutung zu haben, unabhängig davon, ob sie statistisch signifikant ist oder nicht. Beachten Sie, dass die ANOVA-Effektgrößen (Cohen’s f) von Stats iQ anhand des F-Werts aus dem F-Test für gleiche Abweichungen berechnet werden.

Annahmen des Games-Howell-Paarungstests

Stats iQ führt Games-Howell-Tests unabhängig vom Ergebnis des ANOVA-Tests aus (gemäß Zimmerman, 2010). Stats iQ zeigt nicht eingestufte oder bewertete Games-Howell-Paartests, die auf denselben Kriterien basieren wie die für ANOVA mit Rangfolge vs. unrangierte ANOVA. Wenn Sie also in der erweiterten Ausgabe „ANOVA mit Rangfolge“ sehen, werden auch die paarweisen Tests in eine Rangfolge gebracht.

Games-Howell ist im Wesentlichen ein t-Test auf ungleiche Abweichungen, der die erhöhte Wahrscheinlichkeit ausmacht, zufällig statistisch signifikante Ergebnisse zu finden, wenn viele paarweise Tests ausgeführt werden. Im Gegensatz zum etwas gängigeren Tukey-Test b geht der Games-Howell-Test nicht davon aus, dass die Abweichungen der zu vergleichenden Gruppen gleich sind. Die Annahme, dass gleiche Abweichungen zu weniger genauen Ergebnissen führen, wenn Abweichungen nicht gleich sind, und ihre Ergebnisse sehr ähnlich sind, wenn die Abweichungen tatsächlich gleich sind (Howell, 2012).

Beachten Sie, dass die nicht eingestuften paarweisen Tests auf Gleichheit der Mittel der 2 Gruppen nicht explizit auf Unterschiede zwischen den Mitteln oder Medianwerten der Gruppen prüfen. Vielmehr wird auf eine allgemeine Tendenz einer Gruppe getestet, größere Werte als die andere zu haben.

Während Stats iQ keine Ergebnisse paarweiser Tests für eine Gruppe mit weniger als 4 Werten anzeigt, werden diese Gruppen in die Berechnung der Freiheitsgrade für die anderen paarweisen Tests einbezogen.

Zusätzliche ANOVA-Überlegungen

  1. Bei kleineren Stichprobengrößen können die Daten weiterhin visuell geprüft werden, um festzustellen, ob sie tatsächlich normal verteilt sind. Ist dies der Fall, sind nicht eingestufte t-Testergebnisse auch für kleine Stichproben gültig. In der Praxis kann diese Bewertung schwierig sein, daher empfiehlt Stats iQ standardmäßig eine Rangfolge von t-Tests für kleine Beispiele.
  2. Bei größeren Stichprobengrößen ist es weniger wahrscheinlich, dass Ausreißer sich negativ auf die Ergebnisse auswirken. Stats iQ verwendet den „äußeren Zaun“ von Tukey, um Ausreißer als Punkte zu definieren, die mehr als das Dreifache des Quartilbereichs über dem 75. oder unter dem 25. Perzentilpunkt liegen.
  3. Daten wie Höchster Bildungsabschluss oder Finishing-Reihenfolge im Marathon sind eindeutig ordinal. Obwohl Likert-Skalen (wie eine Skala von 1 bis 7, bei der 1 sehr unzufrieden und 7 sehr zufrieden ist) technisch ordinal sind, ist es in den Sozialwissenschaften üblich, sie so zu behandeln, als seien sie kontinuierlich (d. h. mit einem nicht eingestuften t-Test).

Stats iQ-Ausnahmetabellen

Wenn Benutzer zwei kategorische Variablen auswählen, bewertet Stats iQ, ob diese beiden Variablen statistisch zusammenhängen. Stats iQ führt den exakten Test von Fisher aus, wenn möglich, und ansonsten den Chi-Quadrat-Test von Pearson (in der Regel nur „Chi-Quadrat“ genannt).

Chi-Quadrat vs. Exakter Test von Fisher

Der genaue Test von Fisher ist unvoreingenommen, wann immer er ausgeführt werden kann, aber er ist rechnerisch schwierig, wenn die Tabelle größer als 2 x 2 oder die Stichprobengröße größer als 10.000 ist (auch bei moderner Datenverarbeitung). Chi-Quadrat-Tests können verzerrte Ergebnisse haben, wenn die Stichprobengrößen niedrig sind (technisch gesehen, wenn die erwarteten Zellzahlen unter 5 liegen).

Glücklicherweise ergänzen sich die beiden Tests dadurch, dass Fisers exakter Test in der Regel einfach zu berechnen ist, wenn Chi-Quadrat-Tests vorgespannt sind (kleine Proben), und wenn Fishers exakter Test schwer zu berechnen ist, neigt Chi-Quadrat dazu, unvoreingenommen zu sein (große Proben). Insomuch, da größere Tabellen mit kleinen Beispielen immer noch Probleme verursachen können (und Stats iQ keinen exakten Fisher-Test ausführen kann), warnt Stats iQ Benutzer auf mögliche Komplikationen.

Angepasste Residuen

Wie andere statistische Software verwendet Stats iQ angepasste Residuen, um zu beurteilen, ob eine einzelne Zelle statistisch signifikant über oder unter den Erwartungen liegt. Im Wesentlichen fragt der angepasste Rest: „Enthält diese Zelle mehr Werte, als ich erwarten würde, wenn es keine Beziehung zwischen diesen beiden Variablen gäbe?“

Wenn die Daten so angezeigt werden, dass jede Spalte 100 % ergibt, können Sie sagen: „Der Anteil der Befragten aus dem Finanz-/Bankwesen, die sagten, dass sie „ihre Arbeit lieben“, ist niedriger als typisch, im Vergleich zu Befragten aus anderen Branchen.“

Stats iQ zeigt bis zu 3 Pfeile an, abhängig vom p-Wert, der aus dem angepassten Rest berechnet wurde. Stats iQ zeigt je nach Wichtigkeit des Ergebnisses eine unterschiedliche Anzahl von Pfeilen an. Konkret wird ein Pfeil angezeigt, wenn der p-Wert kleiner als alpha ist (1 – Konfidenzniveau), 2 Pfeile, wenn der p-Wert kleiner als alpha/5 ist, und 3 Pfeile, wenn der p-Wert kleiner als alpha/50 ist. Zum Beispiel wurde Ihr Konfidenzniveau auf 95 % eingestellt:

  • p-Wert <= .05: 1 Pfeil
  • p-Wert <= .01: 2 Pfeile
  • p-Wert <= .001: 3 Pfeile

Die Berechnung des angepassten Restwerts und sein Vergleich mit bestimmten Alpha-Werten können als „z-Test“ oder „z-Test für einen Stichprobenprozentsatz“ gekennzeichnet werden. In der Literatur heißt es in der Regel einfach, dass Schlussfolgerungen auf angepassten Residuen beruhten.

Konfidenzintervalle

Für alle Binomialkonfidenzintervalle, einschließlich Eventualtabellen und in Balkendiagrammen vom Typ „Beschreiben“ berechnet Stats iQ das Konfidenzintervall mithilfe des Wilson-Score-Intervalls.

Stats iQ-Korrelationen

Wenn Benutzer zwei kontinuierliche oder diskrete Variablen auswählen, führt Stats iQ eine Korrelation aus, um zu beurteilen, ob diese beiden Gruppen statistisch zusammenhängen. Stats iQ berechnet standardmäßig Pearsons r, die gängigste Korrelationsart. Wenn die Annahmen dieses Tests nicht erfüllt werden, empfiehlt Stats iQ eine Ranking-Version desselben Tests, die Spearmans Rho berechnet. Darüber hinaus verwendet Stats iQ die Fisher-Transformation, um Konfidenzintervalle für den Korrelationskoeffizienten zu berechnen.

Annahmen von Pearson’s r

Stats iQ empfiehlt Pearson’s r als gültiges Maß für Korrelation, wenn bestimmte Annahmen bezüglich der Daten erfüllt sind:

  • Es gibt keine Ausreißer in den kontinuierlichen/diskreten Daten.
  • Die Beziehung zwischen den Variablen ist linear (z.B. y = 2x, nicht y = x^2).

Stats iQ zeigt keine Zeile mit der besten Anpassung an, wenn es eine Verletzung dieser Annahmen feststellt.

Rangfolge der Korrelation (Spearman’s Rho)

Wenn Annahmen verletzt werden, ist der Pearson’s r möglicherweise kein gültiges Maß für Korrelation mehr. In diesem Fall empfiehlt Stats iQ Spearmans Rho; Stats iQ rank-transformiert die Daten (ersetzt Werte durch ihre Rangfolge) und führt dann die typische Korrelation aus. Die Rang-Transformation ist eine etablierte Methode zum Schutz vor Vermutungsverletzungen (eine „nicht-parametrische“ Methode), und die Rangtransformation von Pearson nach Spearman ist die häufigste (Conover and Iman, 1981). Beachten Sie, dass Spearmans Rho immer noch davon ausgeht, dass die Beziehung zwischen den Variablen monotonisch ist.

Zusätzliche Überlegungen zu Korrelationen

  1. Bei größeren Stichprobengrößen ist es weniger wahrscheinlich, dass Ausreißer sich negativ auf die Ergebnisse auswirken. Stats iQ verwendet den „äußeren Zaun“ von Tukey, um Ausreißer als Punkte zu definieren, die mehr als das Dreifache des Quartilbereichs über dem 75. oder unter dem 25. Perzentilpunkt liegen.
  2. Stats iQ identifiziert eine Beziehung als nichtlinear, wenn Spearmans Rho > 1.1 * Pearsons Rho r und Spearmans Rho statistisch signifikant sind.
  3. Obwohl Likert-Skalen (wie eine Skala von 1 bis 7, bei der 1 sehr unzufrieden und 7 sehr zufrieden ist) technisch ordinal sind, ist es in den Sozialwissenschaften üblich, sie so zu behandeln, als seien sie kontinuierlich (d. h. mit Pearsons r.).

Unabhängige Proben T-Test

Dieser unbewertete t-Test ist die häufigste Form des t-Tests. Die statistische Signifikanz eines t-Tests gibt an, ob der Durchschnitt der Differenz 2 zwei Gruppen höchstwahrscheinlich einen „realen“ Unterschied in der Population widerspiegelt, aus der die Gruppen entnommen wurden.

Ein statistisch signifikantes t-Testergebnis ist eines, bei dem ein Unterschied zwischen 2 Gruppen wahrscheinlich nicht versehentlich oder zufällig aufgetreten ist. Die statistische Signifikanz wird durch den Umfang der Differenz zwischen den Gruppendurchschnitten, dem Stichprobenumfang und den Standardabweichungen der Gruppen bestimmt. Für praktische Zwecke deutet die statistische Signifikanz darauf hin, dass die 2 Populationen, von denen wir proben, tatsächlich unterschiedlich sind.

Beispiel: Angenommen, Sie interessieren sich dafür, ob der durchschnittliche Amerikaner mehr als der durchschnittliche Kanadier pro Monat für Filme ausgibt. Sie fragen eine Stichprobe von 3 Personen aus jedem Land nach ihren Filmausgaben. Sie stellen möglicherweise einen Unterschied in diesen Durchschnittswerten fest, aber dieser Unterschied ist statistisch nicht signifikant; es könnte zufälliges Glück sein, wer Sie zufällig beprobt haben, was dazu führt, dass eine Gruppe scheinbar mehr Geld ausgibt als die andere. Wenn Sie stattdessen 300 Amerikaner und 300 Kanadier fragen und immer noch einen großen Unterschied sehen, wird dieser Unterschied weniger wahrscheinlich dadurch verursacht, dass die Probe nicht repräsentativ ist.

Beachten Sie, dass wenn Sie 300.000 Amerikaner und 300.000 Kanadier gefragt haben, das Ergebnis wahrscheinlich statistisch signifikant wäre, auch wenn der Unterschied zwischen der Gruppe nur ein Penny war. Die Effektgröße des t-Tests ergänzt seine statistische Signifikanz und beschreibt die Größe der Differenz, unabhängig davon, ob die Differenz statistisch signifikant ist oder nicht.

Welch’s T-Test

Wenn Benutzer eine binäre Variable mit einer kontinuierlichen oder diskreten Variablen verknüpfen möchten, führt Stats iQ einen zweistufigen t-Test durch (alle statistischen Tests in Qualtrics sind, sofern zutreffend), um zu beurteilen, ob eine der beiden Gruppen tendenziell höhere Werte als die andere für die stetige/diskrete Variable hat. Stats iQ verwendet standardmäßig den t-Test des Welch, der auch als t-Test für ungleiche Abweichungen bezeichnet wird. Wenn die Annahmen dieses Tests nicht erfüllt sind, empfiehlt Stats iQ eine eingestufte Version desselben Tests.

Annahmen für den T-Test von Welch

Stats iQ empfiehlt Welchs t-Test (im Folgenden „t-Test“), wenn mehrere Annahmen bezüglich der Daten bestehen:

  • Der Stichprobenumfang jeder Gruppe liegt über 15 (und somit erfüllt der Central Limit Theorem die Anforderung für normal verteilte Daten).
  • Die kontinuierlichen/diskreten Daten enthalten nur wenige oder keine Ausreißer.

Anders als der etwas häufigere t-Test auf gleiche Varianzen geht Welchs t-Test nicht davon aus, dass die Varianzen der zu vergleichenden 2 Gruppen gleich sind. Das moderne Computing hat diese Annahme überflüssig gemacht. Außerdem führt die Annahme gleicher Abweichungen zu weniger genauen Ergebnissen, wenn Abweichungen nicht gleich sind, und ihre Ergebnisse sind nicht genauer, wenn Abweichungen tatsächlich gleich sind (Ruxton, 2006).

Rang-T-Test

Wenn Annahmen verletzt werden, ist der t-Test möglicherweise nicht mehr gültig. In diesem Fall empfiehlt Stats iQ den Ranking-t-Test; Stats iQ rank-transformiert die Daten (ersetzt Werte durch ihre Rangfolge) und führt dann denselben t-Test von Welch für diese transformierten Daten aus. Der Ranglisten-t-Test ist robust für Ausreißer und nicht normal verteilte Daten. Die Rank-Transformation ist eine etablierte Methode zum Schutz vor Vermutungsverletzungen (eine „nicht-parametrische“ Methode) und wird am häufigsten im Unterschied zwischen Pearson- und Spearman-Korrelation (Conover and Iman, 1981) beobachtet. Die Rang-Transformation mit anschließendem t-Test von Welch ähnelt dem Mann-Whitney-U-Test, aber etwas effizienter (Ruxton, 2006; Zimmerman, 2012).

Beachten Sie, dass die t-Tests auf Gleichheit der Mittel der beiden Gruppen zwar durchgeführt werden, der rangierte t-Test jedoch nicht explizit auf Unterschiede zwischen den Gruppen- oder Medianwerten prüft. Vielmehr wird auf eine allgemeine Tendenz einer Gruppe getestet, größere Werte als die andere zu haben.

Weitere Überlegungen für T-Tests

  1. Bei Stichprobengrößen unter 15 können die Daten weiterhin visuell geprüft werden, um zu ermitteln, ob sie normal verteilt sind. Ist dies der Fall, sind nicht eingestufte t-Testergebnisse auch für kleine Stichproben gültig. In der Praxis kann diese Bewertung schwierig sein, daher empfiehlt Stats iQ standardmäßig eine Rangfolge von t-Tests für kleine Beispiele.
  2. Bei größeren Stichprobengrößen ist es weniger wahrscheinlich, dass Ausreißer sich negativ auf die Ergebnisse auswirken. Stats iQ verwendet den „äußeren Zaun“ von Tukey, um Ausreißer als Punkte zu definieren, die mehr als das Dreifache des Quartilbereichs über dem 75. oder unter dem 25. Perzentilpunkt liegen.
  3. Daten wie „Höchster Bildungsabschluss“ oder „Endgültige Ordnung in einem Marathon“ sind eindeutig ordinal. Obwohl Likert-Skalen (wie eine Skala von 1 bis 7, bei der 1 sehr unzufrieden und 7 sehr zufrieden ist) technisch ordinal sind, ist es in den Sozialwissenschaften üblich, sie so zu behandeln, als seien sie kontinuierlich (d. h. mit einem nicht eingestuften t-Test).

Regression

Es gibt zwei Haupttypen von Regressionsläufen in Stats iQ. Wenn die Ausgabevariable eine Zahlenvariable ist, führt Stats iQ eine lineare Regression aus. Wenn die Ausgabevariable eine Kategorievariable ist, führt Stats iQ eine logistische Regression aus. Die Standardausgabe für eine lineare Regression ist eine Kombination aus der relativen Wichtigkeit (insbesondere der relativen Gewichtungen von Johnson) und den ordentlichen kleinsten Quadraten. Bei der Ausführung der Regression “Ordinary Least Squares” verwendet Stats iQ die Variation “M-Estimation”, eine modernere Technik, die die Wirkung von Ausreißern dämpft und zu genaueren Ergebnissen führt.

Weitere Informationen finden Sie unter Regression & Relative Wichtigkeit.

Häufig gestellte Fragen

Viele Seiten dieses Portals wurden mithilfe maschineller Übersetzung aus dem Englischen übersetzt. Obwohl wir bei Qualtrics die bestmögliche maschinelle Übersetzung ausgewählt haben, um ein möglichst gutes Ergebnis zu bieten, ist maschinelle Übersetzung nie perfekt. Der englische Originaltext gilt als offizielle Version. Abweichungen zwischen dem englischen Originaltext und den maschinellen Übersetzungen sind nicht rechtlich bindend.