zum Hauptinhalt springen
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Statistische Testannahmen und technische Details


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Stats iQ wählt statistische Tests mit dem Ziel aus, statistische Tests intuitiv und fehlerfrei zu gestalten.

Auf dieser Seite werden die übergreifenden Themen des Stats iQ beschrieben, und auf der folgenden Seite werden spezifische Entscheidungen für bestimmte Tests beschrieben:

Grundannahmen

Wenn möglich, verwendet Stats iQ standardmäßig Tests mit weniger Annahmen. Unabhängige Proben t-Tests können beispielsweise auf verschiedene Weise berechnet werden, je nachdem, ob gleichgroße Proben oder Abweichungen angenommen werden. Stats iQ führt den Test mit den geringsten Annahmen aus.

Darüber hinaus mindert Stats iQ Verstöße gegen die Annahmen statistischer Tests intelligent. Beispielsweise erfordern t-Tests an relativ kleinen Proben, dass normal verteilte Daten korrekt sind. Ausreißer oder nicht normale Verteilungen führen zu irreführenden Ergebnisse. Jeder Datenpunkt von

[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

ist niedriger als jeder Datenpunkt in

[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

Ein unabhängiger t-Test für diese Gruppen ergibt jedoch keinen statistisch signifikanten Unterschied, da der Ausreißer 2000 gegen t-Test-Annahmen verstößt. Stats iQ bemerkt den Ausreißer und empfiehlt stattdessen einen Rang-t-Test, der einen sehr deutlichen Unterschied zwischen den Gruppen ergibt.

Rangfolge von Transformationen festlegen

Stats iQ verwendet häufig die Rang-Transformationsmethode für die Ausführung nicht parametrischer Tests, wenn Verstöße gegen parametrische Testannahmen erkannt werden. Stats iQ ersetzt Werte durch ihre Rangfolge – zum Beispiel

[86, 95, 40] wird in [2, 3, 1] umgewandelt

– führt dann den typischen parametrischen Test für die transformierten Daten aus. Gebundene Werte erhalten den durchschnittlichen Rang der gebundenen Werte, d.h.

[11, 35, 35, 52] wird zu [1, 2.5, 2.5, 4].

Die am häufigsten im Unterschied zwischen Pearson- und Spearman-Korrelationen auftretenden Rank-transformierten Tests sind robust gegenüber nicht-normalen Verteilungen und Ausreißern und konzeptionell einfacher als die Verwendung etwas häufiger nichtparametrischer Tests.

ANOVA

Wenn Benutzer eine kategorische Variable mit 3 oder mehr Gruppen und eine kontinuierliche oder diskrete Variable auswählen, führt Stats iQ eine Einweg-ANOVA (Welchs F-Test) und eine Reihe paarweiser „Post-hoc“-Tests (Games-Howell-Tests) aus. Die Einweg-ANOVA-Tests auf eine Beziehung zwischen den beiden Variablen und die paarweisen Tests testen jedes mögliche Gruppenpaar, um festzustellen, ob eine Gruppe tendenziell höhere Werte als die andere hat.

Annahmen von Welchs F-Test ANOVA

Stats iQ empfiehlt einen F-Test von Welch ohne Rangfolge, wenn mehrere Annahmen über den Datenbestand vorliegen:

  • Die Stichprobe ist größer als das Zehnfache der Anzahl der Gruppen in der Berechnung (Gruppen mit nur einem Wert werden ausgeschlossen), und daher erfüllt der zentrale Limitsatz die Anforderung nach normal verteilten Daten.
  • Es gibt wenige oder keine Ausreißer in den kontinuierlichen/diskreten Daten.

Im Gegensatz zum etwas häufigeren F-Test für gleich Abweichungen nimmt Welchs F-Test nicht an, dass die Varianzen der zu vergleichenden Gruppen gleich sind. Die Annahme gleicher Abweichungen führt zu weniger genauen Ergebnisse, wenn Abweichungen tatsächlich nicht gleich sind, und ihre Ergebnisse sind sehr ähnlich, wenn die Abweichungen tatsächlich gleich sind (Tomarken und Serlin, 1986).

ANOVA mit Rang

Bei Verstößen gegen Annahmen kann es vorkommen, dass die nicht eingestufte ANOVA nicht mehr gültig ist. In diesem Fall empfiehlt Stats iQ die Rangfolge ANOVA (auch „ANOVA auf Rängen“ genannt); Stats iQ transformiert die Daten (ersetzt Werte durch ihre Rangfolge) und führt dann dieselbe ANOVA für diese transformierten Daten aus.

Die rangierte ANOVA ist robust gegenüber Ausreißern und nicht normal verteilten Daten. Die Rank-Transformation ist eine bewährte Methode zum Schutz vor Vermutungsverletzungen (eine „nicht-parametrische“ Methode) und wird am häufigsten im Unterschied zwischen Pearson- und Spearman-Korrelation gesehen. Die Rangtransformation, gefolgt von Welchs F-Test, ist ähnlich wie der Kruskal-Wallis-Test (Zimmerman, 2012).

Die Effektgröße gibt an, ob die Differenz zwischen den Durchschnittswerten der Gruppen groß genug ist, um praktische Bedeutung zu haben, ob sie statistisch signifikant ist oder nicht. Beachten Sie, dass Stats iQ eingestuften und nicht eingestuften ANOVA-Effektgrößen (Cohen’s f) mit dem F-Wert aus dem F-Test für gleiche Abweichungen berechnet werden.

Annahmen von Games-Howell Pairwise Test

Stats iQ führt Games-Howell-Tests unabhängig vom Ergebnis des ANOVA-Tests durch (gemäß Zimmerman, 2010). Stats iQ zeigt paarweise Games-Howell-Tests ohne Rangfolge oder Rangfolge basierend auf denselben Kriterien an, die für ranked vs. unranked ANOVA verwendet werden. Wenn Sie also „Ranked ANOVA“ in der erweiterten Ausgabe sehen, werden die paarweisen Tests ebenfalls eingestuft.

Der Games-Howell ist im Wesentlichen ein t-Test für ungleiche Abweichungen, der die erhöhte Wahrscheinlichkeit ausmacht, statistisch signifikante Ergebnisse zufällig zu finden, wenn viele paarweise Tests durchgeführt werden. Im Gegensatz zum etwas häufigeren Tukey-b-Test geht der Games-Howell-Test nicht davon aus, dass die Varianzen der zu vergleichenden Gruppen gleich sind. Die Annahme gleicher Abweichungen führt zu weniger genauen Ergebnisse, wenn Abweichungen tatsächlich nicht gleich sind, und ihre Ergebnisse sind sehr ähnlich, wenn die Abweichungen tatsächlich gleich sind (Howell, 2012).

Beachten Sie, dass während der paarweise Test ohne Rangfolge auf Gleichheit der bedeutet der beiden Gruppen prüft der paarweise Rangtest nicht explizit auf Unterschiede zwischen den Mitteln oder Medianen der Gruppen. Vielmehr testet sie auf eine allgemeine Tendenz einer Gruppe, größere Werte als die andere zu haben.

Während Stats iQ keine Ergebnisse paarweiser Tests für Gruppen mit weniger als 4 Werten anzeigt, werden diese Gruppen bei der Berechnung der Freiheitsgrade für die anderen paarweisen Tests berücksichtigt.

Zusätzliche ANOVA-Überlegungen

  1. Bei kleineren Stichprobe können Daten weiterhin visuell geprüft werden, um festzustellen, ob sie tatsächlich normal verteilt werden; wenn ja, sind die Ergebnisse von t-Tests ohne Rangfolge auch für kleine Proben weiterhin gültig. In der Praxis kann diese Bewertung schwierig sein, daher empfiehlt Stats iQ standardmäßig Rang-t-Tests für kleine Stichproben.
  2. Bei größeren Stichprobe haben Ausreißer eine geringere Wahrscheinlichkeit, dass sie sich negativ auf die Ergebnisse auswirken. Stats iQ verwendet den „äußeren Zaun“ von Tukey, um Ausreißer als Punkte zu definieren, die mehr als das Dreifache des Intraquartilbereichs über dem 75. oder unter dem 25. Perzentilpunkt liegen.
  3. Daten wie Höchster abgeschlossener Ebene oder Fertigstellungsauftrag im Marathon sind eindeutig ordinal. Obwohl Likert-Skalen (wie eine Skala von 1 bis 7, wobei 1 Sehr unzufrieden und 7 ist Sehr zufrieden) sind technisch ordinal, es ist gängige Praxis in den Sozialwissenschaften, sie so zu behandeln, als seien sie kontinuierlich (d.h. mit einem ungereihten t-Test).

Stats iQ

Wenn Benutzer zwei kategorische Variablen auswählen, beurteilt Stats iQ, ob diese beiden Variablen statistisch zusammenhängen. Stats iQ führt den exakten Test von Fisher, wenn möglich, und andernfalls den Chi-Quadrat-Test von Pearson aus (in der Regel nur „Chi-Quadrat“ genannt).

Chi-Quadrat vs. Exakter Fisher-Test

Der exakte Test von Fisher ist unvoreingenommen, wann immer er ausgeführt werden kann, aber es ist rechnerisch schwierig, ausgeführt zu werden, wenn die Tabelle größer als 2 x 2 ist oder die Stichprobe größer als 10.000 ist (auch bei moderner Datenverarbeitung). Chi-Quadrat-Tests können voreingenommene Ergebnisse haben, wenn Stichprobe niedrig sind (technisch gesehen, wenn die erwartete Zellanzahl unter 5 liegt).

Glücklicherweise ergänzen sich die 2 Tests dadurch, dass der exakte Test von Fisher in der Regel einfach zu berechnen ist, wenn Chi-Quadrat-Tests vorgespannt sind (kleine Proben), und wenn Fishers exakter Test schwierig zu berechnen ist, ist Chi-Quadrat tendenziell unvoreingenommen (große Proben). Da größere Tabellen mit kleinen Stichproben immer noch Probleme verursachen können (und Stats iQ keinen exakten Test von Fisher ausführen kann), weist Stats iQ Benutzer auf potenzielle Komplikationen hin.

Angepasste Residuen

Wie andere statistische Software verwendet Stats iQ angepasste Residuen, um zu beurteilen, ob eine einzelne Zelle statistisch signifikant über oder unter den Erwartungen liegt. Im Wesentlichen fragt der angepasste Rest: „Hat diese Zelle mehr Werte, als ich erwarten würde, wenn es keine Beziehung zwischen diesen beiden Variablen gäbe?“

Wenn die Daten so angezeigt werden, dass jede Spalte 100 % ergibt, können Sie sagen: „Der Anteil der Finanz-/Bankumfrageteilnehmer, die angegeben haben, dass sie ihren Job lieben, ist im Vergleich zu Befragten aus anderen Branchen niedriger als üblich.“

Stats iQ zeigt bis zu 3 Pfeile an, abhängig vom p-Wert, der aus dem angepassten Rest berechnet wird. Stats iQ zeigt je nach Signifikanzgrad des Ergebnisses eine unterschiedliche Anzahl von Pfeilen an. Konkret wird 1 Pfeil angezeigt, wenn der p-Wert kleiner als Alpha ist (1 – Ebene), 2 Pfeile, wenn der p-Wert kleiner als Alpha/5 ist, und 3 Pfeile, wenn der p-Wert kleiner als Alpha/50 ist. Zum Beispiel wurde Ihr Konfidenzniveau auf 95 % eingestellt:

  • p-Wert <= .05: 1 Pfeil
  • p-Wert <= .01: 2 Pfeile
  • p-Wert <= .001: 3 Pfeile

Die Berechnung des angepassten Rests und sein Vergleich mit bestimmten Alpha-Werten können mit einem “z-Test” oder einem “z-Test für einen Stichprobe” bezeichnet werden. In der Literatur heißt es in der Regel eher einfach, dass Schlussfolgerungen auf angepassten Resten beruhen.

Konfidenzintervalle

Für alle binomialen Konfidenzintervalle, einschließlich Ausnahmetabellen, und in Balkendiagrammen vom Typ Kategoriebeschreibung berechnet Stats iQ das Konfidenzintervall mithilfe des Wilson-Score-Intervalls.

Stats iQ

Wenn Benutzer zwei kontinuierliche oder diskrete Variablen auswählen, führt Stats iQ eine Korrelation aus, um zu beurteilen, ob diese beiden Gruppen statistisch zusammenhängen. Stats iQ berechnet standardmäßig Pearsons r, den häufigsten Korrelationstyp. Wenn die Annahmen dieses Tests nicht erfüllt werden, empfiehlt Stats iQ eine Rangversion desselben Tests, die Spearmans Rho berechnet. Darüber hinaus verwendet Stats iQ die Fisher-Transformation, um Konfidenzintervalle für den Korrelationskoeffizienten zu berechnen.

Annahmen von Pearson

Stats iQ empfiehlt Pearsons r als gültiges Maß für die Korrelation, wenn bestimmte Annahmen über die Daten erfüllt sind:

  • In den kontinuierlichen/diskreten Daten sind keine Ausreißer vorhanden.
  • Die Beziehung zwischen den Variablen ist linear (z.B. y = 2x, nicht y = x^2).

Stats iQ zeigt keine Zeile mit der besten Eignung an, wenn sie einen Verstoß gegen diese Annahmen feststellt.

Rangkorrelation (Rho von Spearman)

Bei Verstößen gegen Annahmen darf das r der Pearson kein gültiges Korrelationsmaß mehr sein. In diesem Fall empfiehlt Stats iQ Spearmans Rho; Stats iQ setzt die Daten um (ersetzt Werte durch ihre Rangfolge) und führt dann die typische Korrelation aus. Rank-Transformation ist eine etablierte Methode zum Schutz vor Vermutungsverletzungen (eine „nicht-parametrische“ Methode), und die Rang-Transformation von Pearson zu Spearman ist die häufigste (Conover und Iman, 1981). Beachten Sie, dass Spearmans Rho immer noch davon ausgeht, dass die Beziehung zwischen den Variablen monoton ist.

Zusätzliche Überlegungen zu Korrelationen

  1. Bei größeren Stichprobe haben Ausreißer eine geringere Wahrscheinlichkeit, dass sie sich negativ auf die Ergebnisse auswirken. Stats iQ verwendet den „äußeren Zaun“ von Tukey, um Ausreißer als Punkte zu definieren, die mehr als das Dreifache des Intraquartilbereichs über dem 75. oder unter dem 25. Perzentilpunkt liegen.
  2. Stats iQ identifiziert eine Beziehung als nichtlinear, wenn Spearmans Rho > 1.1 * Pearsons r und Spearmans Rho statistisch signifikant sind.
  3. Obwohl Likert-Skalen (wie eine Skala von 1 bis 7, wobei 1 sehr unzufrieden und 7 sehr zufrieden ist) technisch ordinal sind, ist es in den Sozialwissenschaften üblich, sie so zu behandeln, als seien sie kontinuierlich (d. h. unter Verwendung von Pearsons r).

Unabhängige Proben T-Test

Dieser nicht-rangierte t-Test ist die häufigste Form des t-Tests. Die statistische Signifikanz eines t-Tests gibt an, ob die Differenz zwischen den Durchschnittswerten zweier Gruppen höchstwahrscheinlich eine „reale“ Differenz in der Population widerspiegelt, aus der die Gruppen beprobt wurden.

Ein statistisch signifikantes t-Testergebnis ist ein Ergebnis, bei dem ein Unterschied zwischen 2 Gruppen unwahrscheinlich oder zufällig aufgetreten ist. Die statistische Signifikanz wird durch die Größe der Differenz zwischen den Gruppendurchschnitten, dem Stichprobe und den Standardabweichungen der Gruppen bestimmt. Aus praktischen Gründen deutet die statistische Bedeutung darauf hin, dass sich die beiden Populationen, von denen wir Stichprobe, tatsächlich unterscheiden.

Beispiel: Angenommen, Sie interessieren sich dafür, ob der durchschnittliche Amerikaner mehr als den durchschnittlichen Kanadier pro Monat für Filme ausgibt. Sie fragen eine Stichprobe von 3 Personen aus jedem Land über ihre Filmausgaben. Sie können einen Unterschied in diesen Durchschnittswerten beobachten, aber dieser Unterschied ist nicht statistisch signifikant; es könnte zufällig Glück sein, wer Sie zufällig in die Stichprobe genommen haben, wodurch eine Gruppe anscheinend mehr Geld auszugeben scheint als die andere. Wenn Sie stattdessen 300 Amerikaner und 300 Kanadier fragen und dennoch einen großen Unterschied sehen, ist dieser Unterschied weniger wahrscheinlich, weil die Stichprobe unrepräsentativ ist.

Beachten Sie, dass wenn Sie 300.000 Amerikaner und 300.000 Kanadier fragen, das Ergebnis wahrscheinlich statistisch signifikant wäre, auch wenn der Unterschied zwischen der Gruppe nur ein Pfennig wäre. Die Effektgröße des t-Tests ergänzt seine statistische Signifikanz und beschreibt die Höhe der Differenz, unabhängig davon, ob die Differenz statistisch signifikant ist oder nicht.

Welch’s T-Test

Wenn Benutzer eine binäre Variable mit einer kontinuierlichen oder diskreten Variable in Beziehung setzen möchten, führt Stats iQ einen zweischneidigen t-Test durch (alle statistischen Tests in Qualtrics sind zweischneidig, sofern zutreffend), um zu beurteilen, ob eine der beiden Gruppen tendenziell höhere Werte aufweist als die andere für die kontinuierliche/diskrete Variable. Stats iQ verwendet standardmäßig den t-Test von Welch, der auch als t-Test für ungleiche Abweichungen bezeichnet wird. Wenn die Annahmen dieses Tests nicht erfüllt werden, empfiehlt Stats iQ eine Rangversion desselben Tests.

Annahmen von Welchs T-Test

Stats iQ empfiehlt Welchs t-Test (im Folgenden „t-Test“), wenn mehrere Annahmen über den Datenbestand vorliegen:

  • Die Stichprobe jeder Gruppe liegt über 15 (und somit erfüllt der zentrale Limitsatz die Anforderung nach normal verteilten Daten).
  • Es gibt wenige oder keine Ausreißer in den kontinuierlichen/diskreten Daten.

Im Gegensatz zum etwas häufigeren t-Test für gleiche Abweichungen geht Welchs t-Test nicht davon aus, dass die Varianzen der beiden zu vergleichenden Gruppen gleich sind. Die moderne Datenverarbeitung hat diese Annahme überflüssig gemacht. Darüber hinaus führt die Annahme gleicher Abweichungen zu weniger genauen Ergebnisse, wenn Abweichungen nicht gleich sind, und ihre Ergebnisse sind nicht genauer, wenn Abweichungen tatsächlich gleich sind (Ruxton, 2006).

Rang-T-Test

Wenn Annahmen verletzt werden, ist der t-Test möglicherweise nicht mehr gültig. In diesem Fall empfiehlt Stats iQ den Rang-t-Test; Stats iQ der Daten (ersetzt Werte durch ihre Rangfolge) und führt dann denselben T-Test von Welch für diese transformierten Daten aus. Der Rang-t-Test ist robust für Ausreißer und nicht normal verteilte Daten. Rank-Transformation ist eine etablierte Methode zum Schutz vor Vermutungsverletzungen (eine „nicht-parametrische“ Methode) und wird am häufigsten im Unterschied zwischen Pearson und Spearman-Korrelation gesehen (Conover und Iman, 1981). Die Rang-Transformation, gefolgt von Welchs t-Test, ist ähnlich wie der Mann-Whitney-U-Test, aber etwas effizienter (Ruxton, 2006; Zimmerman, 2012).

Beachten Sie, dass während die t-Test-Tests auf Gleichheit der Mittel der 2 Gruppen, der rangierte t-Test nicht explizit auf Unterschiede zwischen den Gruppenmitteln oder Medianen testet. Vielmehr testet sie auf eine allgemeine Tendenz einer Gruppe, größere Werte als die andere zu haben.

Sonstige Überlegungen zu T-Tests

  1. Bei Stichprobe unter 15 können Daten noch visuell geprüft werden, um festzustellen, ob sie normal verteilt sind. Ist dies der Fall, gelten Ergebnisse ohne Rangfolge auch für kleine Proben. In der Praxis kann diese Bewertung schwierig sein, daher empfiehlt Stats iQ standardmäßig Rang-t-Tests für kleine Stichproben.
  2. Bei größeren Stichprobe haben Ausreißer eine geringere Wahrscheinlichkeit, dass sie sich negativ auf die Ergebnisse auswirken. Stats iQ verwendet den „äußeren Zaun“ von Tukey, um Ausreißer als Punkte zu definieren, die mehr als das Dreifache des Intraquartilbereichs über dem 75. oder unter dem 25. Perzentilpunkt liegen.
  3. Daten wie „Höchster Ebene abgeschlossen“ oder „Abschließender Auftrag im Marathon“ sind eindeutig ordinal. Obwohl Likert-Skalen (wie eine Skala von 1 bis 7, wobei 1 sehr unzufrieden und 7 sehr zufrieden ist) technisch ordinal sind, ist es in den Sozialwissenschaften üblich, sie so zu behandeln, als seien sie kontinuierlich (d. h. mit einem ungereihten t-Test).

Regression

Es gibt zwei Haupttypen von Regressionsläufen in Stats iQ. Wenn die Ausgabevariable eine Zahlenvariable ist, führt Stats iQ eine lineare Regression. Wenn die Ausgabevariable eine Kategorienvariable ist, führt Stats iQ eine logistische Regression. Die Standardausgabe für eine lineare Regression ist eine Kombination aus relativer Wichtigkeit (insbesondere Johnsons relative Gewichtungen) und Ordinary Least Squares. Beim Ausführen einer “Ordinary Least Squares”-Regression verwendet Stats iQ die Variation “M-Estimation”, eine modernere Technik, die die Wirkung von Ausreißern dämpft und zu genaueren Ergebnisse führt.

Weitere Informationen finden Sie unter Regression & relative Wichtigkeit.

FAQs

Viele Seiten dieses Portals wurden mithilfe maschineller Übersetzung aus dem Englischen übersetzt. Obwohl wir bei Qualtrics die bestmögliche maschinelle Übersetzung ausgewählt haben, um ein möglichst gutes Ergebnis zu bieten, ist maschinelle Übersetzung nie perfekt. Der englische Originaltext gilt als offizielle Version. Abweichungen zwischen dem englischen Originaltext und den maschinellen Übersetzungen sind nicht rechtlich bindend.