Was ist ANOVA?
Der Begriff „ANOVA“ steht in der Statistik für „Analysis of Variance“ und ist eine andere Bezeichnung für die Varianzanalyse. Die Varianzanalyse ist ein multivariates Analyseverfahren, mit dem getestet wird, ob sich die Mittelwerte mehrerer unabhängiger Gruppen oder Stichproben signifikant voneinander unterscheiden.
Das Prinzip des Verfahrens basiert auf dem sogenannten t-Test. Bei diesem können lediglich zwei Mittelwerte im direkten Vergleich untersucht werden. Die Varianzanalyse hingegen bezieht mehrere Variablen mit ein.
Varianzanalyse: wichtige Begriffe
- Faktor: Die kategorialen unabhängigen Variablen, aus denen sich die jeweiligen Mittelwerte ergeben, werden Faktoren genannt.
- Faktorstufe: Die unabhängigen Variablen können mehrere Merkmale, Ausprägungen oder Kategorien aufweisen, welche als Faktorstufen bezeichnet werden.
- Grundniveau: Der Mittelwert der gesamten Stichprobe unabhängig von der Gruppenzugehörigkeit ist der Gesamtmittelwert oder auch das Grundniveau.
- Varianz: Die Varianz ist das Maß, mit dem angegeben wird, wie stark die Abweichung von einem Mittelwert ausfällt.
Ziele der Varianzanalyse
Varianzanalysen werden häufig zur Marktforschung im Marketing angewandt. Unternehmen können damit ihre Zielgruppe besser verstehen und versuchen vorherzusagen, auf welche Weise die verschiedenen Gruppen reagieren. Beispielsweise hilft ANOVA bei der Beantwortung folgender und ähnlicher Fragen:
- Beeinflussen Alter, Geschlecht und Einkommen, ob jemand auf die Zielseite klickt?
- Inwiefern beeinflussen Standort, Beschäftigungsstatus und Bildung den NPS-Score?
Die Varianzanalyse deckt signifikante Unterschiede zwischen den Mittelwerten der unabhängigen Variablen (UV) auf – in Bezug auf die Beispielfragen wären diese Alter, Geschlecht und Einkommen bzw. Standort, Beschäftigungsstatus und Bildung. Die Unterschiede zwischen den Mittelwerten der UV geben Aufschluss darüber, wie stark die jeweiligen Auswirkungen auf die abhängige Variable (AV) sind – in diesem Beispiel die Landingpage-Klicks bzw. der Score für Kundenzufriedenheit (Net Promoter Score).
Erfahren Sie mehr über Qualtrics
Demo AnfordernFormen der Varianzanalyse
Generell gibt es drei Formen der Varianzanalyse, die in der Praxis häufig Anwendung finden:
- einfaktorielle Varianzanalyse
- mehrfaktorielle Varianzanalyse
- multivariate Varianzanalyse / MANOVA (Multivariate Analysis of Variance)
Wie viele abhängige Variablen, Faktoren und Faktorstufen dabei jeweils miteinbezogen werden, zeigt die folgende Tabelle im Überblick:
Art der Varianzanalyse | Anzahl AV | Anzahl UV (Faktor) | Anzahl Faktorstufen |
---|---|---|---|
einfaktoriell | 1 | 1 | mehr als 1 |
zwei- bzw. mehrfaktoriell | 1 | min. 2 | mehr als 1 |
multivariat | min. 2 | min. 1 | mehr als 1 |
Darüber hinaus existieren diese zwei Sonderformen der ANOVA:
- ANOVA mit Messwiederholung: Um mögliche Veränderungen über einen bestimmten Zeitraum zu erkennen, kann ein und dieselbe Varianzanalyse zu verschiedenen Zeitpunkten wiederholt werden.
- Kovarianzanalyse / ANCOVA (Analysis of Covariance): Hierbei wird zu den nicht metrisch skalierten UV eine metrisch skalierte UV hinzugefügt – die sogenannte Kovariate oder auch Kovariable. Zwischen der AV und der Kovariable sollte eine lineare Abhängigkeit bestehen. Dies kann mit einer vorherigen Regressionsanalyse überprüft werden. Dadurch bietet das ANCOVA-Modell einen entscheidenden Vorteil für die Untersuchung: Etwaige Störvariablen können zunächst eliminiert und Varianzen innerhalb der Gruppen reduziert werden.
Varianzanalyse: Beispiele
Welche Methode der Varianzanalyse angewandt wird, hängt von der Fragestellung bzw. der Zahl der zu untersuchenden Faktoren ab. Je mehr Faktoren analysiert werden sollen, desto höher ist auch die Zahl der Faktorstufenkombinationen. Um dennoch ein aussagekräftiges Ergebnis zu erzielen, ist ein entsprechend großer Datensatz notwendig.
In der folgenden Tabelle werden mögliche Fragestellungen sowie die dabei entstehenden Variablen beispielhaft aufgeführt:
Varianzanalyse | Fragestellung | AV | Faktoren | Faktorstufen |
---|---|---|---|---|
einfaktoriell | Welchen Einfluss hat die Zahl der ausgespielten Werbeanzeigen im Social Media Marketing auf das Kaufverhalten der Websitebesucher? | Zahl der Käufe | Zahl der Werbe-anzeigen |
|
zweifaktoriell | Welchen Einfluss haben das Alter der Befragten und das Wetter auf das Kaufverhalten der Websitebesucher? | Zahl der Käufe | Alter |
|
Wetter |
|
|||
multivariat | Welchen Einfluss haben das Alter der Websitebesucher und das Wetter auf ihr Kaufverhalten sowie ihr Klickverhalten auf Social-Media-Werbeanzeigen? | Zahl der Käufe | Alter |
|
Wetter |
|
|||
Zahl der angeklickten Werbe-anzeigen | Alter |
|
||
Wetter |
|
Ablauf einer Varianzanalyse
Für die Durchführung einer Varianzanalyse ist es essenziell, eine sinnvolle Fragestellung zu formulieren sowie mögliche Hypothesen für das Ergebnis aufzustellen. Zu beachten ist jedoch: Die Varianzanalyse liefert ausschließlich Informationen darüber, ob ein Unterschied zwischen den Mittelwerten besteht. Das Ergebnis ist ein Signifikanzniveau, dessen Wert besagt, mit welcher Wahrscheinlichkeit mindestens zwei Ausprägungen einen bedeutsamen Unterschied aufweisen. Dagegen macht die ANOVA weder eine Aussage dazu, zwischen wie vielen noch zwischen welchen Faktorstufen der Unterschied zu finden ist.
Statistische Hypothesen
Jede ANOVA geht zunächst von zwei Hypothesen aus:
- Nullhypothese H0: Zwischen den Mittelwerten der einzelnen Gruppen bestehen keine Unterschiede.
- Alternativhypothese H1: Mindestens zwei Gruppenmittelwerte unterscheiden sich voneinander.
In Formeln gesprochen sehen die beiden Hypothesen so aus:
H1: µi ≠ µj
Berechnung hinter der Varianzanalyse
Die Berechnung, die hinter einer Varianzanalyse steckt, ist sehr komplex. Sie kann mithilfe eines geeigneten Programms aber mit relativ geringem Zeitaufwand durchgeführt werden. Grundsätzlich basiert das Ergebnis auf der Quadratsumme der Gesamtvarianzen innerhalb der Faktoren und der Gesamtvarianzen zwischen den verschiedenen Faktoren.
Interpretation der Ergebnisse
Nach der Durchführung einer ANOVA gibt die verwendete Software verschiedene Werte aus. Ein Ergebnis kann z. B. so aussehen: F (2, 13) = 33.46, p ≤ .001.
- F: Der empirisch ermittelte F-Wert wird mit einem sogenannten kritischen F-Wert verglichen, um herauszufinden, ob das Ergebnis auch in der Grundgesamtheit gilt. Je höher der empirische F-Wert ausfällt, desto stärker ausgeprägt ist die Varianz.
In diesem Fall beträgt der F-Wert 33,46. Die Werte 2 und 13 in Klammern entsprechen den Angaben über die Freiheitsgrade, welche das Analysetool anhand der Datengrundlage auswählt. Die Freiheitsgrade sind die Werte, die frei geändert werden können, ohne den interessierenden statistischen Parameter oder ein zur Berechnung des statistischen Parameters benötigtes Zwischenergebnis zu ändern. - p: Der p-Wert gibt Auskunft über die Signifikanz – sprich darüber, wie wahrscheinlich die beobachteten Mittelwertsunterschiede allein durch Zufallseffekte entstehen. Ein geringer p-Wert bedeutet somit, dass es unwahrscheinlich ist, dass die Unterschiede auf dem Zufall basieren. Ein hoher p-Wert gibt an, dass zufällige Unterschiede sehr wahrscheinlich und die Werte daher nicht sinnvoll interpretierbar sind. Damit das Ergebnis einer ANOVA als signifikant gilt, muss i. d. R. p kleiner als 0,5 sein.
Oftmals wird ein weiterer wichtiger statistischer Wert angegeben, etwa in der Form ղp2 = .87. Dabei handelt es sich um den sogenannten Effekt. Dieser liegt stets zwischen 0 und 1 und gibt an, wie stark sich der untersuchte Faktor im entsprechenden Datenmaterial auswirkt. Je näher der Wert an der 1 liegt, desto stärker ist der Effekt der UV auf die AV.
Ergebnis spezifizieren
Ein signifikantes Ergebnis der Varianzanalyse bedeutet, dass sich mindestens zwei Gruppen statistisch signifikant voneinander unterscheiden. Um herauszufinden, welche beiden Gruppen dies sind, ist die Durchführung weiterer Tests möglich, welche Post-Hoc-Tests genannt werden. Dabei kommt es zum direkten Vergleich zwischen den jeweiligen Gruppen. Die Ergebnisse aus der einfachen Varianzanalyse werden erweitert und anschließend können konkrete Maßnahmen in der Praxis ergriffen werden.
Voraussetzungen für eine Varianzanalyse
Um eine Varianzanalyse erfolgreich durchführen zu können, sind unabhängig von der gewählten Form einige Bedingungen zu erfüllen:
- Skalenniveau: Das Skalenniveau der abhängigen Variable sollte metrisch sein, sprich, es sollte sich um zählbare Einheiten mit interpretierbaren Abständen halten. Unterschieden wird hier z. B. zwischen intervallskalierten Daten ohne natürlichen Nullpunkt und verhältnisskalierten Daten mit natürlichem Nullpunkt.
- Unabhängigkeit: Die zu untersuchenden Faktoren sollten gänzlich voneinander unabhängig sein. Bei einer Untersuchung zur Konzentrationsfähigkeit mit den Faktoren „Schlafpensum“ und „Koffeinkonsum“ sollte beispielsweise keine Varianzanalyse zwischen den beiden unabhängigen Variablen durchgeführt werden. Ein Zusammenhang kann nicht mit hundertprozentiger Sicherheit ausgeschlossen werden.
- Homogenität: Die Varianzen sollten homogen, d. h. innerhalb der Gruppen vergleichbar sein (Varianzhomogenität). Mit dem sogenannten Levene-Test kann die Homoskedastizität überprüft werden.
- Normalverteilung: Die Daten innerhalb der Gruppen sollten normalverteilt sein. Das bedeutet, dass der Großteil der Werte im durchschnittlichen Bereich liegen, während sich nur sehr wenige Werte deutlich darunter oder deutlich darüber befinden.
Die Welch-ANOVA als Ausnahme
Die Welch-ANOVA wird ebenfalls angewandt, um mehr als zwei unabhängige Stichproben auf unterschiedliche Mittelwerte zu testen. Allerdings muss hier nicht die Voraussetzung der Varianzhomogenität wie bei einer üblichen ANOVA erfüllt werden. Dadurch ist die Wahl der Stichproben weniger eingeschränkt.
ANOVA mit Stats iQ
Stats iQ von Qualtrics ermöglicht die zuverlässige Durchführung einer ANOVA mit einer abhängigen Variable und mehreren unabhängigen Variablen. Darüber hinaus sind eine Welch-ANOVA sowie viele weitere Post-Hoc-Tests möglich, wie z. B. der Games-Howell-Test.
Die einfaktorielle Varianzanalyse mit Stats iQ liefert einen Gesamtüberblick über die Beziehung zwischen den Variablen, während die Post-Hoc-Tests mehrere paarweise Vergleiche der Faktoren durchführen. Dadurch werden die genauen Unterschiede zwischen den jeweiligen Faktorkombinationen deutlich.
Erfahren Sie mehr über Qualtrics