Ipotesi e dettagli tecnici del test statistico
Stats iQ seleziona i test statistici con l’obiettivo di renderli intuitivi e privi di errori.
Questa pagina descrive i temi generali dell’approccio di Stats iQ e le seguenti descrivono le decisioni specifiche per i test specifici:
Assunzioni di base
Ogniqualvolta possibile, Stats iQ propone di default test che hanno meno assunzioni. Ad esempio, i test t dei campioni indipendenti possono essere calcolati in diversi modi, a seconda che si presuppongano campioni di dimensioni uguali o scostamenti. Stats iQ esegue il test con il minimo di presupposti.
Inoltre, Stats iQ mitiga in modo intelligente le violazioni delle assunzioni dei test statistici. Ad esempio, i test t su campioni relativamente piccoli richiedono dati distribuiti normalmente per essere accurati. I valori fuori norma o le distribuzioni non normali creano risultati fuorvianti. Ogni datapoint di
[1, 2, 3, 3, 4, 5, 5, 5, 6, 7, 7, 8, 9, 10]
è inferiore a tutti i datapoint al
[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 17, 17, 18, 19, 2000]
ma un test di prova indipendente su tali gruppi non dà risultati statisticamente significativi. Stats iQ nota l’outlier e raccomanda invece un t-test classificato, che produce una differenza molto chiara tra i gruppi.
Trasformazioni di classificazione
Stats iQ utilizza frequentemente il metodo della trasformazione del rango per eseguire test non parametrici quando vengono rilevate violazioni delle ipotesi dei test parametrici. La trasformazione di rango di Stats iQ sostituisce i valori con il loro ordine di classificazione, ad esempio
[86, 95, 40] viene trasformato in [2, 3, 1]
, quindi esegue il tipico test parametrico sui dati trasformati. Ai valori vincolati viene data la classificazione media dei valori legati, quindi
[11, 35, 35, 52] diventa [1, 2.5, 2.5, 4].
Più comunemente incontrati nella differenza tra le correlazioni di Pearson e Spearman, i test trasformati in rank sono robusti a distribuzioni non normali e outlier, e sono concettualmente più semplici rispetto all’uso di test non parametrici leggermente più comuni.
ANOVA
Quando gli utenti selezionano 1 variabile categorica con 3 o più gruppi e 1 variabile continua o discreta, Stats iQ esegue un ANOVA a senso unico (test F di Welch) e una serie di test “post hoc” a coppie (test Games-Howell). L’ANOVA a senso unico verifica una relazione complessiva tra le 2 variabili, e i test a coppie testano ogni possibile coppia di gruppi per vedere se un gruppo tende ad avere valori superiori rispetto all’altro.
Ipotesi dell’ANOVA del test F di Welch
Stats iQ raccomanda un test F di Welch non classificato se diverse ipotesi sulla conservazione dei dati:
- La dimensione del campione è maggiore di 10 volte il numero di gruppi nel calcolo (sono esclusi i gruppi con un solo valore), e quindi il Teorema del limite centrale soddisfa il requisito per i dati distribuiti normalmente.
- Esistono pochi o nessun valore fuori norma nei dati continui/discreti.
A differenza del test F leggermente più comune per variazioni uguali, il test F di Welch non presuppone che le varianze dei gruppi confrontati siano uguali. Assumere variazioni uguali porta a risultati meno accurati quando le varianze non sono di fatto uguali, e i suoi risultati sono molto simili quando le varianze sono effettivamente uguali (Tomarken e Serlin, 1986).
ANOVA classificata
Quando si violano le ipotesi, l’ANOVA non classificata potrebbe non essere più valida. In tal caso, Stats iQ raccomanda l’ANOVA classificata (chiamata anche “ANOVA sui ranghi”); Stats iQ trasforma i dati (sostituisce i valori con il loro ordinamento in classifica) e poi esegue la stessa ANOVA su tali dati trasformati.
L’ANOVA classificata è robusta per gli outlier e i dati non distribuiti normalmente. La trasformazione di rango è un metodo consolidato per proteggersi dalla violazione delle assunzioni (un metodo “non parametrico”), ed è più comunemente visto nella differenza tra la correlazione di Pearson e Spearman. La trasformazione in classifica seguita dal test F di Welch è simile in effetti al Kruskal-Wallis Test (Zimmerman, 2012).
La dimensione dell’effetto indica se la differenza tra le medie dei gruppi è abbastanza grande da avere un significato pratico, se è statisticamente significativo o meno. Tieni presente che le dimensioni dell’effetto ANOVA classificate e non classificate di Stats iQ (f di Cohen) sono calcolate utilizzando il valore F del test F per variazioni uguali.
Ipotesi del test a coppie Games-Howell
Stats iQ esegue i test Games-Howell indipendentemente dall’esito del test ANOVA (come da Zimmerman, 2010). Stats iQ mostra test a coppie Games-Howell non classificati o classificati basati sugli stessi criteri utilizzati per l’ANOVA classificata o non classificata; quindi se vedi “ANOVA classificata” nell’output avanzato, verranno classificati anche i test a coppie.
Il Games-Howell è essenzialmente un t-test per varianze disuguali che rende conto dell’elevata probabilità di trovare risultati statisticamente significativi per caso quando si eseguono molti test a coppie. A differenza del test b di Tukey leggermente più comune, il test di Games-Howell non presuppone che le varianze dei gruppi confrontati siano uguali. Assumere variazioni uguali porta a risultati meno accurati quando le varianze non sono di fatto uguali, e i suoi risultati sono molto simili quando le varianze sono effettivamente uguali (Howell, 2012).
Si noti che mentre il test a coppie non classificato verifica l’uguaglianza dei mezzi dei 2 gruppi, il test a coppie classificato non verifica esplicitamente le differenze tra i mezzi o i mediani dei gruppi. Piuttosto, verifica una tendenza generale di un gruppo ad avere valori più grandi rispetto all’altro.
Inoltre, mentre Stats iQ non mostra risultati di test a coppie per nessun gruppo con meno di 4 valori, tali gruppi sono inclusi nel calcolo dei gradi di libertà per gli altri test a coppie.
Ulteriori considerazioni sull’ANOVA
- Con campioni di dimensioni inferiori, i dati possono ancora essere ispezionati visivamente per determinare se sono effettivamente distribuiti normalmente; se lo è, i risultati dei test T non classificati sono ancora validi anche per campioni di piccole dimensioni. In pratica, questa valutazione può essere difficile da effettuare, quindi Stats iQ raccomanda test T classificati per impostazione predefinita per campioni di piccole dimensioni.
- Con dimensioni del campione più grandi, i valori fuori norma hanno meno probabilità di influire negativamente sui risultati. Stats iQ utilizza la “recinzione esterna” di Tukey per definire i valori fuori norma come punti superiori a 3 volte l’intervallo intra-quartile al di sopra del 75° o al di sotto del 25° punto percentile.
- Dati come Alto livello di istruzione completato o Ordine di completamento in maratona sono senza ambiguità ordinali. Sebbene le scale di Likert (come una scala da 1 a 7 dove 1 è molto insoddisfatto e 7 è molto soddisfatto) sono tecnicamente ordinali, è pratica comune nelle scienze sociali trattarle come se fossero continue (cioè con un test t non classificato).
Tabelle di contingenza Stats iQ
Quando gli utenti selezionano 2 variabili categoriali, Stats iQ valuta se quelle 2 variabili sono statisticamente correlate. Stats iQ esegue il test esatto di Fisher quando possibile, e altrimenti esegue il test chi-quadrato di Pearson (tipicamente chiamato “chi-quadrato”).
Chi-quadrato vs. Test esatto di Fisher
Il test esatto di Fisher è imparziale ogni volta che può essere eseguito, ma è computazionalmente difficile da eseguire se la tabella è maggiore di 2 x 2 o la dimensione del campione è maggiore di 10.000 (anche con il calcolo moderno). I test chi-quadrati possono avere risultati distorti quando le dimensioni dei campioni sono basse (tecnicamente, quando la conta prevista delle cellule è inferiore a 5).
Fortunatamente, i 2 test sono complementari in quanto il test esatto di Fisher è tipicamente facile da calcolare quando i test chi-squared sono faziosi (piccoli campioni), e quando il test esatto di Fisher è difficile da calcolare, il chi-quadrato tende ad essere imparziale (campioni di grandi dimensioni). Insomuch poiché tabelle più grandi con piccoli campioni possono ancora creare problemi (e Stats iQ non può eseguire un test esatto di Fisher), Stats iQ avvisa gli utenti di potenziali complicazioni.
Residui adattati
Come altri software statistici, Stats iQ utilizza residui adattati per valutare se una singola cella sia statisticamente significativamente al di sopra o al di sotto delle aspettative. Essenzialmente il residuo corretto chiede: “Questa cella ha più valori in essa di quanto mi aspetterei se non ci fosse alcuna relazione tra queste 2 variabili?”
Se i dati visualizzati sono tali che ogni colonna ammonta al 100%, puoi dire “La percentuale di intervistati finanziari/bancari che hanno dichiarato di ‘amare il loro lavoro’ è inferiore al normale, rispetto agli intervistati di altri settori”.
Stats iQ mostra fino a 3 frecce, a seconda del valore p calcolato dal residuo corretto. Stats iQ mostrerà un numero diverso di frecce a seconda del grado di significatività del risultato. Nello specifico, mostriamo 1 freccia se il valore p è minore di alfa (1 – livello di confidenza), 2 frecce se il valore p è inferiore a alfa/5 e 3 frecce se il valore p è inferiore a alfa/50. Ad esempio, se il livello di confidenza è stato impostato su 95%:
- Valore p <= .05: 1 freccia
- Valore p <= .01: 2 frecce
- Valore p <= .001: 3 frecce
Il calcolo del residuo corretto, e il suo confronto con specifici livelli alfa, può essere etichettato come “test z” o “test z per una percentuale di campione”. La letteratura in genere dice semplicemente che le conclusioni erano basate su residui aggiustati.
Intervalli di fiducia
Per tutti gli intervalli di confidenza binomiali, incluse le tabelle di contingenza e i grafici a barre Descrizione categoria, Stats iQ calcola l’intervallo di confidenza utilizzando l’Intervallo punteggio Wilson.
Correlazioni Stats iQ
Quando gli utenti selezionano 2 variabili continue o discrete, Stats iQ esegue una correlazione per valutare se quei 2 gruppi sono statisticamente correlati. Stats iQ non calcola in modo predefinito il tipo di correlazione più comune di Pearson; se le assunzioni di quel test non sono soddisfatte, Stats iQ raccomanda una versione classificata dello stesso test, calcolando il rho di Spearman. Inoltre, Stats iQ utilizza la trasformazione Fisher per calcolare gli intervalli di confidenza per il coefficiente di correlazione.
Ipotesi di r di Pearson
Stats iQ raccomanda r di Pearson come misura valida di correlazione se sono soddisfatte determinate ipotesi sui dati:
- Non sono presenti valori fuori norma nei dati continui/discreti.
- La relazione tra le variabili è lineare (ad esempio, y = 2x, non y = x^2).
Stats iQ non mostra una linea di miglior adattamento quando rileva una violazione di queste assunzioni.
Correlazione classificata (Rho di Spearman)
Quando le ipotesi sono violate, la r di Pearson potrebbe non essere più una misura valida di correlazione. In tal caso, Stats iQ raccomanda il rho di Spearman; Stats iQ trasforma i dati (sostituisce i valori con il loro ordinamento in classifica) quindi esegue la correlazione tipica. La trasformazione di rango è un metodo consolidato per proteggersi dalla violazione delle assunzioni (un metodo “non parametrico”), e la trasformazione di rango da Pearson a Spearman è la più comune (Conover e Iman, 1981). Si noti che il rho di Spearman assume ancora che la relazione tra le variabili sia monotona.
Ulteriori considerazioni per le correlazioni
- Con dimensioni del campione più grandi, i valori fuori norma hanno meno probabilità di influire negativamente sui risultati. Stats iQ utilizza la “recinzione esterna” di Tukey per definire i valori fuori norma come punti superiori a 3 volte l’intervallo intra-quartile al di sopra del 75° o al di sotto del 25° punto percentile.
- Stats iQ identifica una relazione come non lineare quando rho > di Spearman; 1.1 * I rho di Pearson e Spearman sono statisticamente significativi.
- Anche se le scale di Likert (come una scala da 1 a 7 dove 1 è molto insoddisfatto e 7 è molto soddisfatto) sono tecnicamente ordinali, è pratica comune nelle scienze sociali trattarle come se fossero continue (cioè usando la r di Pearson).
Test t campioni indipendenti
Questo test t non classificato è la forma più comune di test t. La significatività statistica di un test t indica se la differenza tra le medie di 2 due gruppi riflette molto probabilmente una differenza “reale” nella popolazione da cui i gruppi sono stati campionati.
Un risultato statisticamente significativo del test T è quello in cui è improbabile che una differenza tra 2 gruppi si sia verificata accidentalmente o casualmente. La significatività statistica è determinata dalla dimensione della differenza tra le medie del gruppo, la dimensione del campione e le deviazioni standard dei gruppi. Per scopi pratici, la significatività statistica suggerisce che le 2 popolazioni da cui campioniamo sono in realtà diverse.
Esempio: Supponiamo che tu sia interessato a sapere se l’americano medio spende più della media canadese al mese per i film. Si chiede un campione di 3 persone da ogni paese circa la loro spesa cinematografica. Puoi osservare una differenza in quelle medie, ma quella differenza non è statisticamente significativa; potrebbe essere una fortuna casuale di chi hai campionato casualmente che fa apparire un gruppo a spendere più soldi dell’altro. Se invece chiedi 300 americani e 300 canadesi e vedi ancora una grande differenza, quella differenza è meno probabile che sia causata dal fatto che il campione sia non rappresentativo.
Si noti che se chiedessi 300.000 americani e 300.000 canadesi, il risultato sarebbe probabilmente statisticamente significativo anche se la differenza tra il gruppo fosse solo un centesimo. La dimensione dell’effetto del test t completa la sua significatività statistica, descrivendo l’entità della differenza, indipendentemente dal fatto che la differenza sia statisticamente significativa o meno.
T-Test di Welch
Quando gli utenti vogliono correlare una variabile binaria a una variabile continua o discreta, Stats iQ esegue un t-test a due code (tutti i test statistici in Qualtrics sono a due code, ove applicabile) per valutare se uno dei 2 gruppi tende ad avere valori più alti rispetto all’altro per la variabile continua/discreta. Stats iQ predefinisce il t-test di Welch, noto anche come t-test per variazioni non uguali; se le assunzioni di tale test non sono soddisfatte, Stats iQ raccomanda una versione classificata dello stesso test.
Ipotesi del test T di Welch
Stats iQ raccomanda il t-test di Welch (in prosieguo “t-test”) se diverse assunzioni relative alla conservazione dei dati:
- La dimensione del campione di ciascun gruppo è superiore a 15 (e quindi il Teorema del limite centrale soddisfa il requisito dei dati distribuiti normalmente).
- Esistono pochi o nessun valore fuori norma nei dati continui/discreti.
A differenza del test t leggermente più comune per variazioni uguali, il test t di Welch non presuppone che le varianze dei 2 gruppi confrontati siano uguali. L’informatica moderna ha reso inutile questa ipotesi. Inoltre, ipotizzando variazioni uguali si ottengono risultati meno accurati quando le varianze non sono uguali, e i suoi risultati non sono più accurati quando le varianze sono effettivamente uguali (Ruxton, 2006).
Test t classificato
Quando si violano le ipotesi, il t-test potrebbe non essere più valido. In tal caso, Stats iQ raccomanda il t-test classificato; Stats iQ converte i dati (sostituisce i valori con il loro ordinamento in classifica) e quindi esegue lo stesso t-test di Welch su tali dati trasformati. Il test T classificato è robusto per i dati anomali e non distribuiti normalmente. La trasformazione di rango è un metodo consolidato per proteggersi dalla violazione delle assunzioni (un metodo “non parametrico”), ed è più comunemente visto nella differenza tra la correlazione di Pearson e Spearman (Conover e Iman, 1981). La trasformazione in classifica seguita dal t-test di Welch è simile in effetti al Mann-Whitney U Test, ma un po’ più efficiente (Ruxton, 2006; Zimmerman, 2012).
Si noti che mentre i test t per l’uguaglianza dei mezzi dei 2 gruppi, il t-test classificato non verifica esplicitamente le differenze tra i mezzi o mediani dei gruppi. Piuttosto, verifica una tendenza generale di un gruppo ad avere valori più grandi rispetto all’altro.
Altre considerazioni per le prove T
- Con dimensioni del campione inferiori a 15, i dati possono ancora essere ispezionati visivamente per determinare se sono distribuiti normalmente; se lo è, i risultati dei test T non classificati sono ancora validi anche per campioni di piccole dimensioni. In pratica, questa valutazione può essere difficile da effettuare, quindi Stats iQ raccomanda test T classificati per impostazione predefinita per campioni di piccole dimensioni.
- Con dimensioni del campione più grandi, i valori fuori norma hanno meno probabilità di influire negativamente sui risultati. Stats iQ utilizza la “recinzione esterna” di Tukey per definire i valori fuori norma come punti superiori a 3 volte l’intervallo intra-quartile al di sopra del 75° o al di sotto del 25° punto percentile.
- Dati come “Alto livello di istruzione completato” o “Ordine di completamento in una maratona” sono inequivocabilmente ordinali. Sebbene le scale di Likert (come una scala da 1 a 7 dove 1 è molto insoddisfatto e 7 è molto soddisfatto) sono tecnicamente ordinali, è pratica comune nelle scienze sociali trattarle come se fossero continue (cioè con un test t non classificato).
Regressione
Ci sono 2 tipi principali di esecuzione di regressione in Stats iQ. Se la variabile di output è una variabile numerica, Stats iQ eseguirà una regressione lineare. Se la variabile di output è una variabile di categoria, Stats iQ eseguirà una regressione logistica. L’output di default per una regressione lineare è una combinazione di Importanza relativa (in particolare, Pesi relativi di Johnson) e Piani minimi ordinari. Quando si esegue una regressione dei “minimi quadrati ordinari”, Stats iQ utilizza la variazione chiamata “M-estimation”, che è una tecnica più moderna che smorza l’effetto degli outlier, portando a risultati più accurati.
Per saperne di più su Regression & Relative Importance.