Passa al contenuto principale
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Modello di articolo


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Stats iQ seleziona i test statistici con l’obiettivo di renderli intuitivi e privi di errori.

In questa pagina sono descritti i temi generali dell’approccio di Stats iQ, mentre nelle pagine seguenti sono descritte le decisioni specifiche per determinati test:

Ipotesi di base

Quando è possibile, Stats iQ sceglie di preferenza test con un minor numero di ipotesi. Ad esempio, i test t a campioni indipendenti possono essere calcolati in diversi modi, a seconda che si ipotizzino campioni o varianze di dimensioni uguali. Stats iQ esegue il test con il minor numero di ipotesi.

Inoltre, Stats iQ attenua in modo intelligente le violazioni dei presupposti dei test statistici. Ad esempio, i test t su campioni relativamente piccoli richiedono dati con distribuzione normale per essere accurati. I valori anomali o le distribuzioni non normali creano risultati fuorvianti. Ogni datapoint di

[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

è più basso di ogni datapoint di

[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

ma un t-test a campioni indipendenti su questi gruppi non produce una differenza statisticamente significativa perché l’outlier 2000 viola i presupposti del t-test. Stats iq si accorge dell’anomalia e raccomanda invece un test t classificato, che produce una differenza molto chiara tra i gruppi.

Trasformazioni di rango

Stats iQ utilizza spesso il metodo della trasformata di rango per eseguire test non parametrici quando vengono rilevate violazioni delle ipotesi dei test parametrici. La trasformazione di rango di Stats iQ sostituisce i valori con il loro ordine di classificazione, ad esempio

[86, 95, 40] viene trasformato in [2, 3, 1]

– quindi esegue il tipico test parametrico sui dati trasformati. Ai valori vincolati viene assegnato il rango medio dei valori vincolati, quindi

[11, 35, 35, 52] diventa [1, 2.5, 2.5, 4].

Più comunemente riscontrati nella differenza tra le correlazioni di Pearson e Spearman, i test rango-trasformati sono robusti alle distribuzioni non normali e agli outlier e sono concettualmente più semplici rispetto all’utilizzo di test non parametrici leggermente più comuni.

ANOVA

Quando gli utenti selezionano 1 variabile categorica con 3 o più gruppi e 1 variabile continua o discreta, Stats iQ esegue un’ANOVA a una via (test F di Welch) e una serie di test “post hoc” a coppie (test di Games-Howell). L’ANOVA a una via verifica una relazione complessiva tra le due variabili, mentre i test a coppie verificano ogni possibile coppia di gruppi per vedere se un gruppo tende ad avere valori più alti dell’altro.

Assunzioni del test F di Welch ANOVA

Stats iq raccomanda un test F di Welch non classificato se sono soddisfatte diverse ipotesi sui dati:

  • La dimensione del campione è superiore a 10 volte il numero di gruppi nel calcolo (i gruppi con un solo valore sono esclusi) e quindi il Teorema del limite centrale soddisfa il requisito dei dati a distribuzione normale.
  • I dati continui/discreti presentano pochi o nessun outlier.

A differenza del più comune test F per l’uguaglianza delle varianze, il test F di Welch non presuppone che le varianze dei gruppi da confrontare siano uguali. L’assunzione di varianze uguali porta a risultati meno accurati quando le varianze non sono effettivamente uguali, mentre i risultati sono molto simili quando le varianze sono effettivamente uguali (Tomarken e Serlin, 1986).

ANOVA classificata

Quando i presupposti sono violati, l’ANOVA non classificata potrebbe non essere più convalida. In questo caso, Stats iQ raccomanda l’ANOVA a ranghi (detta anche “ANOVA a ranghi”); Stats iQ trasforma i dati a ranghi (sostituisce i valori con il loro ordine di classificazione) e poi esegue la stessa ANOVA sui dati trasformati.

L’ANOVA classificata è robusta agli outlier e ai dati con distribuzione non normale. La trasformazione di rango è un metodo consolidato per proteggere dalla violazione delle assunzioni (un metodo “non parametrico”) ed è più comunemente visto nella differenza tra correlazione di Pearson e di Spearman. La trasformazione dei ranghi seguita dal test F di Welch ha un effetto simile al test di Kruskal-Wallis (Zimmerman, 2012).

La dimensione dell’effetto indica se la differenza tra le medie dei gruppi è abbastanza grande da avere un significato pratico, se è statisticamente significativa o meno. Si noti che le dimensioni dell’effetto dell’ANOVA classificata e non classificata di Stats iQ (f di Cohen) sono calcolate utilizzando il valore F del test F a parità di varianza.

Presupposti del test di coppia di Games-Howell

Stats iQ esegue i test di Games-Howell indipendentemente dal risultato del test ANOVA (come da Zimmerman, 2010). Stats iQ mostra i test a coppie di Games-Howell non classificati o classificati in base agli stessi criteri utilizzati per l’ANOVA classificata o non classificata; pertanto, se si vede “Ranked ANOVA” nell’output avanzato, anche i test a coppie saranno classificati.

Il Games-Howell è essenzialmente un t-test a varianze disuguali che tiene conto della maggiore probabilità di trovare risultati statisticamente significativi per caso quando si eseguono molti test a coppie. A differenza del più comune test b di Tukey, il test di Games-Howell non presuppone che le varianze dei gruppi da confrontare siano uguali. L’assunzione di varianze uguali porta a risultati meno accurati quando le varianze non sono effettivamente uguali, mentre i risultati sono molto simili quando le varianze sono effettivamente uguali (Howell, 2012).

Si noti che mentre il test a coppie non classificate verifica l’uguaglianza delle medie dei due gruppi, il test a coppie classificate non verifica esplicitamente le differenze tra le medie o le mediane dei gruppi. Piuttosto, verifica la tendenza generale di un gruppo ad avere valori maggiori rispetto all’altro.

Inoltre, sebbene Stats iQ non mostri i risultati dei test a coppie per i gruppi con meno di 4 valori, questi gruppi sono inclusi nel calcolo dei gradi di libertà per gli altri test a coppie.

Ulteriori considerazioni sull’ANOVA

  1. Con campioni di dimensioni ridotte, i dati possono ancora essere ispezionati visivamente per determinare se sono effettivamente distribuiti normalmente; in tal caso, i risultati dei t-test non classificati sono ancora convalidi anche per campioni piccoli. In pratica, questa valutazione può essere difficile da fare, quindi Stats iQ raccomanda i test t classificati per impostazione predefinita per campioni piccoli.
  2. Con campioni di dimensioni maggiori, è meno probabile che i valori anomali influenzino negativamente i risultati. Stats iQ utilizza il “recinto esterno” di Tukey per definire gli outlier come punti superiori a 3 volte l’intervallo intra-quartile al di sopra del 75° o al di sotto del 25° percentile.
  3. Dati come Livello massimo di istruzione completato o Ordine di arrivo nella maratona sono ordinali senza ambiguità. Sebbene le scale Likert (come una scala da 1 a 7 in cui 1 è molto insoddisfatto e 7 è molto soddisfatto) siano tecnicamente ordinali, è pratica comune nelle scienze sociali trattarle come se fossero continue (ad esempio, con un t-test non graduato).

Tabelle di contingenza Stats iQ

Quando gli utenti selezionano 2 variabili categoriche, Stats iQ valuta se queste 2 variabili sono statisticamente correlate. Stats iQ esegue il test esatto di Fisher quando possibile, altrimenti esegue il test del chi-quadro di Pearson (in genere chiamato semplicemente “chi-quadro”).

Chi-quadro vs. Test esatto di Fisher

Il test esatto di Fisher è imparziale ogni volta che può essere eseguito, ma è computazionalmente difficile da eseguire se la tabella è superiore a 2 x 2 o la dimensione del campione è superiore a 10.000 (anche con i moderni sistemi informatici). I test Chi-quadro possono avere risultati distorti quando le dimensioni del campione sono basse (tecnicamente, quando il numero di cellule previste è inferiore a 5).

Fortunatamente, i due test sono complementari in quanto il test esatto di Fisher è generalmente facile da calcolare quando i test chi-quadro sono distorti (campioni piccoli) e quando il test esatto di Fisher è difficile da calcolare, il chi-quadro tende a non essere distorto (campioni grandi). Sebbene tabelle più grandi con campioni piccoli possano ancora creare problemi (e Stats iQ non può eseguire un test esatto di Fisher), Stats iQ avverte gli utenti di potenziali complicazioni.

Residui rettificati

Come altri software statistici, Stats iQ utilizza i residui corretti per valutare se una singola cella è statisticamente significativa al di sopra o al di sotto delle aspettative. In sostanza, il residuo corretto chiede: “Questa cella contiene più valori di quelli che mi sarei aspettato se non ci fosse stata relazione tra queste due variabili?”

Se i dati sono visualizzati in modo che ogni colonna assuma il 100%, si può dire che “La percentuale di intervistati del settore finanziario/bancario che hanno dichiarato di ‘amare il proprio lavoro’ è inferiore a quella tipica, rispetto agli intervistati di altri settori”

Stats iQ mostra fino a 3 frecce, a seconda del valore di p calcolato dal residuo corretto. Stats iQ mostrerà un numero diverso di frecce a seconda del grado di significatività del risultato. In particolare, mostriamo 1 freccia se il valore p è inferiore ad alfa (1 – livello di confidenza), 2 frecce se il valore p è inferiore ad alfa/5, e 3 frecce se il valore p è inferiore ad alfa/50. Ad esempio, se il livello di confidenza è stato impostato al 95%:

  • valore p <= .05: 1 freccia
  • p-value <= .01: 2 frecce
  • p-value <= .001: 3 frecce

Il calcolo del residuo aggiustato e il suo confronto con livelli alfa specifici possono essere definiti “z-test” o “z-test per una percentuale del campione” In genere la letteratura si limita a dire che le conclusioni si basano sui residui aggiustati.

Intervalli di confidenza

Per tutti gli intervalli di confidenza binomiali, comprese le tabelle di contingenza e i grafici a barre di Categoria PUNTEGGIO, Stats iQ calcola l’intervallo di confidenza utilizzando l’intervallo di punteggio di Wilson.

Correlazioni con Stats iQ

Quando gli utenti selezionano 2 variabili continue o discrete, Stats iQ esegue una correlazione per valutare se questi 2 gruppi sono statisticamente correlati. Stats iQ calcola per default la r di Pearson, il tipo di correlazione più comune; se i presupposti di questo test non sono soddisfatti, Stats iQ raccomanda una versione classificata dello stesso test, calcolando la rho di Spearman. Inoltre, Stats iq utilizza la Trasformazione di Fisher per calcolare gli intervalli di confidenza per il coefficiente di correlazione.

Ipotesi di r di Pearson

Stats iQ raccomanda la r di Pearson come misura convalida della correlazione se sono soddisfatte alcune ipotesi sui dati:

  • Non ci sono outlier nei dati continui/discreti.
  • La relazione tra le variabili è lineare (ad esempio, y = 2x, non y = x^2).

Stats iQ non visualizza una linea di miglior adattamento quando rileva una violazione di questi presupposti.

Correlazione classificata (Rho di Spearman)

Quando i presupposti sono violati, l’r di Pearson può non essere più una misura convalida della correlazione. In questo caso, Stats iQ raccomanda la rho di Spearman; Stats iQ trasforma i dati (sostituisce i valori con il loro ordine di classificazione) e poi esegue la correlazione tipica. La trasformazione di rango è un metodo consolidato per proteggere dalla violazione dell’ipotesi (un metodo “non parametrico”) e la trasformazione di rango da Pearson a Spearman è la più comune (Conover e Iman, 1981). Si noti che il rho di Spearman presuppone ancora che la relazione tra le variabili sia monotona.

Ulteriori considerazioni sulle correlazioni

  1. Con campioni di dimensioni maggiori, è meno probabile che i valori anomali influenzino negativamente i risultati. Stats iQ utilizza il “recinto esterno” di Tukey per definire gli outlier come punti superiori a 3 volte l’intervallo intra-quartile al di sopra del 75° o al di sotto del 25° percentile.
  2. Stats iQ identifica una relazione come non lineare quando il rho di Spearman > 1,1 * Il r di Pearson e il rho di Spearman sono statisticamente significativi.
  3. Sebbene le scale Likert (come una scala da 1 a 7 in cui 1 è molto insoddisfatto e 7 è molto soddisfatto) siano tecnicamente ordinali, è pratica comune nelle scienze sociali trattarle come se fossero continue (ad esempio, utilizzando la r di Pearson).

Test T a campione indipendente

Questo t-test non classificato è la forma più comune di t-test. La significatività statistica di un t-test indica se la differenza tra le medie di due gruppi riflette molto probabilmente una differenza “reale” nella popolazione da cui i gruppi sono stati campionati.

Un risultato statisticamente significativo del t-test è quello in cui è improbabile che la differenza tra due gruppi si sia verificata per caso o casualmente. La significatività statistica è determinata dall’entità della differenza tra le medie dei gruppi, dalla dimensione del campione e dalle deviazioni standard dei gruppi. Ai fini pratici, la significatività statistica suggerisce che le due popolazioni da cui si campiona sono effettivamente diverse.

Esempio: Supponiamo di essere interessati a sapere se l’americano medio spende più del canadese medio al mese in cinema. Chiedete a un campione di 3 persone di ogni Paese quali sono le loro spese per i film. Si può osservare una differenza in queste medie, ma tale differenza non è statisticamente significativa; potrebbe essere la fortuna di chi è stato preso a campione a far sembrare che un gruppo spenda più soldi dell’altro. Se invece si interpellano 300 americani e 300 canadesi e si riscontra comunque una grande differenza, è meno probabile che questa differenza sia causata da un campione non rappresentativo.

Si noti che se si chiedesse a 300.000 americani e 300.000 canadesi, il risultato sarebbe probabilmente statisticamente significativo anche se la differenza tra i gruppi fosse solo di un centesimo. La dimensione dell’effetto del test t integra la significatività statistica, descrivendo l’entità della differenza, indipendentemente dal fatto che la differenza sia statisticamente significativa o meno.

Test T di Welch

Quando gli utenti desiderano mettere in relazione una variabile binaria con una variabile continua o discreta, Stats iQ esegue un t-test a due code (tutti i test statistici in Qualtrics sono a due code, ove applicabile) per valutare se uno dei due gruppi tende ad avere valori più alti dell’altro per la variabile continua/discreta. Per impostazione predefinita, Stats iQ utilizza il t-test di Welch, noto anche come t-test delle varianze disuguali; se i presupposti di questo test non sono soddisfatti, Stats iQ raccomanda una versione classificata dello stesso test.

Ipotesi del T-Test di Welch

Stats iQ raccomanda il t-test di Welch (di seguito “t-test”) se sono soddisfatte alcune ipotesi sui dati:

  • La dimensione del campione di ciascun gruppo è superiore a 15 (e quindi il Teorema del limite centrale soddisfa il requisito dei dati a distribuzione normale).
  • I dati continui/discreti presentano pochi o nessun outlier.

A differenza del più comune t-test per l’uguaglianza delle varianze, il t-test di Welch non presuppone che le varianze dei due gruppi da confrontare siano uguali. L’informatica moderna ha reso superfluo questo presupposto. Inoltre, l’assunzione di varianze uguali porta a risultati meno accurati quando le varianze non sono uguali, e i risultati non sono più accurati quando le varianze sono effettivamente uguali (Ruxton, 2006).

Test t classificato

Quando i presupposti sono violati, il t-test può non essere più convalidato. In questo caso, Stats iQ raccomanda il ranked t-test; Stats iQ trasforma i dati (sostituisce i valori con il loro ordine di classificazione) e poi esegue lo stesso t-test di Welch sui dati trasformati. Il t-test classificato è robusto ai valori anomali e ai dati con distribuzione non normale. La trasformazione di rango è un metodo consolidato per proteggere dalla violazione delle assunzioni (un metodo “non parametrico”) ed è più comunemente visto nella differenza tra correlazione di Pearson e di Spearman (Conover e Iman, 1981). La trasformazione dei ranghi seguita dal t-test di Welch ha un effetto simile al test U di Mann-Whitney, ma leggermente più efficiente (Ruxton, 2006; Zimmerman, 2012).

Si noti che mentre il t-test verifica l’uguaglianza delle medie dei due gruppi, il t-test classificato non verifica esplicitamente le differenze tra le medie o le mediane dei gruppi. Piuttosto, verifica la tendenza generale di un gruppo ad avere valori maggiori rispetto all’altro.

Altre considerazioni sui test T

  1. Con dimensioni del campione inferiori a 15, i dati possono ancora essere ispezionati visivamente per determinare se sono normalmente distribuiti; in tal caso, i risultati dei t-test non classificati sono ancora validi anche per campioni piccoli. In pratica, questa valutazione può essere difficile da fare, quindi Stats iQ raccomanda i test t classificati per impostazione predefinita per campioni piccoli.
  2. Con campioni di dimensioni maggiori, è meno probabile che i valori anomali influenzino negativamente i risultati. Stats iQ utilizza il “recinto esterno” di Tukey per definire gli outlier come punti superiori a 3 volte l’intervallo intra-quartile al di sopra del 75° o al di sotto del 25° percentile.
  3. Dati come “Livello di istruzione più alto raggiunto” o “Ordine di arrivo in una maratona” sono inequivocabilmente ordinali. Sebbene le scale Likert (come una scala da 1 a 7 in cui 1 è molto insoddisfatto e 7 è molto soddisfatto) siano tecnicamente ordinali, è pratica comune nelle scienze sociali trattarle come se fossero continue (ad esempio, con un t-test non graduato).

Regressione

Esistono 2 tipi principali di regressione in Stats iQ. Se la variabile di output è una variabile numerica, Stats iQ esegue una regressione lineare. Se la variabile di output è una variabile di categoria, Stats iQ esegue una regressione logistica. L’output predefinito per una regressione lineare è una combinazione di Importanza relativa (in particolare, Ponderazioni relative di Johnson) e Minimi quadrati ordinari. Quando si esegue una regressione “Ordinary Least Squares”, Stats iQ utilizza la variante chiamata “M-estimation”, una tecnica più moderna che smorza l’effetto dei valori anomali, portando a risultati più accurati.

See more at Regressione & Importanza relativa.

FAQ

Molte delle pagine di questo sito sono state tradotte dall'originale in inglese mediante traduzione automatica. Sebbene in Qualtrics abbiamo profuso il massimo impegno per avere le migliori traduzioni automatiche possibili, queste non sono mai perfette. Il testo originale inglese è considerato la versione ufficiale, e qualsiasi discrepanza tra questo e le traduzioni automatiche non è legalmente vincolante.