Correla dati
Informazioni sulla relazione tra i dati
Relate esplora le relazioni tra le variabili. Quando selezioni 2 variabili e poi seleziona Correla, Stats iQ sceglierà il test statistico appropriato in base alla struttura dei dati, eseguirà quel test, quindi tradurrà i risultati in una spiegazione semplice e chiara.
Quando selezioni 3 o più variabili, Stats iQ collegherà ogni variabile alla 1 variabile che ha la chiave accanto ad essa, quindi porterà le relazioni più forti in alto. È possibile selezionare decine di variabili alla volta, in modo da passare rapidamente attraverso molte relazioni.
La variabile chiave
La prima variabile selezionata dal riquadro delle variabili sarà la variabile chiave. La variabile chiave serve a 2 funzioni:
- Se vengono selezionate più di 2 variabili (come descritto sopra), ogni variabile non chiave sarà correlata alla 1 variabile chiave (ad esempio, se si selezionano dieci variabili, la variabile 1 chiave sarà correlata a ciascuna delle altre 9, risultando in 9 schede correlate separate).
- La variabile chiave è di default la variabile di “output”. Ad esempio, se si seleziona “Età” e “Ubicazione”, è possibile che “Età” (input) influisca su “Ubicazione” (output), ma non avrebbe senso che “Ubicazione” influisse su “Età”; in questo caso inseriresti la chiave per “Ubicazione”. (In molte analisi questa distinzione non è importante, ma le variabili di input e output possono sempre essere scambiate dopo aver creato la scheda.) Per rendere la variabile chiave la variabile di input anziché la variabile di output, selezionare le frecce piccole a destra del pulsante Correla.
Correlazione tra numeri e variabili numeriche
Quando colleghi 2 variabili numeriche (incluse le categorie ricodificate), Stats iQ solitamente eseguirà una correlazione e creerà un diagramma di dispersione per visualizzare visivamente la relazione tra le 2 variabili.
Se le variabili hanno molti punti sovrapposti nella trama a dispersione, Stats iQ mostrerà invece una dispersione “binned” in cui i rettangoli più scuri indicano un maggiore clustering dei risultati. Stats iQ mostra una linea di miglior adattamento quando i dati indicano che la linea sarà utile (nello specifico, quando i dati non hanno outlier che potrebbero spegnere la linea).
Per visualizzare i dettagli statistici di qualsiasi risultato dell’analisi “correlato”, fare clic su Mostra risultati del test statistico. Quando si mettono in relazione 2 variabili numeriche, Stats iQ calcola un valore p e (per la dimensione dell’effetto) o una r di Pearson o una rho di Spearman. Per maggiori dettagli su come Stats iQ sceglie il test statistico, visita la pagina Ipotesi e dettagli tecnici del test statistico.
È possibile che si sia meno interessati a stabilire se le variabili sono correlate e più interessate a quale variabile è più alta in media. Se le 2 variabili sono su scale simili, Stats iQ fornirà un’opzione in alto per passare da Correlazione a Differenza accoppiata, che ti permette di confrontare le medie.
Correlazione tra numeri e variabili di categoria
Quando colleghi una variabile numerica e una variabile di categoria, Stats iQ esegue un test statistico e crea una tabella che mostra il conteggio, la media, la mediana e la distribuzione di ciascuna categoria della variabile numerica.
Ad esempio, è possibile determinare se gli ospiti in un albergo con bambini o gli ospiti senza figli sono in media più soddisfatti. In questo caso, la variabile “Presenti figli” è categorica e “Soddisfazione” è numerica.
L’output di questo test statistico può essere visualizzato facendo clic su Mostra risultati del test statistico sulla scheda. Quando la variabile di categoria ha solo 2
categorie, Stats iQ esegue un test t o un test t classificato. Quando ne ha di più, Stats iQ esegue un’ANOVA o un’ANOVA classificata, così come un test post hoc Games-Howell. Per maggiori dettagli su come Stats iQ sceglie il test statistico, visita la pagina Ipotesi e dettagli tecnici del test statistico.
Correlazione tra categorie e variabili di categorie
Quando colleghi una variabile di categorie e una variabile di categoria, Stats iQ esegue un test statistico e crea una tabella a campi incrociati.
Ogni colonna del campo incrociato somma al 100%. Nell’esempio riportato di seguito, il 69% degli intervistati in “USA” ha fatto “Returning” e il 31% “New”. È possibile selezionare Percentuale riga per fare in modo che la somma delle righe sia 100%, Conteggio per visualizzare il conteggio non elaborato in ogni cella o Tutte le % per visualizzare la somma dell’intera tabella al 100%. In alternativa, è possibile capovolgere completamente le righe con le colonne selezionando in cima al risultato dell’analisi il L o il risultato dell’analisi.
Nell’esempio seguente, dato che le colonne ammontano al 100%, la domanda che ci stiamo ponendo è: “Che percentuale di intervistati negli Stati Uniti tornavano ospiti?” Se selezioniamo % riga (o scambiamo colonne e righe), ora chiediamo “Che proporzione di ospiti di ritorno erano negli Stati Uniti?” In questo caso, una delle due domande potrebbe essere utile da porre. A volte solo 1 domanda sarà davvero significativa.
Le frecce verde e rossa all’interno delle celle indicheranno se il valore di una cella è statisticamente superiore o inferiore a quanto ci si aspetterebbe se non vi fosse alcuna relazione tra le variabili. Se è selezionata l’opzione Col %, le frecce confrontano il numero di quella cella con gli altri numeri della riga. Più frecce corrispondono a un maggior grado di significatività statistica. Le celle con un numero elevato di celle appaiono più scure rispetto alle altre.
Nell’esempio seguente, il 75,2% è più alto rispetto all’aggregato degli altri numeri in quella riga, quindi il Regno Unito ha una percentuale di visitatori di ritorno superiore a quella tipica.
L’output del test statistico può essere visualizzato facendo clic su Mostra risultati del test statistico sulla scheda. Stats iQ esegue un test esatto di Fisher o un test Chi quadrato quando sono correlate 2 variabili categoriali. In una cella verranno mostrate fino a 3 frecce, a seconda del valore p calcolato dal residuo corretto della cella. Per maggiori dettagli su come Stats iQ sceglie il test statistico, visita la pagina Ipotesi e dettagli tecnici del test statistico.
Oltre alla tabella a campi incrociati generale, Stats iQ genererà anche una tabella di confronto a coppie, che confronta i valori di coppie di categorie in una determinata riga. Ad esempio, la tabella a campi incrociati riportata di seguito mostra la percentuale di clienti che ritornano da varie località. La tabella di confronto a coppie mostra, ad esempio, che il Regno Unito ha una percentuale di visitatori di ritorno di 6 punti percentuali superiore rispetto agli Stati Uniti. Le frecce verde e rossa sulle celle indicano differenze statisticamente significative.
Correlazione tra caselle di controllo e variabili numeriche
Quando colleghi una variabile di caselle di controllo e una variabile numerica, Stats iQ esegue un test statistico e crea una tabella riepilogativa.
Stats iQ mostra una tabella con 2 righe per ogni casella di controllo: una per se la casella è stata selezionata e una per se non lo era. Ad esempio, se 1 delle caselle di controllo rappresenta se un intervistato ha utilizzato o meno il pool, ci sarà una riga per l’utilizzo (spuntato) e non l’utilizzo (deselezionato) del pool, insieme ai punteggi medi di soddisfazione degli intervistati che rientrano in uno di questi 2 gruppi.
Questa tabella, come la maggior parte di Stats iQ, può essere ordinata. Ad esempio, si potrebbe voler ordinare in base alla media o se la casella è stata selezionata o meno. Fare clic sull’intestazione di colonna (ad esempio, Media) per ordinare la tabella in base ai valori della colonna.
Sebbene la tabella visualizzi informazioni statistiche quali mediana e media, in questa situazione non vengono eseguiti test statistici. Eseguire un’analisi separata confrontando le medie di coloro che hanno utilizzato il pool rispetto a quelli che non lo hanno fatto:
Correlazione tra caselle di controllo e variabili di categoria
Quando colleghi una variabile di caselle di controllo e una variabile di categoria, Stats iQ esegue test statistici e crea una tabella riepilogativa.
A seconda della variabile che aveva la chiave, una delle prime 2 colonne conterrà le categorie opzioni variabile e l’altra conterrà le opzioni della casella di controllo. La colonna “%” indica la proporzione del primo gruppo di colonne che ha selezionato il secondo gruppo di colonne.
Nell’esempio seguente, la prima riga indica quanto segue:
- Sono stati 1663 gli intervistati che sono nuovi clienti.
- Di questi 1663 intervistati, 359 utilizzarono la piscina.
- Ciò significa che il 21,6% dei 1663 intervistati ha utilizzato il pool.
- Le frecce rosse nell’ultima colonna indicano che si tratta di una proporzione inferiore a quella tipica.
Le frecce nell’ultima colonna vengono calcolate come nella tabella a campi incrociati per le variabili categoriali, discusse in precedenza.
Correlazione di variabili numeriche e temporali
Quando colleghi una variabile numerica e una variabile volte, Stats iQ creerà un grafico che mostra come la variabile numerica è variata nel tempo. Per modificare la dimensione del bin (ad esempio da giorni a settimane), fare clic su Dimensione bin sopra il grafico.
In aggiunta ai bin di date, Stats iQ visualizzerà una riga per uno specifico valore statistico nel tempo. Il valore di default è il valore medio. La selezione di un’opzione diversa nella parte superiore del grafico (Mediana, Min o Max) modificherà il valore rappresentato come linea nel grafico. Regolando lo slider sotto il grafico si restringerà l’intervallo di date visualizzato.
L’output di questo test statistico può essere visualizzato facendo clic su Mostra risultati del test statistico sulla scheda. I test statistici Stats iQ esecuzioni sono le stesse che verrebbero eseguite se la variabile tempi fosse una variabile numerica. In particolare, questo significa che Stats iQ eseguirà una correlazione tra le variabili.
Correlazione di variabili di tempi e categorie
Quando colleghi una variabile di tempi e una variabile di categoria, Stats iQ creerà un grafico che mostrerà in che modo i conteggi di tali categorie sono cambiati nel tempo. Per modificare la dimensione del bin (ad esempio da giorni a settimane), fare clic su Dimensione bin sopra il grafico.
Per questo tipo di scheda, sarà possibile selezionare il tipo di grafico visualizzato. Il tipo di grafico viene modificato quando al di sopra del grafico viene selezionata un’altra opzione (A barre, A linee o Area). Il grafico visualizzerà i dati come Percentuale o Conteggio a seconda dell’opzione selezionata nella parte superiore del grafico. La percentuale è particolarmente utile per vedere come la distribuzione dei gruppi è cambiata nel tempo. Per questo tipo di carta non vengono eseguiti test statistici.
Test statistici in Stats iQ
Stats iQ sceglie i test statistici in base ai tipi di variabili e alla struttura delle colonne analizzate. A titolo di riferimento, questo è un elenco completo dei test statistici di non regressione e degli indicatori della dimensione dell’effetto in Stats iQ:
- Prova T (2 categorie vs. numeri)
- ANOVA (3+ Categorie vs. numeri)
- Prove post hoc Games-Howell (3+ Categorie vs. numeri)
- Cohen’s f
- Correlazione (numeri vs. numeri)
- Correlazione di Pearson
- Correlazione Spearman
- Correlazione puntuale tra punti e biseriali
- Cohen’s d
- Test t accoppiato (Numeri vs. numeri)
- Test esatto di Fisher (2 categorie rispetto a 2 categorie)
- Chi-quadrato (3+ Categorie vs. categorie)
- V di Cramer
- Test Z (categorie vs. categorie)
- Analisi serie cronologica
- Differenza nelle differenze (DID, DD)
Selezione di test statistici
Stats iQ sceglierà il test statistico corretto per te, data la sua comprensione dei dati (ad es., se una variabile è una variabile numerica o una variabile di categorie). Tuttavia, è possibile modificare il tipo di variabile per avviare un risultato diverso.
Ad esempio, è possibile correlare 1/0 a una scala da 1 a 7. Se l’1/0 è considerato categorico, il risultato è un test t. Se è considerato numerico, il risultato è una correlazione (i risultati di queste 2 analisi saranno molto simili).
Stats iQ eseguirà una relazione “classificata” se i dati numerici non sono distribuiti normalmente o hanno valori fuori norma. Se si preferisce vedere la relazione “non classificata” (o viceversa), questa opzione è disponibile nei risultati del test statistico. Per maggiori dettagli sui test classificati, visita la pagina Ipotesi e dettagli tecnici del test statistico.
Problema di confronti multipli
Il problema dei confronti multipli può verificarsi se si utilizza l’analisi “relazionale” con un numero elevato di variabili non chiave selezionate. In questa analisi, è probabile che circa 5 dei risultati vengano visualizzati come statisticamente significativi attraverso la pura fortuna e non necessariamente come una relazione significativa. Si tratta di una conseguenza necessaria del funzionamento dell’analisi statistica.
In Stats iQ, se esegui molte analisi contemporaneamente e vedi risultati in cui il valore p è strettamente significativo (ad es., 0,03 invece di 0,00004), questo è una buona indicazione del fatto che queste correlazioni non sono necessariamente significative.
Traduzione delle statistiche in frasi
Stats iQ spiega i risultati dell’analisi Relate in un modo di facile comprensione, anche senza una conoscenza esperta delle statistiche.
Se il valore p non è al di sotto della soglia di significatività statistica (l’impostazione predefinita per questo in Stats iQ è 0,05), le frasi spiegheranno che non esiste una relazione statisticamente significativa.
Se il valore p è inferiore alla soglia, Stats iQ considererà la dimensione dell’effetto. A seconda della dimensione dell’effetto, Stats iQ aggiungerà parole alla frase come “debole” o “forte” per caratterizzare la relazione. Per ulteriori informazioni su come vengono interpretati la dimensione dell’effetto e il valore p, fare clic sul pulsante informazioni (i) in Mostra risultati del test statistico.
La tabella seguente illustra come descrivere le relazioni delle variabili per i test t basati sulla dimensione dell’effetto.
Dimensione dell’effetto | Interpretazione della dimensione dell’effetto | Clausola Stats iQ |
Inferiore a 0.2 | Effetto insignificante o assente | Non esiste una relazione statisticamente significativa tra le variabili. |
Tra 0,2 e 0,5 | Effetto piccolo | Le variabili sono statisticamente correlate. Non useremmo un aggettivo in più per caratterizzare la loro relazione. |
Tra 0,5 e 0,8 | Effetto medio | Le variabili sono statisticamente correlate. Non useremmo un aggettivo in più per caratterizzare la loro relazione. |
Superiore a 0,8 | Effetto grande | Le variabili sono “fortemente” correlate. |
A seconda del tipo di test statistico utilizzato, le soglie per la dimensione dell’effetto saranno leggermente diverse. Tuttavia, vale lo stesso modello generale.