Modèle d’article
Stats iQ sélectionne des tests statistiques dans le but de rendre les tests statistiques intuitifs et sans erreur.
Cette page décrit les thèmes généraux de l’approche de Stats iQ, et les suivantes décrivent des décisions spécifiques pour des tests particuliers :
Hypothèses de base
Dans la mesure du possible, Stats iQ propose par défaut des tests comportant moins d’hypothèses. Par exemple, les tests t pour échantillons indépendants peuvent être calculés de plusieurs manières, selon que l’on suppose des échantillons ou des variances de taille égale. Stats iQ effectue le test avec le moins d’hypothèses possible.
En outre, Stats iQ atténue intelligemment les violations des hypothèses des tests statistiques. Par exemple, les tests t sur des échantillons relativement petits nécessitent des données normalement distribuées pour être exacts. Les valeurs aberrantes ou les distributions non normales créent des résultats trompeurs. Chaque point de données de
[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]
est inférieur à chaque point de données de
[11, 12, 13, 13, 14, 14, 15, 15, 16, 16, 17, 17, 18, 19, 2000]
mais un test t d’échantillons indépendants sur ces groupes ne donne pas de différence statistiquement significative parce que la valeur aberrante 2000 viole les hypothèses du test t. Stats iQ remarque la valeur aberrante et recommande à la place un test t classé, qui produit une différence très nette entre les groupes.
Transformations de rangs
Stats iQ utilise fréquemment la méthode de transformation des rangs pour exécuter des tests non paramétriques lorsque des violations des hypothèses des tests paramétriques sont détectées. La transformation de rang de Stats iQ remplace les valeurs par leur ordre de classement – par exemple
[86, 95, 40] est transformé en [2, 3, 1]
– puis exécute le test paramétrique typique sur les données transformées. Les valeurs ex æquo se voient attribuer le rang moyen des valeurs ex æquo, de sorte que
[11, 35, 35, 52] devient [1, 2,5, 2,5, 4].
Le plus souvent rencontrés dans la différence entre les corrélations de Pearson et de Spearman, les tests transformés par le rang sont robustes aux distributions non normales et aux valeurs aberrantes, et sont conceptuellement plus simples que l’utilisation de tests non paramétriques légèrement plus courants.
ANOVA
Lorsque les utilisateurs sélectionnent une variable catégorielle avec 3 groupes ou plus et une variable continue ou discrète, Stats iQ exécute une ANOVA à sens unique (test F de Welch) et une série de tests “post hoc” par paire (tests de Games-Howell). L’ANOVA à sens unique teste l’existence d’un lien global entre les deux variables, et les tests par paires testent chaque paire possible de groupes pour voir si un groupe a tendance à avoir des valeurs plus élevées que l’autre.
Hypothèses du test F de Welch ANOVA
Stats iQ recommande un test F de Welch non classé si plusieurs hypothèses concernant les données sont valables :
- La taille de l’échantillon est supérieure à 10 fois le nombre de groupes dans le calcul (les groupes ne comportant qu’une seule valeur sont exclus), et le théorème central limite satisfait donc à l’exigence de données normalement distribuées.
- Les données continues/discrètes présentent peu ou pas de valeurs aberrantes.
Contrairement au test F légèrement plus courant pour des variances égales, le test F de Welch ne suppose pas que les variances des groupes comparés sont égales. L’hypothèse de variances égales conduit à des résultats moins précis lorsque les variances ne sont pas en fait égales, et ses résultats sont très similaires lorsque les variances sont en fait égales (Tomarken et Serlin, 1986).
ANOVA classée
Lorsque les hypothèses ne sont pas respectées, l’ANOVA non classée peut ne plus être valide. Dans ce cas, Stats iQ recommande l’ANOVA par classement (également appelée “ANOVA sur les classements”) ; Stats iQ transforme les données par classement (remplace les valeurs par leur ordre de classement) et exécute ensuite la même ANOVA sur ces données transformées.
L’ANOVA classée est résistante aux valeurs aberrantes et aux données distribuées de manière non normale. La transformation des rangs est une méthode bien établie de protection contre la violation des hypothèses (une méthode “non paramétrique”), et est le plus souvent observée dans la différence entre la corrélation de Pearson et la corrélation de Spearman. La transformation des rangs suivie du test F de Welch a un effet similaire au test de Kruskal-Wallis (Zimmerman, 2012).
La taille de l’effet indique si la différence entre les moyennes des groupes est suffisamment importante pour avoir une signification pratique, si elle est statistiquement significative ou non. Notez que les tailles d’effet (f de Cohen) des ANOVA classées et non classées de Stats iQ sont calculées à l’aide de la valeur F du test F pour des variances égales.
Hypothèses du test des paires de Games-Howell
Stats iQ exécute les tests de Games-Howell quel que soit le résultat du test ANOVA (conformément à Zimmerman, 2010). Stats iQ affiche les tests par paires de Games-Howell, classés ou non, sur la base des mêmes critères que ceux utilisés pour l’ANOVA classée ou non classée ; ainsi, si vous voyez “ANOVA classée” dans la sortie avancée, les tests par paires seront également classés.
Le test de Games-Howell est essentiellement un test t pour des variances inégales qui tient compte de la probabilité accrue de trouver des résultats statistiquement significatifs par hasard lors de l’exécution de nombreux tests par paires. Contrairement au test b de Tukey, légèrement plus courant, le test de Games-Howell ne suppose pas que les variances des groupes comparés sont égales. L’hypothèse de variances égales conduit à des résultats moins précis lorsque les variances ne sont en fait pas égales, et ses résultats sont très similaires lorsque les variances sont effectivement égales (Howell, 2012).
Notez que si le test de paires non classées teste l’égalité des moyennes des deux groupes, le test de paires classées ne teste pas explicitement les différences entre les moyennes ou les médianes des groupes. Elle teste plutôt la tendance générale d’un groupe à avoir des valeurs plus élevées que l’autre.
En outre, bien que Stats iQ n’affiche pas les résultats des tests par paire pour tout groupe comportant moins de 4 valeurs, ces groupes sont inclus dans le calcul des degrés de liberté pour les autres tests par paire.
Autres considérations sur l’ANOVA
- Avec des échantillons plus petits, les données peuvent toujours être inspectées visuellement pour déterminer si elles sont en fait normalement distribuées ; si c’est le cas, les résultats du test t non classé sont toujours valables, même pour de petits échantillons. Dans la pratique, cette évaluation peut être difficile à réaliser, c’est pourquoi Stats iQ recommande les tests t classés par défaut pour les petits échantillons.
- Avec des échantillons de plus grande taille, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la “clôture extérieure” de Chronomètre pour définir les valeurs aberrantes comme des points situés à plus de 3 fois l’intervalle intra-quartile au-dessus du 75e ou au-dessous du 25e point de percentile.
- Des données telles que le niveau d’éducation le plus élevé atteint ou l’ordre d’arrivée au marathon sont sans ambiguïté ordinales. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 correspond à ” Très insatisfait ” et 7 à ” Très satisfait“) soient techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire avec un test t non classé).
Tables de contingence de Stats iQ
Lorsque les utilisateurs sélectionnent deux variables catégorielles, Stats iQ évalue si ces deux variables sont statistiquement liées. Stats iQ utilise le test exact de Fisher lorsque cela est possible, et sinon le test du chi-carré de Pearson (généralement appelé “chi-carré”).
Khi-deux vs. Test exact de Fisher
Le test exact de Fisher est sans biais chaque fois qu’il peut être exécuté, mais il est difficile à calculer si le tableau est plus grand que 2 x 2 ou si la taille de l’échantillon est supérieure à 10 000 (même avec l’informatique moderne). Les tests du Khi-deux peuvent donner des résultats biaisés lorsque la taille des échantillons est faible (techniquement, lorsque le nombre de cellules attendues est inférieur à 5).
Heureusement, les deux tests sont complémentaires en ce sens que le test exact de Fisher est généralement facile à calculer lorsque les tests du chi-carré sont biaisés (petits échantillons), et lorsque le test exact de Fisher est difficile à calculer, le chi-carré tend à ne pas être biaisé (grands échantillons). Dans la mesure où des tableaux plus grands avec de petits échantillons peuvent encore poser des problèmes (et où Stats iQ ne peut pas effectuer un test exact de Fisher), Stats iQ avertit les utilisateurs des complications potentielles.
Résidus ajustés
Comme d’autres logiciels statistiques, Stats iQ utilise les résidus ajustés pour évaluer si une cellule individuelle est significativement supérieure ou inférieure aux attentes sur le plan statistique. En substance, le résidu ajusté pose la question suivante : “Cette cellule contient-elle plus de valeurs que ce à quoi je m’attendrais s’il n’y avait pas de lien entre ces deux variables ?”
Si les données sont affichées de manière à ce que chaque colonne soit égale à 100 %, vous pouvez dire : “La proportion de personnes interrogées dans le secteur de la finance et de la banque qui ont déclaré “aimer leur travail” est inférieure à la moyenne, par rapport aux personnes interrogées dans d’autres secteurs d’activité
Stats iQ affiche jusqu’à 3 flèches, en fonction de la valeur p calculée à partir du résidu ajusté. Stats iQ affichera un nombre différent de flèches en fonction du degré de signification du résultat. Niveau, nous montrons 1 flèche si la valeur p est inférieure à alpha (1 – niveau de confiance), 2 flèches si la valeur p est inférieure à alpha/5, et 3 flèches si la valeur p est inférieure à alpha/50. Par exemple, si votre niveau de confiance a été défini sur 95 % :
- valeur p <= .05 : 1 flèche
- valeur p <= .01 : 2 flèches
- valeur p <= .001 : 3 flèches
Le calcul du résidu ajusté et sa comparaison à des niveaux alpha spécifiques peuvent être qualifiés de “test z” ou de “test z pour un pourcentage d’échantillon” La littérature se contente le plus souvent d’indiquer que les conclusions sont basées sur des résidus ajustés.
Intervalles de confiance
Pour tous les intervalles de confiance binomiaux, y compris les tableaux de contingence et dans les diagrammes à barres de Diagramme Notation, Stats iQ calcule l’intervalle de confiance à l’aide de l’intervalle de notation de Wilson.
Corrélations Stats iQ
Lorsque les utilisateurs sélectionnent deux variables continues ou discrètes, Stats iQ effectue une corrélation pour évaluer si ces deux groupes sont statistiquement liés. Stats iQ calcule par défaut le r de Pearson, le type de corrélation le plus courant ; si les hypothèses de ce test ne sont pas satisfaites, Stats iQ recommande une version classée du même test, en calculant le rho de Spearman. En outre, Stats iQ utilise la transformation de Fisher pour calculer les intervalles de confiance du coefficient de corrélation.
Hypothèses du r de Pearson
Stats iQ recommande le r de Pearson comme mesure valide de la corrélation si certaines hypothèses concernant les données sont respectées :
- Il n’y a pas de valeurs aberrantes dans les données continues/discrètes.
- Le lien entre les variables est linéaire (par exemple, y = 2x, et non y = x^2).
Stats iQ n’affiche pas de ligne de meilleure adéquation lorsqu’il détecte une violation de ces hypothèses.
Corrélation classée (Rho de Spearman)
Lorsque les hypothèses ne sont pas respectées, le r de Pearson peut ne plus être une mesure valide de la corrélation. Dans ce cas, Stats iQ recommande le rho de Spearman ; Stats iQ effectue une transformation de rang des données (remplace les valeurs par leur ordre de classement) puis exécute la corrélation typique. La transformation des rangs est une méthode bien établie pour se protéger contre la violation des hypothèses (méthode “non paramétrique”), et la transformation des rangs de Pearson en Spearman est la plus courante (Conover et Iman, 1981). Notez que le rho de Spearman suppose toujours que le lien entre les variables est monotone.
Considérations supplémentaires pour les corrélations
- Avec des échantillons de plus grande taille, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la “clôture extérieure” de Chronomètre pour définir les valeurs aberrantes comme des points situés à plus de 3 fois l’intervalle intra-quartile au-dessus du 75e ou au-dessous du 25e point de percentile.
- Stats iQ identifie un lien comme non linéaire lorsque le rho de Spearman > ; 1.1 * Le r de Pearson et le rho de Spearman sont statistiquement significatifs.
- Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 correspond à “Très insatisfait” et 7 à “Très satisfait”) soient techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire en utilisant le r de Pearson).
Test T sur échantillons indépendants
Ce test t non classé est la forme la plus courante de test t. La signification statistique d’un test t indique si la différence entre les moyennes de deux groupes reflète très probablement une différence “réelle” dans la population à partir de laquelle les groupes ont été échantillonnés.
Un résultat de test t statistiquement significatif est un résultat dans lequel il est peu probable qu’une différence entre deux groupes se soit produite par accident ou au hasard. La signification statistique est déterminée par l’importance de la différence entre les moyennes des groupes, la taille de l’échantillon et les écarts types des groupes. À des fins pratiques, la signification statistique suggère que les deux populations à partir desquelles nous échantillonnons sont réellement différentes.
Exemple : Supposons que vous souhaitiez savoir si l’Américain moyen dépense plus que le Canadien moyen en films par mois. Vous interrogez un échantillon de 3 personnes de chaque pays sur leurs dépenses en matière de cinéma. Vous pouvez observer une différence entre ces moyennes, mais cette différence n’est pas statistiquement significative ; c’est peut-être le hasard des personnes que vous avez échantillonnées au hasard qui fait qu’un groupe semble dépenser plus d’argent que l’autre. Si, au contraire, vous interrogez 300 Américains et 300 Canadiens et que vous constatez toujours une grande différence, il est moins probable que cette différence soit due au fait que l’échantillon n’est pas représentatif.
Notez que si vous posiez la question à 300 000 Américains et 300 000 Canadiens, le résultat serait probablement statistiquement significatif même si la différence entre les groupes n’était que d’un centime. La taille de l’effet du test t complète sa signification statistique, en décrivant l’ampleur de la différence, que celle-ci soit statistiquement significative ou non.
Test T de Welch
Lorsque les utilisateurs souhaitent établir un lien entre une variable binaire et une variable continue ou discrète, Stats iQ effectue un test t bilatéral (tous les tests statistiques dans Qualtrics sont bilatéraux, le cas échéant) afin d’évaluer si l’un des deux groupes a tendance à avoir des valeurs plus élevées que l’autre pour la variable continue/discrète. Stats iQ utilise par défaut le test t de Welch, également connu sous le nom de test t pour les variances inégales ; si les hypothèses de ce test ne sont pas satisfaites, Stats iQ recommande une version classée du même test.
Hypothèses du test T de Welch
Stats iQ recommande le test t de Welch (ci-après “test t”) si plusieurs hypothèses concernant les données sont valables :
- La taille de l’échantillon de chaque groupe est supérieure à 15 (et le théorème de la limite centrale satisfait donc à l’exigence de données normalement distribuées).
- Les données continues/discrètes présentent peu ou pas de valeurs aberrantes.
Contrairement au test t légèrement plus courant pour des variances égales, le test t de Welch ne suppose pas que les variances des deux groupes comparés sont égales. L’informatique moderne a rendu cette hypothèse inutile. En outre, l’hypothèse de variances égales conduit à des résultats moins précis lorsque les variances ne sont pas égales, et ses résultats ne sont pas plus précis lorsque les variances sont effectivement égales (Ruxton, 2006).
Test T classé
Lorsque les hypothèses ne sont pas respectées, le test t peut ne plus être valide. Dans ce cas, Stats iQ recommande le test t classé ; Stats iQ transforme les données par rang (remplace les valeurs par leur ordre de classement) et exécute ensuite le même test t de Welch sur ces données transformées. Le test t classé est robuste aux valeurs aberrantes et aux données distribuées de manière non normale. La transformation des rangs est une méthode bien établie de protection contre la violation des hypothèses (méthode “non paramétrique”), et elle est le plus souvent observée dans la différence entre la corrélation de Pearson et la corrélation de Spearman (Conover et Iman, 1981). La transformation des rangs suivie du test t de Welch a un effet similaire au test U de Mann-Whitney, mais un peu plus efficace (Ruxton, 2006 ; Zimmerman, 2012).
Notez que si le test t teste l’égalité des moyennes des deux groupes, le test t classé ne teste pas explicitement les différences entre les moyennes ou les médianes des groupes. Elle teste plutôt la tendance générale d’un groupe à avoir des valeurs plus élevées que l’autre.
Autres considérations pour les tests T
- Avec des tailles d’échantillon inférieures à 15, les données peuvent encore être inspectées visuellement pour déterminer si elles sont normalement distribuées ; si c’est le cas, les résultats du test t non classé sont toujours valables, même pour de petits échantillons. Dans la pratique, cette évaluation peut être difficile à réaliser, c’est pourquoi Stats iQ recommande les tests t classés par défaut pour les petits échantillons.
- Avec des échantillons de plus grande taille, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la “clôture extérieure” de Chronomètre pour définir les valeurs aberrantes comme des points situés à plus de 3 fois l’intervalle intra-quartile au-dessus du 75e ou au-dessous du 25e point de percentile.
- Des données telles que “le niveau d’éducation le plus élevé atteint” ou “l’ordre d’arrivée dans un marathon” sont sans ambiguïté ordinales. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 correspond à “Très insatisfait” et 7 à “Très satisfait”) soient techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire avec un test t non classé).
Régression
Il existe deux types principaux de régression dans Stats iQ. Si la variable de sortie est une variable numérique, Stats iQ effectuera une régression linéaire. Si la variable de sortie est une variable catégorielle, Stats iQ effectuera une régression logistique. Le résultat par défaut d’une régression linéaire est une combinaison de l’importance relative (en particulier, les pondérations relatives de Johnson) et des moindres carrés ordinaires. Lors de l’exécution d’une régression par les moindres carrés ordinaires, Stats iQ utilise la variante appelée “M-estimation”, une technique plus moderne qui atténue l’effet des valeurs aberrantes, ce qui permet d’obtenir des résultats plus précis.
Pour en savoir plus, voir Régression & ; Importance relative.