Passer au contenu principal
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Hypothèses de test statistique et détails techniques


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Stats iQ sélectionne des tests statistiques dans le but de rendre les tests statistiques intuitifs et exempts d’erreurs.

Cette page décrit les thèmes principaux de l’approche de Stats iQ, et les éléments suivants décrivent des décisions spécifiques pour des tests spécifiques :

Hypothèses de base

Dans la mesure du possible, Stats iQ propose par défaut des tests qui ont moins d’hypothèses. Par exemple, les tests T d’échantillons indépendants peuvent être calculés de plusieurs façons, selon que des échantillons de même taille ou des écarts sont supposés. Stats iQ exécute le test avec le moins d’hypothèses.

De plus, Stats iQ atténue intelligemment les violations des hypothèses des tests statistiques. Par exemple, les tests t sur des échantillons relativement petits nécessitent que les données normalement distribuées soient précises. Les valeurs aberrantes ou les distributions non normales génèrent des résultats trompeurs. Chaque point de données de

[1, 2, 3, 3, 4, 5, 5, 6, 6, 7, 8, 9, 10]

est inférieur à chaque point de données dans

[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 17, 17, 18, 19, 2000]

mais un test T indépendant sur ces groupes ne donne pas de différence significative. Stats iQ remarque la valeur aberrante et recommande un test T classé à la place, ce qui donne une différence très nette entre les groupes.

Classer les transformations

Stats iQ utilise fréquemment la méthode de transformation rank pour exécuter des tests non paramétriques lorsque des violations des hypothèses de test paramétrique sont détectées. La transformation de rang de Stats iQ remplace les valeurs par leur ordre de classement. Par exemple

[86, 95, 40] est transformé en [2, 3, 1]

, puis exécute le test paramétrique typique sur les données transformées. Les valeurs liées reçoivent le rang moyen des valeurs liées, donc

[11, 35, 35, 52] devient [1, 2,5, 2,5, 4].

Le plus souvent rencontré dans la différence entre les corrélations Pearson et Spearman, les tests transformés en rank sont robustes aux distributions non normales et aux valeurs aberrantes, et sont conceptuellement plus simples que l’utilisation de tests non paramétriques légèrement plus courants.

ANOVA

Lorsque les utilisateurs sélectionnent 1 variable catégorique avec 3 groupes ou plus et 1 variable continue ou discrète, Stats iQ exécute une ANOVA unidirectionnelle (test F de Welch) et une série de tests « post-hoc » par paire (tests Games-Howell). L’analyse ANOVA à sens unique teste une relation globale entre les 2 variables et les tests par paire testent chaque paire possible de groupes pour voir si un groupe a tendance à avoir des valeurs plus élevées que l’autre.

Hypothèses de l’analyse ANOVA du test F de Welch

Stats iQ recommande un test F de Welch non classé si plusieurs hypothèses concernant les données sont conservées :

  • La taille de l’échantillon est supérieure à 10 fois le nombre de groupes dans le calcul (les groupes avec une seule valeur sont exclus) et, par conséquent, le théorème de la limite centrale répond à l’exigence pour les données distribuées normalement.
  • Les données continues/discrètes contiennent peu ou pas de valeurs aberrantes.

Contrairement au test F un peu plus courant pour des variances égales, le test F de Welch ne suppose pas que les variances des groupes comparés sont égales. En supposant des écarts égaux, on obtient des résultats moins précis lorsque les variances ne sont pas en fait égales, et ses résultats sont très similaires lorsque les variances sont réellement égales (Tomarken et Serlin, 1986).

ANOVA classée

En cas de violation des hypothèses, l’analyse ANOVA non classée peut ne plus être valide. Dans ce cas, Stats iQ recommande l’ANOVA classée (également appelée « ANOVA sur les rangs ») ; Stats iQ transforme les données (remplace les valeurs par leur ordre de classement), puis exécute la même ANOVA sur ces données transformées.

L’analyse ANOVA classée est robuste pour les valeurs aberrantes et les données non normalement distribuées. La transformation de rang est une méthode bien établie de protection contre la violation des hypothèses (une méthode « non paramétrique »), et est le plus souvent observée dans la différence entre la corrélation de Pearson et Spearman. La transformation de rang suivie par le test F de Welch est similaire au test de Kruskal-Wallis (Zimmerman, 2012).

La taille de l’effet indique si la différence entre les moyennes des groupes est suffisamment grande pour avoir une signification pratique, qu’elle soit statistiquement significative ou non. Notez que les tailles d’effet ANOVA classées et non classées de Stats iQ (f de Cohen) sont calculées à l’aide de la valeur F du test F pour les écarts égaux.

Hypothèses du test par paire Games-Howell

Stats iQ effectue des tests Games-Howell quel que soit le résultat du test ANOVA (selon Zimmerman, 2010). Stats iQ affiche des tests par paires Games-Howell non classés ou classés en fonction des mêmes critères que ceux utilisés pour l’analyse ANOVA classée ou non classée. Ainsi, si vous voyez « ANOVA classée » dans la sortie avancée, les tests par paires seront également classés.

Le Games-Howell est essentiellement un test-t pour les variances inégales qui rend compte de la probabilité accrue de trouver des résultats statistiquement significatifs par hasard lors de l’exécution de nombreux tests par paire. Contrairement au test b de Tukey un peu plus courant, le test de Games-Howell ne suppose pas que les variances des groupes comparés soient égales. En supposant des écarts égaux, on obtient des résultats moins précis lorsque les variances ne sont pas en fait égales, et ses résultats sont très similaires lorsque les variances sont réellement égales (Howell, 2012).

Notez que si les tests par paire non classés pour l’égalité des moyens des 2 groupes, le test par paire classé ne teste pas explicitement les différences entre les moyens ou médians des groupes. Il teste plutôt une tendance générale d’un groupe à avoir des valeurs plus importantes que l’autre.

De plus, alors que Stats iQ n’affiche pas les résultats des tests par paire pour un groupe avec moins de 4 valeurs, ces groupes sont inclus dans le calcul des degrés de liberté pour les autres tests par paire.

Considérations supplémentaires relatives à l’analyse ANOVA

  1. Avec des tailles d’échantillon plus petites, les données peuvent toujours être inspectées visuellement pour déterminer si elles sont en fait distribuées normalement ; si c’est le cas, les résultats des tests T non classés sont toujours valides même pour les petits échantillons. Dans la pratique, cette évaluation peut être difficile à réaliser, donc Stats iQ recommande de classer les tests T par défaut pour les petits échantillons.
  2. Avec des échantillons de plus grande taille, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la « clôture extérieure » de Tukey pour définir des valeurs aberrantes comme points plus de 3 fois l’intervalle intra-quartile au-dessus du 75e ou en dessous du 25e point de centile.
  3. Les données telles que le niveau d’études le plus élevé terminé ou l’ordre de fin en marathon sont sans ambiguïté ordinales. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 est Très insatisfait et 7 est Très satisfait) sont techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire avec un test-t non classé).

Tables de situations exceptionnelles Stats iQ

Lorsque les utilisateurs sélectionnent 2 variables catégoriques, Stats iQ évalue si ces 2 variables sont statistiquement liées. Stats iQ exécute le test exact de Fisher lorsque c’est possible, et sinon exécute le test du chi-carré de Pearson (généralement appelé « chi-carré »).

Chi-carré vs. Test exact de Fisher

Le test exact de Fisher est impartial chaque fois qu’il peut être exécuté, mais il est difficile de calculer si la table est supérieure à 2 x 2 ou si la taille de l’échantillon est supérieure à 10 000 (même avec un calcul moderne). Les tests du Chi-carré peuvent avoir des résultats biaisés lorsque la taille de l’échantillon est faible (techniquement, lorsque le nombre de cellules attendu est inférieur à 5).

Heureusement, les 2 tests sont complémentaires dans la mesure où le test exact de Fisher est généralement facile à calculer lorsque les tests de chi-carré sont biaisés (petits échantillons), et lorsque le test exact de Fisher est difficile à calculer, le chi-carré a tendance à être impartial (gros échantillons). Insomuch comme des tables plus grandes avec de petits échantillons peuvent toujours créer des problèmes (et Stats iQ ne peut pas exécuter un test exact de Fisher), Stats iQ alerte les utilisateurs de complications potentielles.

Résidus ajustés

Comme d’autres logiciels statistiques, Stats iQ utilise des résidus ajustés pour évaluer si une cellule individuelle est statistiquement supérieure ou inférieure aux attentes. Essentiellement, le résiduel ajusté demande : « Cette cellule a-t-elle plus de valeurs que je ne m’y attendais s’il n’y avait pas de relation entre ces 2 variables ? »

Si les données sont affichées de telle sorte que chaque colonne affiche un total de 100 %, vous pouvez dire « La proportion de répondants financiers/bancaires qui ont déclaré « aimer leur travail » est inférieure à la moyenne, par rapport aux répondants d’autres secteurs. »

Stats iQ affiche jusqu’à 3 flèches, en fonction de la valeur P calculée à partir du résiduel ajusté. Stats iQ affichera un nombre différent de flèches en fonction du degré d’importance du résultat. Plus précisément, nous affichons 1 flèche si la valeur p est inférieure à alpha (1 – niveau de confiance), 2 flèches si la valeur p est inférieure à alpha/5, et 3 flèches si la valeur p est inférieure à alpha/50. Par exemple, si votre niveau de confiance a été défini sur 95 % :

  • Valeur p &lt ;= .05 : 1 flèche
  • Valeur p &lt ;= .01 : 2 flèches
  • Valeur p &lt ;= .001 : 3 flèches

Le calcul du reliquat ajusté et sa comparaison avec des niveaux alpha spécifiques peuvent être étiquetés comme un “test z” ou un “test z pour un pourcentage d’échantillon”. La littérature dit plus généralement simplement que les conclusions étaient basées sur des résidus ajustés.

Intervalles de confiance

Pour tous les intervalles de confiance binomiaux, y compris les tableaux de contingence et dans les diagrammes à barres de Catégorie Décrire, Stats iQ calcule l’intervalle de confiance à l’aide de l’intervalle du score Wilson.

Corrélations Stats iQ

Lorsque les utilisateurs sélectionnent 2 variables continues ou discrètes, Stats iQ exécute une corrélation pour évaluer si ces 2 groupes sont statistiquement liés. Stats iQ calcule par défaut le r de Pearson, le type de corrélation le plus courant ; si les hypothèses de ce test ne sont pas satisfaites, Stats iQ recommande une version classée du même test, calculant le rho de Spearman. En outre, Stats iQ utilise la transformation Fisher pour calculer les intervalles de confiance pour le coefficient de corrélation.

Hypothèses relatives à la r de Pearson

Stats iQ recommande le r de Pearson comme mesure valide de corrélation si certaines hypothèses concernant les données sont satisfaites :

  • Il n’y a pas de valeurs aberrantes dans les données continues/discrètes.
  • La relation entre les variables est linéaire (par exemple, y = 2x, et non y = x^2).

Stats iQ n’affiche pas une ligne de la meilleure adaptation lorsqu’il détecte une violation de ces hypothèses.

Corrélation classée (Rho de Spearman)

Lorsque les hypothèses sont violées, le r de Pearson n’est peut-être plus une mesure valide de corrélation. Dans ce cas, Stats iQ recommande le rho de Spearman ; Stats iQ transforme les données (remplace les valeurs par leur ordre de classement) puis exécute la corrélation typique. La transformation de rang est une méthode bien établie de protection contre la violation d’hypothèse (une méthode « non paramétrique »), et la transformation de rang de Pearson à Spearman est la plus courante (Conover et Iman, 1981). Notez que le rho de Spearman suppose toujours que la relation entre les variables est monotone.

Considérations supplémentaires pour les corrélations

  1. Avec des échantillons de plus grande taille, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la « clôture extérieure » de Tukey pour définir des valeurs aberrantes comme points plus de 3 fois l’intervalle intra-quartile au-dessus du 75e ou en dessous du 25e point de centile.
  2. Stats iQ identifie une relation comme non linéaire lorsque rho &gt de Spearman ; 1.1 * le r de Pearson et le rho de Spearman sont statistiquement significatifs.
  3. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 est Très insatisfait et 7 est Très satisfait) sont techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire en utilisant le r de Pearson).

Test T d’échantillons indépendants

Ce test T non classé est la forme de test T la plus courante. La signification statistique d’un test T indique si la différence entre les moyennes de 2 groupes reflète très probablement une différence « réelle » dans la population à partir de laquelle les groupes ont été échantillonnés.

Un résultat statistiquement significatif du test T est un résultat dans lequel il est peu probable qu’une différence entre 2 groupes se soit produite par accident ou au hasard. La signification statistique est déterminée par la taille de la différence entre les moyennes du groupe, la taille de l’échantillon et les écarts types des groupes. Pour des raisons pratiques, la signification statistique suggère que les 2 populations que nous échantillonnons sont en fait différentes.

Exemple : Disons que vous êtes intéressé par le fait que l’Américain moyen dépense plus que la moyenne canadienne par mois pour les films. Vous demandez un échantillon de 3 personnes de chaque pays au sujet de leurs dépenses cinématographiques. Vous pouvez observer une différence dans ces moyennes, mais cette différence n’est pas statistiquement significative; il peut s’agir d’une chance aléatoire de ceux que vous avez échantillonnés au hasard, ce qui fait qu’un groupe semble dépenser plus d’argent que l’autre. Si vous demandez plutôt à 300 Américains et 300 Canadiens et que vous voyez toujours une grande différence, cette différence est moins susceptible d’être causée par le fait que l’échantillon n’est pas représentatif.

Notez que si vous avez demandé 300 000 Américains et 300 000 Canadiens, le résultat serait probablement statistiquement significatif même si la différence entre le groupe n’était qu’un centime. La taille de l’effet du test T complète sa signification statistique, décrivant l’ampleur de la différence, que la différence soit statistiquement significative ou non.

Test T de Welch

Lorsque les utilisateurs souhaitent relier une variable binaire à une variable continue ou discrète, Stats iQ exécute un test T à deux branches (tous les tests statistiques dans Qualtrics sont à deux branches, le cas échéant) pour déterminer si l’un des 2 groupes a tendance à avoir des valeurs plus élevées que l’autre pour la variable continue/discrète. Stats iQ utilise par défaut le test T de Welch, également connu sous le nom de test T pour les écarts inégaux ; si les hypothèses de ce test ne sont pas satisfaites, Stats iQ recommande une version classée du même test.

Hypothèses du T-Test de Welch

Stats iQ recommande le test T de Welch (ci-après le « test T ») si plusieurs hypothèses concernant les données sont conservées :

  • La taille de l’échantillon de chaque groupe est supérieure à 15 (et, par conséquent, le théorème de la limite centrale satisfait le besoin en données normalement distribuées).
  • Les données continues/discrètes contiennent peu ou pas de valeurs aberrantes.

Contrairement au test T légèrement plus courant pour des variances égales, le test t de Welch ne suppose pas que les variances des 2 groupes comparés sont égales. L’informatique moderne a rendu cette hypothèse inutile. En outre, en supposant que les écarts égaux conduisent à des résultats moins précis lorsque les écarts ne sont pas égaux, et ses résultats ne sont pas plus précis lorsque les variances sont réellement égales (Ruxton, 2006).

Test T classé

En cas de violation des hypothèses, le test T peut ne plus être valide. Dans ce cas, Stats iQ recommande le test T classé ; Stats iQ transforme les données (remplace les valeurs par leur ordre de classement), puis exécute le test t de Welch sur ces données transformées. Le test T classé est robuste pour les valeurs aberrantes et les données non normalement distribuées. La transformation de rang est une méthode bien établie de protection contre la violation d’hypothèse (une méthode « non paramétrique »), et est le plus souvent observée dans la différence entre la corrélation de Pearson et Spearman (Conover et Iman, 1981). La transformation de rang suivie par le test t de Welch est similaire en effet au test U de Mann-Whitney, mais un peu plus efficace (Ruxton, 2006; Zimmerman, 2012).

On notera que si les tests t pour l’égalité des moyens des 2 groupes, le test t classé ne teste pas explicitement les différences entre les moyens ou médians des groupes. Il teste plutôt une tendance générale d’un groupe à avoir des valeurs plus importantes que l’autre.

Autres considérations pour les tests T

  1. Avec des échantillons de taille inférieure à 15, les données peuvent toujours être inspectées visuellement pour déterminer si elles sont normalement distribuées ; si c’est le cas, les résultats des tests T non classés sont toujours valides même pour les petits échantillons. Dans la pratique, cette évaluation peut être difficile à réaliser, donc Stats iQ recommande de classer les tests T par défaut pour les petits échantillons.
  2. Avec des échantillons de plus grande taille, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la « clôture extérieure » de Tukey pour définir des valeurs aberrantes comme points plus de 3 fois l’intervalle intra-quartile au-dessus du 75e ou en dessous du 25e point de centile.
  3. Les données telles que « Niveau d’éducation le plus élevé terminé » ou « Ordre de fin dans un marathon » sont sans ambiguïté ordinales. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 est Très insatisfait et 7 est Très satisfait) sont techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire avec un test-t non classé).

Régression

Il existe 2 principaux types d’exécution de régression dans Stats iQ. Si la variable de sortie est une variable numérique, Stats iQ exécutera une régression linéaire. Si la variable de sortie est une variable de catégorie, Stats iQ exécutera une régression logistique. Le résultat par défaut d’une régression linéaire est une combinaison d’ Importance relative (en particulier, les pondérations relatives de Johnson) et des moindres carrés ordinaires. Lors de l’exécution d’une régression “Ordinary Least Squares”, Stats iQ utilise la variante appelée “M-estimation”, qui est une technique plus moderne qui amortit l’effet des valeurs aberrantes, conduisant à des résultats plus précis.

Pour en savoir plus, voir Régression &amp ; Importance relative.

FAQ

De nombreuses pages de ce site ont été traduites de l'anglais en traduction automatique. Chez Qualtrics, nous avons accompli notre devoir de diligence pour trouver les meilleures traductions automatiques possibles. Toutefois, le résultat ne peut pas être constamment parfait. Le texte original en anglais est considéré comme la version officielle, et toute discordance entre l'original et les traductions automatiques ne pourra être considérée comme juridiquement contraignante.