Modèle d’article
A propos de la mise en relation des données
Relate explore les liens entre les variables. Lorsque vous sélectionnez 2 variables, puis Relate, Stats iQ choisit le test statistique approprié en fonction de la structure des données, exécute ce test, puis traduit les résultats en une explication simple et claire.
Lorsque vous sélectionnez 3 variables ou plus, Stats iQ établit un lien entre chaque variable et la variable clé, puis fait apparaître les liens les plus forts. Vous pouvez sélectionner des dizaines de variables à la fois, ce qui vous permet de passer rapidement au crible de nombreux liens.
La variable clé
La première variable sélectionnée dans le volet des variables sera la variable clé. La variable clé a deux fonctions :
- Si plus de deux variables sont sélectionnées (comme décrit ci-dessus), chaque variable non clé sera liée à la variable clé (par exemple, si vous sélectionnez dix variables, la variable clé sera liée à chacune des neuf autres, ce qui donnera lieu à neuf cartes de relation distinctes).
- La variable clé est par défaut la variable “output”. Par exemple, si vous sélectionnez “Age” et “Location”, il est possible que “Age” (input) ait un impact sur “Location” (output), mais il ne serait pas logique que “Location” ait un impact sur “Age” ; dans ce cas, vous mettriez la clé à côté de “Location” (Dans de nombreuses analyses, cette distinction n’a pas d’importance, mais les variables d’entrée et de sortie peuvent toujours être échangées après la création de la carte) Si vous souhaitez faire de la variable clé la variable d’entrée au lieu de la variable de sortie, sélectionnez les petites flèches situées à droite du bouton Mettre en relation.
Relation entre les nombres et les variables numériques
Lorsque vous mettez en relation deux variables numériques (y compris les catégories recodées), Stats iQ effectue généralement une corrélation et crée un nuage de points pour afficher visuellement le lien entre les deux variables.
Si les variables ont de nombreux points qui se chevauchent sur le nuage de points, Stats iQ affichera plutôt un nuage de points “binné” où les rectangles plus foncés indiquent un plus grand clustering des résultats. Stats iQ affiche une ligne de meilleur ajustement lorsque les données indiquent que la ligne sera utile (en particulier, lorsque les données ne comportent pas de valeurs aberrantes susceptibles de fausser la ligne).
Pour voir les détails statistiques de tous les résultats de l’analyse “relate”, cliquez sur Afficher les résultats des tests statistiques. Lors de la mise en relation de deux variables numériques, Stats iQ calcule une valeur p et (pour l’ampleur de l’effet) un r de Pearson ou un rho de Spearman. Pour plus de détails sur la manière dont Stats iQ choisit le test statistique, consultez la page Hypothèses du test statistique et détails techniques.
Il est possible que vous soyez moins intéressé par la corrélation des variables que par la variable la plus élevée en moyenne. Si les deux variables se situent sur des échelles similaires, Stats iQ propose une option en haut de page pour passer de la corrélation à la différence par paires, ce qui vous permet de comparer les moyennes.
Relation entre les nombres et les catégories Variables
Lorsque vous mettez en relation une variable de nombre et une variable de catégorie, Stats iQ effectue un test statistique et crée un tableau affichant le nombre, la moyenne, la médiane et la distribution de chaque catégorie de la variable de nombre.
Par exemple, vous souhaiterez peut-être déterminer si les clients d’un hôtel avec enfants ou sans enfants sont plus satisfaits en moyenne. Dans ce cas, la variable “Enfants présents” est catégorique et la variable “Satisfaction” est numérique.
Les résultats de ce test statistique peuvent être consultés en cliquant sur Afficher les résultats du test statistique sur la carte. Lorsque la variable des catégories ne comporte que 2 catégories
, Stats iQ effectue un test t ou un test t classé. Lorsqu’il en a plus, Stats iQ exécute une ANOVA ou une ANOVA classée, ainsi qu’un test post hoc de Games-Howell. Pour plus de détails sur la manière dont Stats iQ choisit le test statistique, consultez la page Hypothèses du test statistique et détails techniques.
Relier les catégories et les variables de catégories
Lorsque vous mettez en relation une variable de catégories et une variable de catégories, Stats iQ exécute un test statistique et crée un tableau croisé.
La somme de chaque colonne du tableau croisé est de 100 %. Dans l’exemple ci-dessous, 69 % des personnes interrogées aux “États-Unis” étaient “de retour” et 31 % étaient “nouvelles” Vous pouvez sélectionner Row % pour que la somme des lignes soit de 100 %, Count pour voir le nombre brut dans chaque cellule, ou All % pour que la somme de tout le tableau soit de 100 %. Vous pouvez également inverser entièrement les lignes et les colonnes en sélectionnant le bouton ← en haut du résultat de l’analyse.
Dans l’exemple ci-dessous, la somme des colonnes étant égale à 100 %, la question que nous posons est la suivante : “Quelle est la proportion des personnes interrogées aux États-Unis qui ont déjà séjourné dans le pays ?” Si nous sélectionnons Row % (ou si nous intervertissons les colonnes et les lignes), nous demandons maintenant “Quelle est la proportion d’invités qui reviennent aux États-Unis ?” Dans ce cas, il peut être utile de poser l’une ou l’autre de ces questions. Parfois, une seule question est réellement significative.
Les flèches vertes et rouges à l’intérieur des cellules indiquent si la valeur d’une cellule est statistiquement supérieure ou inférieure à celle à laquelle on s’attendrait s’il n’y avait pas de lien entre les variables. Si Col % est sélectionné, les flèches comparent le nombre de cette cellule aux autres nombres de cette ligne. Un plus grand nombre de flèches correspond à un degré plus élevé de signification statistique. Les cellules dont le nombre est élevé apparaissent plus foncées que les autres cellules.
Dans l’exemple ci-dessous, 75,2 % est plus élevé que la somme des autres chiffres de cette ligne, ce qui signifie que le Royaume-Uni a une proportion de visiteurs qui reviennent plus élevée que la moyenne.
Les résultats du test statistique peuvent être consultés en cliquant sur Afficher les résultats du test statistique sur la carte. Stats iQ effectue soit un test exact de Fisher, soit un test du Khi-deux lorsque deux variables catégorielles sont liées. Jusqu’à 3 flèches seront affichées dans une cellule, en fonction de la valeur p calculée à partir du résidu ajusté de la cellule. Pour plus de détails sur la manière dont Stats iQ choisit le test statistique, consultez la page Hypothèses du test statistique et détails techniques.
Outre le tableau croisé général, Stats iQ génère également un tableau de Comparaison par paire, qui compare les valeurs des paires de catégories dans une ligne donnée. Par exemple, le tableau croisé ci-dessous montre la proportion de clients qui reviennent de différents endroits. Le tableau de comparaison par paires montre, par exemple, que le Royaume-Uni a une proportion de visiteurs de retour supérieure de 6 points de pourcentage à celle des États-Unis. Les flèches vertes et rouges sur les cellules indiquent des différences statistiquement significatives.
Relier les cases à cocher et les variables numériques
Lorsque vous mettez en relation une variable de type cases à cocher et une variable de type nombres, Stats iQ exécute un test statistique et crée un tableau de statistiques.
Stats iQ affiche un tableau comportant deux lignes pour chaque case à cocher : une pour les cases cochées et une pour les cases non cochées. Par exemple, si l’une des cases à cocher représente l’utilisation ou non de la piscine par un répondant, il y aura une ligne pour l’utilisation (cochée) et la non-utilisation (non cochée) de la piscine, ainsi que les notations moyennes de satisfaction des répondants qui appartiennent à l’un ou l’autre de ces deux groupes.
Ce tableau, comme la plupart des tableaux de Stats iQ, peut être trié. Par exemple, vous pourriez vouloir trier par moyenne ou selon que la case a été cochée ou non. Cliquez sur l’en-tête d’une colonne (par exemple, Moyenne) pour trier le tableau en fonction des valeurs de cette colonne.
Bien que le tableau affiche des informations statistiques telles que la médiane et la moyenne, aucun test statistique n’est effectué dans cette situation. Effectuer une analyse séparée comparant les moyennes de ceux qui ont utilisé la piscine et de ceux qui ne l’ont pas utilisée :
Relier les cases à cocher et les variables de catégories
Lorsque vous mettez en relation une variable de type cases à cocher et une variable de type catégories, Stats iQ exécute des tests statistiques et crée un tableau de statistiques.
En fonction de la variable dont la clé est associée, l’une des deux premières colonnes contiendra les options de la variable catégories et l’autre contiendra les options de la case à cocher. La colonne “%” indique la proportion du groupe de la première colonne qui a sélectionné le groupe de la deuxième colonne.
Dans l’exemple ci-dessous, la première ligne indique ce qui suit :
- Il y a eu 1663 répondants qui sont de nouveaux clients.
- Sur les 1663 personnes interrogées, 359 ont utilisé la piscine.
- Cela signifie que 21,6 % des 1663 personnes interrogées ont utilisé la piscine.
- Les flèches rouges dans la dernière colonne indiquent qu’il s’agit d’une proportion inférieure à la normale.
Les flèches de la dernière colonne sont calculées de la même manière que dans le tableau croisé pour les variables catégorielles, discuté précédemment.
Mise en relation de nombres et de variables temporelles
Lorsque vous mettez en relation une variable numérique et une variable temporelle, Stats iQ crée un graphique qui montre comment la variable numérique a varié dans le temps. Pour modifier la taille de l’emplacement (de jours à semaines, par exemple), cliquez sur Taille de l’emplacement au-dessus du graphique.
En plus des cases de date, Stats iQ affichera une ligne pour une valeur statistique spécifique au fil du temps. La valeur par défaut est la moyenne. La sélection d’une option différente en haut du graphique(Médiane, Min ou Max) modifie la valeur représentée sous forme de ligne sur le graphique. Le réglage du curseur situé sous le graphique permet de réduire la plage de dates affichées.
Les résultats de ce test statistique peuvent être consultés en cliquant sur Afficher les résultats du test statistique sur la carte. Les tests statistiques effectués par Stats iQ sont les mêmes que ceux qui seraient effectués si la variable temporelle était une variable numérique. En particulier, cela signifie que Stats iQ effectuera une corrélation entre les variables.
Mise en relation de variables de temps et de catégories
Lorsque vous reliez une variable de temps et une variable de catégories, Stats iQ crée un graphique qui montre comment les effectifs de ces catégories ont évolué dans le temps. Pour modifier la taille de l’emplacement (de jours à semaines, par exemple), cliquez sur Taille de l’emplacement au-dessus du graphique.
Pour ce type de carte, vous aurez la possibilité de sélectionner le type de graphique affiché. Le type de diagramme est modifié lorsqu’une option différente(Diagramme à barres, Graphique linéaire ou Aires) est sélectionnée au-dessus du graphique. Le graphique affiche les données en pourcentage ou en nombre, selon l’option sélectionnée en haut du graphique. Le pourcentage est particulièrement utile pour voir comment la distribution des groupes a évolué dans le temps. Aucun test statistique n’est effectué pour ce type de carte.
Tests statistiques dans Stats iQ
Stats iQ choisit les tests statistiques en fonction des types de variables et de la structure des colonnes analysées. Pour référence, voici la Liste complète des tests statistiques de non-régression et des mesures de l’ampleur de l’effet dans Stats iQ :
- Test T (2 catégories vs. Numéros)
- ANOVA (3+ catégories vs. Numéros)
- Tests post hoc Games-Howell (Catégories 3+ vs. Numéros)
- Cohen’s f
- Corrélation (nombres vs. Numéros)
- Corrélation de Pearson
- Corrélation de Spearman
- Point Corrélation bisériale
- Cohen’s d
- Test t par paires (nombres vs. Numéros)
- Test exact de Fisher (2 catégories vs. 2 catégories)
- Chi-carré (3+ Catégories vs. Catégories)
- Cramer’s V
- Test Z (Catégories vs. Catégories)
- Analyse des chronomètres
- Différence dans les différences (DID, DD)
Choix des tests statistiques
Stats iQ choisira le bon test statistique pour vous, en fonction de sa compréhension des données (par exemple, si une variable est une variable numérique ou une variable catégorielle). Vous pouvez toutefois modifier le type de variable pour déclencher un résultat différent.
Par exemple, vous pouvez établir un lien entre un 1/0 et une échelle de 1 à 7. Si le 1/0 est considéré comme catégorique, le résultat est un test t. Si elle est considérée comme numérique, le résultat est une corrélation (les résultats de ces 2 analyses seront très similaires).
Stats iQ exécute un lien “classé” si les données numériques ne sont pas normalement distribuées ou si elles présentent des valeurs aberrantes. Si vous préférez voir le lien “non classé” (ou vice versa), cette option est disponible dans les résultats du test statistique. Pour plus de détails sur les tests classés, consultez la page Hypothèses des tests statistiques et détails techniques.
Problème des comparaisons multiples
Le problème des comparaisons multiples peut se produire si vous utilisez l’analyse “relate” en sélectionnant un grand nombre de variables non clés. Dans cette analyse, il est probable qu’environ 5 des résultats apparaissent comme statistiquement significatifs par pure chance, sans qu’il y ait nécessairement un lien significatif. Il s’agit d’une conséquence nécessaire du fonctionnement de l’analyse statistique.
Dans Stats iQ, si vous effectuez plusieurs analyses à la fois et que vous obtenez des résultats dont la valeur p est à peine significative (par exemple, 0,03 au lieu de 0,00004), c’est une bonne indication que ces corrélations ne sont pas nécessairement significatives.
Traduire les statistiques en phrases
Stats iQ explique les résultats de l’analyse Relate d’une manière facile à comprendre, même sans connaissances approfondies en statistiques.
Si la valeur p n’est pas inférieure au seuil de signification statistique (la valeur par défaut dans Stats iQ est de 0,05), les phrases expliquent qu’il n’y a pas de lien statistiquement significatif.
Si la valeur p est inférieure au seuil, Stats iQ examine alors l’ampleur de l’effet. En fonction de l’ampleur de l’effet, Stats iQ ajoutera à la phrase des mots tels que “faible” ou “fort” pour caractériser le lien. Pour plus d’informations sur l’interprétation de la taille de l’effet et de la valeur p, cliquez sur le bouton d’information(i) sous Afficher les résultats des tests statistiques.
Le tableau ci-dessous indique comment nous décririons les liens entre les variables pour les tests t sur la base de l’ampleur de l’effet.
Taille de l’effet | Interprétation de la taille de l’effet | Stats iQ Langue |
Inférieur à 0,2 | Marginal ou sans effet | Il n’y a pas de lien statistiquement significatif entre les variables. |
Entre 0,2 et 0,5 | Effet faible | Les variables sont statistiquement liées. Nous n’utiliserions pas un adjectif supplémentaire pour caractériser leur lien. |
Entre 0,5 et 0,8 | Effet moyen | Les variables sont statistiquement liées. Nous n’utiliserions pas un adjectif supplémentaire pour caractériser leur lien. |
Supérieure à 0,8 | Effet important | Les variables sont “fortement” liées. |
Selon le type de test statistique utilisé, les seuils de l’ampleur de l’effet seront légèrement différents. Toutefois, le même schéma général s’applique.