Méthodologie

Statistiques

v Introduction :

Ø Place de l’analyse statistique dans la recherche :

Ø Rôle des statistiques dans les publications :

Plan de rapport :

- Introduction,

- Matériels et méthodes (avec, à la fin, les méthodes statistiques utilisées),

- Résultats (avec les statistiques descriptives, résultats de tests, graphiques, statistiques géométriques)

- Discussion (sans aucun résultat numérique !),

- Annexes (présentation de tous les tests de manière à reproduire les tests, rapport d’analyse)

v Organisation des données :

Exemple : Observation de la durée de stéréotypie chez 20 individus pendant 5 jours.

Parmi les 20 individus, il y a 10 femelles et 10 mâles. La moitié de chaque sexe est placée dans des conditions 1, l’autre moitié dans des conditions 2.

On effectue 100 observations : 1 par jour pour 20 individus et pendant 5 jours.

Individu	Jour					Sexe	Conditions
Individu	1	2	3	4	5	Sexe	Conditions
1						Mâles	1
2							1
3							2
…							2
...						Femelles	1
…							1
…							2
20							2

- Observation = case du tableau avec ses étiquettes autour et la valeur associée.

Le nombre de cases correspond au nombre d’observations.

- Variable dépendante (VD) = durée de stéréotypie

- Support du protocole = support des observations = tableau vide avec les étiquettes autour.

- Facteurs = Variables indépendantes (VI) = étiquettes organisées en ensemble d’étiquettes.

Exemple : sexe : {M ; F} ou conditions : {1 ; 2}

L’intérêt est d’étudier les effets des variables indépendantes sur la variable dépendante.

La variable dépendante est :

- Soit numérique,

- Soit ordinale (= hiérarchisée),

- Soit qualitative (le lieu d’un habitat, par exemple)

Dans ce cas, elle peut être binaire (réussite/échec, par exemple)

Distinction entre groupes indépendants et groupes appareillés :

Lors d’une étude sur les stéréotypies de 20 individus durant 2 jours, les observations portent sur 2 groupes (jour1 et jour2) appareillés.

- 2 groupes sont appareillés quand il est possible d’effectuer une correspondance de terme à terme naturelle entre les 2 groupes (= bijection)

- 2 groupes sont indépendants quand il y a l’absence de correspondance terme à terme.

v Description et inférence :

Objectifs = visées :

- La visée descriptive : les conclusions cherchées portent uniquement sur les données recueillies (absence de généralisation)

- La visée inductive : les conclusions cherchées vont au–delà des observations recueillies (généralisation)

Différents outils des statistiques descriptives :

- Moyenne,

- Ecart–type,

- Variance,

- Mode (= catégorie la plus observée, à l’effectif le plus important),

- Médiane (= catégorie qui se situe au milieu de la distribution. Concerne les variables numériques ou ordinales),

- Fréquence (= proportion d’observation),

- Pourcentage (= façon de communiquer une proportion),

- Co–variance,

- Coefficient de corrélation (–1 £ г £ +1),

Plus г se rapproche de –1 ou de +1, plus la corrélation est forte.

- Carré moyen de contingence f² (mesure la liaison en 2 variables qualitative),

- Analyse factorielle de correspondance (nuage de points)

Différents outils des statistiques inductives :

- Test du c²,

- t de Student,

- Rapport F de Fischer,

- Probabilité p (= seuil observé = p–value),

- Intervalle de confiance IC.

Critère de distinction des statistiques descriptives des statistiques inductives :

Il faut dupliquer les observations, c’est–à–dire remplacer chaque observation par 2 observations de même valeur.

- Les statistiques descriptives ne changent pas de valeurs.

- Les statistiques inductives changent de valeurs, car elles sont fondamentalement liées aux effectifs.

Une démarche statistique fonctionne toujours en 2 temps :

On effectue d’abord la description, puis on se dirige vers des tests (inférences)

Inférence :

En général, on réalise des tests de signification dans une situation où les individus forment un échantillon au hasard d’une population parente.

On parle de cadre fréquentiel ou de cadre probabiliste.

On peut aussi réaliser des tests de signification lorsque les individus observés ne forment un échantillon au hasard d’une population parente. La mécanique est la même mais les conclusions seront différentes : les tests permettent de légitimer les commentaires sur la conclusion.

On parle de cadre ensembliste ou de cadre combinatoire.

v Test binomial :

Ce test permet une inférence sur les fréquences d’un seul groupe d’observation avec une seule variable dépendante binaire. Il permet une comparaison sur une fréquence observée par rapport à une fréquence théorique.

Ø Exemple 1 (musée) :

On observe le trajet de 10 visiteurs (adultes seuls) dans une salle entourée de tableaux. On s’intéresse à l’orientation à l’entrée (gauche ou droite)

Gauche	Droite	Total
3	7	10

Observation :

Analyse descriptive :

La fréquence observée, f_OBS, est la fréquence d’orientation à droite.

f_OBS = 0,7

Conclusion : La majorité des visiteurs vont à droite.

Inférence (cadre fréquentiste) :

Peut–on généraliser à la population parente l’observation descriptive ?

Y a–t–il une préférence significative pour le coté droit ?

Ø Exemple 2 (gouvernement) :

On observe le sexe de 10 ministres.

Hommes	Femmes	Total
9	1	10

Observation :

Analyse descriptive :

La fréquence observée, f_OBS, est la fréquence de femmes dans le gouvernement.

f_OBS = 0,1

Conclusion : Les femmes sont sous–représentées au gouvernement.

Inférence (cadre ensembliste) :

Peut–on dire que la fréquence des femmes dans le gouvernement est significativement inférieure à 0,5 ?

Ø Test :

On démarre sur une hypothèse nulle H₀ où la distribution de la variable binaire est aléatoire :

H₀ : j₀ = 0,5

- k = nombre d’évènements d’intérêt au cours d’une observation

- n = nombre d’évènements totaux au cours d’une observation

- F = variable

F=k/n	0/10	1/10	2/10	3/10	4/10	5/10	6/10	7/10	8/10	9/10	10/10
p(F=k/n)	0,001	0,01	0,044	0,117	0,205	0,246	0,205	0,117	0,044	0,01	0,001

Loi de distribution binomiale

- j₀ = fréquence d’orientation à droite

- 1–j₀ = fréquence d’orientation à gauche

- = nombre de combinaisons de n objets pris k à k

= nombre de façons de choisir k éléments dans un ensemble de n éléments

Remarques : 1! = 1 ; 0! = 1

Pour évaluer l’extrémalité, on se fonde sur la probabilité d’obtenir un échantillon au moins aussi extrême que l’échantillon observé du même coté de la distribution. Cette probabilité est appelée seuil observé unilatéral du test (= one–sided p–value)

Plus le seuil observé est petit, plus l’échantillon est extrême.

Par convention, on a considéré comme extrême 5% de la distribution (= seuil bilatéral a=0,05) Si on se situe dans l’une des 2 régions, on dit que le test est significatif au seuil bilatéral 5%.

L’objectif d’un test d’hypothèse est de rejeter les hypothèses qui rendent peu probables l’échantillon observé. Quand p_INF est supérieure (ou p_SUP inférieure) à 0,025, l’hypothèse n’est pas rejetée mais elle n’est pas pour autant validée.

Musée :

Si f_OBS = 9/10, alors p_SUP = 0,011 (< 0,025)

Le résultat est significatif : l’hypothèse H₀ : j₀ = 0,5 est rejetée, ainsi que toutes les hypothèses H₀ : j₀ < 0,5 qui rendraient l’échantillon encore moins probable

(Résultats encore plus significatifs)

Conclusion : la fréquence d’orientation à droite est significativement supérieure à droite (conclusion orientée) Cela veut dire que l’on rejette toutes les hypothèses d’une fréquence dans la population inférieure à 0,025.

Si f_OBS = 7/10, alors p_SUP = 0,172 (< 0,025)

Le résultat est non–significatif : on ne peut pas rejeter l’hypothèse nulle H₀. On dit que l’hypothèse nulle est compatible avec les données.

Un résultat non significatif est un constat d’ignorance..

Tous les tests portent sur une différence (entre 2 groupes) ou sur un écart à une valeur de référence ont pour objectif de se prononcer sur le signe du paramètre dans la population. Les tests ne répondent pas à une question de ressemblance.

- Lorsque le résultat est significatif, on peut se prononcer sur le signe du paramètre dans la population.

- Lorsque le résultat est non–significatif, on ne peut pas se prononcer sur le signe du paramètre.

Gouvernement :

f_OBS = 1/10, alors p_SUP = 0,011 (< 0,025)

Le résultat est significatif : l’hypothèse H₀ : j₀ = 0,5 est rejetée.

Conclusion : le résultat significatif ne ressemble pas (pour la fréquence de femmes) à la plupart des échantillons issus d’une population où il y a autant d’hommes que de femmes.

C’est–à–dire que le gouvernement n’est pas assimilable (pour la fréquence des femmes) à un échantillon au hasard de notre population

Þ Les femmes sont sous–représentées dans le gouvernement.

Si le résultat du test est non–significatif, les données sont assimilables à un échantillon au hasard issu d’une population où il y a autant d’hommes que de femmes. Dans ce cas, il n’y a de commentaire sur le fait que les femmes soient sous–représentées dans le gouvernement.

Le cadre ensembliste est un filtre de commentaire entre la description des données et la conclusion (interprétation)

Ø Analyses individuelles :

Exemple : Etude du délai moyen de réaction avec un médicament agissant sur la vigilance :

Période P1 : jour1 " jour7 Þ Moyenne1

Période P2 : jour8 " jour14 Þ Moyenne2

(Périodes non contiguës : les jours de tests sont espacés de jours neutres)

- L’unité statistique n’est pas l’individu mais le jour. P1 et P2 sont 2 groupes indépendants (absence de correspondance terme à terme)

- Le test est situé dans un cadre ensembliste avec une analyse individuelle.

Cf. poly (comparaison de moyenne dans un cadre ensembliste)

v Test Z et test c² :

Ø Test Z :

Gauche	Droite	Total
3	7	10

Exemple : Musée :

Le test binomial est un test exact qui calcule la probabilité p_UNI. Mais quand les effectifs sont trop importants, il devient fastidieux.

Dans la méthode approchée (test Z), on remplace la distribution binomiale par une distribution normale de même moyenne et de même écart–type. Le seuil observé unilatéral exact est remplacé par son approximation (proportion calculée sous une distribution normale)

Z_OBS = 1,265 Z_2,5% = 1,960

On utilise des tables pour déterminer la proportion dans la distribution de Z.

Ø Test c² :

Il est utilisé pour des tableaux de contingence à 2 entrées.

	Gauche	Droite	Total
Observé	3	7	10
Théorique	5	5	10

Exemple : Musée :

Si c² = 0 ; alors les valeurs observées sont égales aux valeurs théoriques.

v Tests non paramétriques :

Ils portent sur la comparaison de moyennes ou de fréquences.

Ø Test de permutation (= randomisation test) :

9 élèves sont répartis au hasard dans 2 conditions expérimentales (enseignements traditionnel et moderne) et on étudie leurs résultats scolaires.

	Condition 1 (= moderne)		Condition 2 (= traditionnel)
Ind 1	3	Ind 5	1
Ind 2	8	Ind 6	1
Ind 3	10	Ind 7	2
Ind 4	10	Ind 8	5
		Ind 9	5

Analyse descriptive :

H₀ : même population parente pour les conditions (les observations sont échangeables) C'est–à–dire : on peut construire d’autres répartitions possibles.

- Construire tous les protocoles possibles en mélangeant les 9 élèves dans les 2 conditions,

- Calculer, pour chaque protocole, la différence entre les moyennes des 2 conditions,

- Situer la différence observée dans la distribution des différences obtenues dans tous les protocoles possibles et en déduire le résultat du test.

Le nombre de protocoles est le nombre de façons de choisir les individus dans les conditions 1.

Parmi les 126 protocoles possibles, il y a 2 protocoles plus extrêmes que le protocole observé (obtenus en remplaçant ind1 par ind8 ou 9) et un protocole aussi extrême que le protocole observé (le protocole observé lui–même)

p_SUP = 3/126 = 0,024 (< 0,025)

Le résultat est significatif au seuil unilatéral supérieur de 2,5%.

Conclusion : La moyenne des notes de la pédagogie moderne est significativement supérieure à celle des notes de la pédagogie traditionnelle.

Dans un cadre ensembliste :

Ce résultat significatif veut dire que la répartition des notes entre les 2 conditions n’est pas assimilable à une population répartie au hasard.

Ø Méthode de Monté Carlo :

Quand la quantité de protocoles est énorme, le logiciel fait un tirage au hasard de protocoles. p_UNI est calculé sur cet échantillon au hasard. C’est une approximation fournie avec un intervalle de confiance IC.

Ø Mann Whitney :

Cette méthode utilise un codage en rang des observations effectuées dans 2 groupes.

Remarque :

- Pour 2 groupes appareillés, la permutation se fait entre 2 observations appareillées. Il y a donc 2ⁿ permutations.

1/2ⁿ = 0,025 Þ n = 6

Le résultat est significatif à partir de n=6

- Lorsque l’on s’intéresse à la corrélation entre 2 variables dépendantes, on fixe le 1^er groupe et on permute toutes les observations du 2^nd groupe. Il y a donc n! permutations.

1/n! < 0,025 (=1/40) Þ n = 5 ; p = 1/120

Le résultat est significatif à partir de n=5

Test paramétrique

Test non paramétrique

Test t de Student (comparaison de 2 groupes indépendants)

La population a une distribution normale.

Il y a des conditions sur les paramètres des populations parentes des 2 groupes étudiés : égalité des variances

Avec des effectifs importants, la distribution d’échantillonnage du rapport de Student coïncide toujours avec la distribution classique du t de Student.

Le test t est robuste vis–à–vis des conditions ; c’est–à–dire au–delà de 20–30 individus, il est possible de l’utiliser sans crainte.

Test de permutation (entre 2 groupes indépendants)

Il y a absence de conditions sur les paramètres des populations parentes des 2 groupes étudiés.

Ils sont utilisés pour de petits effectifs (inférieurs à 20–30 individus), mais il fonctionne aussi pour les effectifs plus importants.

v Méthodes géométriques :

Ø AFC (= analyse factorielle des correspondances) :

Elle étudie des tableaux de contingence d’effectifs où les individus sont décrits par 2 variables qualitatives.

Ø ACM (= analyse de correspondances multiples) :

Elle correspond à une ACP avec des variables qualitatives, dans des tableaux individu–variable (1 ligne par individu)

Elle ne sert pas à construire le nuage de point, mais à le partager.

On peut prolonger l’analyse géométrique (= méthode descriptive) par des tests de comparaison de moyenne (par exemple)

Ø ACP (= analyse en composantes principales) :

Elle permet d’étudier les liaisons linéaires (corrélations) entre des variables dépendantes numériques.

	Variables dépendantes numériques	Variables indépendantes qualitatives
i1 …
… i10

Le logiciel donne 2 nuages :

Les variables numériques peuvent être ou non sur la même échelle.

Echelle commune aux 2 variables :

On peut définir une distance entre 2 points (en généralisant le théorème de Pythagore à plus de 2 dimensions) et donc un écart–type pour chaque variable. Dans ce cas, les variables ayant les plus grands écarts–type sont celles qui différencient le plus les individus.

Echelles différentes aux variables :

Pour définir la distance entre 2 points, on change les échelles en échelles pures, c’est–à–dire sans dimensions. On dit que l’on fait une réduction (obtention de variables réduites = variables normées)

On construit une variable réduite en remplaçant chaque valeur d’une variable par son écart–type réduit. C’est un nombre pur, sans unité.

Exemple du QI :

QI moyen = 100 ± 15 points

Pour QI = 130 points, QI_REDUIT = (130–100)/15 = 2

Une variable réduite a un écart–type de 1. Conséquence sur le nuage des variables : tous les vecteurs sont de longueur (= norme) égale à 1. Donc toutes les variables ont exactement la même importance dans la différence entre les individus.

Les vecteurs sont donc inclus dans une sphère de rayon 1. Dans une projection, on obtient un cercle de rayon 1, appelé cercle de corrélation.

- Les vecteurs qui frôlent le cercle sont proches du plan du dessin (peu de déformation)

Plus les vecteurs sont petits, plus ils sont déformés.

- On peut commenter (en terme de corrélation) les positions des vecteurs qui frôlent le cercle entre eux ou avec un vecteur très petit.

Choix du plan (= 1^er plan principal) :

Il se fait avec la variance la plus grande possible.

- Le logiciel détermine le 1^er axe factoriel, qui (par convention) passe par le point moyen du nuage (» barycentre), sur lequel la variance projetée est maximale. Elle est appelée la 1^ère valeur propre du nuage.

- Le point moyen sert d’origine sur l’axe avec un choix arbitraire du sens de l’axe. Chaque point a une coordonnée factorielle sur le 1^er axe.

- Le 2^ème axe est perpendiculaire au 1^er axe. La variance projetée sur le 2^ème axe est maximale (après la 1^ère valeur) et appelée 2^ème valeur propre du nuage.

La somme des valeurs propres est égale à la variance du nuage initial. Chaque axe exprime donc une proportion de la variance du nuage initial.

La variance correspond à la moyenne des écarts entre les valeurs et la moyenne. La variance du nuage correspond à la moyenne des écarts entre les valeurs et le point moyen.

Pour un nuage de dimension élevée, tous les axes factoriels passent pour le point G qui sert d’origine. Les axes factoriels sont perpendiculaires 2 à 2. Les axes qui suivent le 1^er axe sont déterminés l’un après l’autre (dans l’ordre) avec la règle suivante :

« Parmi toutes les directions perpendiculaires à celles des 1^ers axes trouvés, la direction d’un nouvel axe factoriel est celle sur laquelle le nuage projeté a la plus grande variance possible. »

Les valeurs propres successives vont donc en descendant.