|
|
Traitement des données (Latchoumanin), Cours n°3 : le 19/03/03 Combiner les observations : Il existe des liens entre 2 ou plusieurs variables. Comment faire apparaître cette existence de liaison entre 2 ou plusieurs variables ? Variable numérique : étude de la réussite scolaire d'un groupe dans 2 disciplines, 2 épreuves, l'une Verbale (V) et l'autre Non-Verbale (NV).
Variable ordinale : Classement de 12 sujet à l'issue d'une épreuve de statistique. X et Y sont des professeurs. Les rangs sont attribués après l'épreuve.
Comment mesurer l'existence d'une corrélation ? La corrélation exprime correspondance qui existe entre les différentes valeurs associées des 2 variables dépendantes d'une distribution. Cette correspondance, liaison, corrélation indique en quoi la connaissance de X nous renseigne sur la valeur correspondante Y. On se demande ce qui se passe en Y quand X prend des valeurs de plus en plus grande.
Quand X augmente alors Y augmente, nous concluons à l'existence d'une corrélation positive (cor +) Les meilleurs de la première épreuves reste les
meilleurs de la 2ème épreuve. Quand X augmente et Y diminue, alors nous concluons à l'existence d'une corrélation négative (cor -) Il y a donc des liaisons positives ou négatives (+ ou -).
Si la connaissance de X détermine avec exactitude la
connaissance de Y alors j'ai une corrélation parfaite, une liaison
fonctionnelle linéaire. Une approche globale intuitive de corrélation existante entre 2 variable peut être fournie par une représentation graphique de la distribution bivariée.
2 choses à ne pas confondre : lien statistique et lien causale. Il y a un lien entre les phénomène quand : a) L'observation de l'un est explicatif de l'autre, exemple : le levé du soleil est cause de la lumière du jour. b) Observation de l'un fourni des informations sur
l'autre, ex : Les formules à appliquer sont sous la dépendance du type
d'échelle sur lequel on va travailler. On pose 2 questions (Q1 et Q2) à 80 sujets, la réponse attendue à chaque question est oui ou non (+ ou -). C'est donc une variable nominale dichotomique (2 variables) : Réponses possibles :
1 ) Tableau de contingence :
(on obtient dans ce tableau les effectifs observés n) 2) Sens de la liaison : Si la somme des cases accords est différente de la somme des cases désaccords alors il y a corrélation.
S Accord ¹ S Désaccord ==> il y a une corrélation De plus, Accord < Désaccord donc la corrélation est négative. (la liaison est négative) 3) Force de la liaison (r) :
Sachant que n : correspondant aux effectifs observés n' = ( L X C ) / N L : Ligne (avec couleur correspondante) C : Colonne (avec couleur correspondante) Calcul des effectifs théoriques : (on obtient dans ce tableau les effectifs théoriques n') Tableau à faire pour le calcul du :
Ayant le , on peut calculer la force de liaison (r) :
Les types de liaison :
Donc ici, nous avons une faible liaison négative entre
les 2 variables. Variable ordinale : 2 experts oenologues doivent classer une douzaine de grands crus (attribut de rangs)
Pour trouver la force et le sens de la liaison, il faut appliquer une formule : le rhô de Spearman :
r = 1 - 0.30 = 0.70
On constate ici l'existence d'une corrélation forte et de
sens positif. Si r = 1-1.30 = -0.30 -> r = .30 faible corrélation négative. Variable numérique :
rhô de Brarais-Pearson :
Je ne détaille pas le calcul mais le résultat est :
Très faible corrélation positive. On ne peut rien affirmer dans la corrélation mathématique précédente. |
|