|
|
Traitement des données (Latchoumanin), Cours n°1 : le 13/02/03 I. Introduction : Statistiques : Moyen de faire parler les chiffres. Statistiques "avec un s" est différent de statistique "sans s" Statistiques : collection de nombres que l'on présente souvent dans des tableaux, des graphiques qui regroupent des observations, à partir de faits concrets voir même des relations causales entre les faits. Statistique : ensemble des procédés ou méthodes appliquées dans le but de confirmer l'existence de relations évoquées (pas du au hasard). Histoire : Au départ, il y a des recensements, des dénombrements qui existent de puis 4000 ans. Les chinois utilisaient des tables de statistiques agricole, et encore aujourd'hui il y a des dénombrements. Jusqu'au 18ème siècle, ces opérations ont un caractère passifs (pas d'interprétation). Les sciences statistiques vont trouver leurs justifications théoriques et leur méthodes grâce aux jeux de hasard. Le développement augment grâce à 2 impulsions :
La statistique étend son champ d'applications à tous les domaines dont les grands nombres et les facteurs de variations qui exigent une technique d'interprétation basée sur les connaissances des lois du hasard. exemples : branches de la sciences physiques : astronomie ; biologie génétique. Les statistiques franchissent l'étape de la description à l'étape d'interprétation voir de prévision. L'usage des chiffres exige une très grande rigueur. Le chiffre par définition comporte une rigueur qui exclue le doute. Mais il importe de savoir à quoi il se rapporte. Dans tout recueil de données, dans toutes enquêtes :
l'observable, le constat objectif est préférable aux déclarations des
individus surtout quand ces individus sont concernés par ces
conclusions. L'évolution économique d'un pays doit aussi tenir compte des variations régionales. L'études du taux d'échec ou réussite à la licence sciences de l'éducation ne doit pas en rester au chiffres bruts, il faut aussi regarder : l'assiduité, la disponibilité, la contrainte familiale, le niveau de départ, comment le prof a conduit son cours, ... Vocabulaire spécifique au lexique de la statistique : L'ensemble
de données en statistique se dit "population" La population est étudiée selon un ou plusieurs caractères ou facteurs, ce sont les facettes des individus de la populations. exemple : caractéristique des chômeurs : âge, sexe, qualification professionnelle, durée de chômage, ... On choisit d'étudier tel ou tel caractères en fonction de l'objectif que l'on donne à notre étude. Un
caractère permet systématiquement de déterminer une partition selon ses
diverses modalités ou valeurs. Quand
les modalités ou valeurs des caractéristiques sont des nombres, ce
caractère est dit quantitatif, on donnera donc le nom de variable
numérique. (Discret est différent de entier) exemple de variable numérique
discrète : Variable numérique continue : il y a toujours possibilité d'avoir un intermédiaire, exemple : la taille entre 1m60 et 1m65, on peut avoir 1m61,1m62, 1m63, ... donc des intermédiaires. Le caractère est dit qualitatif quand les modalités ou valeurs du caractère ne sont pas mesurable, exemple : les couleurs. Les valeurs ou modalités choisies sont des valeurs ou modalités observées. L'ensembles des valeurs observables est l'ensemble des valeurs que l'on pourrait observer. Classement : placé l'ensemble des réponses qui correspondent à la même modalité : Le diagramme peut être reproduit en pile : Comment se fait la distribution du groupe de 10 :
Un tableau d'effectifs peut être transformé en tableau de fréquences :
Pour les fréquences : les 0, (zéro virgule) sont toujours remplacé par . (un point)
Si nous rangeons les fréquences ou les effectifs comme ceux-ci : A : 5 Ce
rangement permet de donner un indice : "le mode", c'est la
valeur ou modalité de la variable affectée du plus gros effectif donc
ici le mode est A. 2 Classes peuvent être constitués, celle qui veut plus de principes DEF et celle qui veut plus de techniques ABC. Et si on compare ces 2 classes on voit que :
Pour parler de pourcentage, il faut attendre que l'on est au moins 100 sujets. Effectif de chaque classe avec distribution des effectif initiaux à l'intérieur de chaque classe: Distribution partielle :
avec des fréquences cela donne des Fréquences partielles :
B et D n'ont alors plus la même fréquence. Conclusion : A partir de cette distribution des effectifs
partiels de chaque classe : Cette seconde conclusion renforce le premier niveau de conclusion. Procédures de description : L'objet de base de la statistique descriptive est le protocole de données c'est à dire un ensemble d'observations. Une observation met toujours en correspondance un individu et un observable. exemple : course de 100m dans une classe de CM2. Individus : élèves L'observation est l'expression de cette donnée statistique. Un observable se définie en terme de variable, ces variables peuvent décrire des individus. La variable temps peut se définir entre "11 et 19 s". Une variable invoquée est une variable qui préexiste à
l'expérience comme le sexe, c'est une variable que l'on ne peut pas
changer. La description des observations se fait à l'aide de nombres en statistique, méthode de mesure qui consiste à assigner des nombres aux choses selon des règles bien déterminées. Le choix de la méthode de mesure donnera un nombre obtenu avec des propriétés plus ou moins nombreuses. Selon ces propriétés, les variables vont appartenir à l'une ou l'autre des échelles de mesure utilisable dans l'analyse statistique. L'échelle permet de choisir la formule qu'il faut utiliser. Echelle nominale : Les observations de la variable sont réparties en un
certain nombre de modalités, de valeurs qui sont distincts les unes des
autres. Il y a donc des classes, catégories non-ordonnées. 2 observations appartenant à la même classes sont
jugées comme équivalentes. Les modalités peuvent aussi se présenter à l'aide de chiffre : valeur de symbole. Quand les observations émanent d'une application d'une
échelle nominale, les résultats peuvent être représentés dans un
tableau et aussi dans un diagramme.
Echelle ordinale : Ensemble d'observables munis d'un ordre
total. Toute paire
d'observation A>B implique que B<A et si A>B et B>C alors
A>C. exemple : Nous allons distinguer 3 types de variables ordinales, tout d'abord,
exemple : degré de concentration estimé sur une échelle à 4 degrés :
Rang, ordre, classement renvoie à l'échelle ordinale. Les rangs obtenus après classement des unités d'observations de la première à la dernière par rapport à une variable.
L'échelle nominale et ordinale font appel à des variables non-numériques car on fait référence à des valeurs, des rangs.
Echelle numérique : Les valeurs, modalités constitue un ordre total mais ici, il y a une distance entre les modalités. Cas pour les nombres qui désignent des quantités, cela a un sens de dire qu'une quantité est la double d'une autre. Ex : Paul a 4 billes, Pierre en a 2, Paul a le double de billes de Pierre. Transformation d'échelle : Il est toujours possible de transformer une échelle numérique en échelle ordinale puis en échelle nominale toutefois ces transformations successives nous font perdre de l'information. En revanche la transformation inverse est impossible. exemple de variable numérique le QI qui permet un classement numérique en tenant compte des performances (nombres) mais en les rangeant dans 2 classes les résultats : ceux qui ont moins de 100 et ceux qui ont plus de 100 alors on obtient une variable nominale. |