Base des statistiques inférentielles
La logique de l'inférence statistique
inférer
inférer ~= déduire
passer du connu à l'inconnu
connu
Les mesures prises sur un échantillon
inconnu
= ce qu'elles peuvent vouloir dire
=> mesurer la crédibilité d'une mesure
échantillon trop petit = risqué
il serait "faux" de généraliser à partir de trop peu d'observations
le poids moyen d'une université à partir de la mesure de seulement 2 de vos camarades
échantillon trop grand= couteux
mesurer le poids de l'ensemble des lycéens
à partir de combien d'observations peut on "croire" à un résultat ?
le but des statistiques inférentielles est de quantifier cette imprédictibilité
= quel est la probabilité que la moyenne de poids que j'ai mesuré soit en désaccord de 10 kilos avec la moyenne réelle ?
= P( |m-µ| > 10 )
avec m : moyenne mesurée
avec µ : moyenne de l'échantillon
= la crédibilité d'un résultat se traduit par une probabilité d'erreur
souvent calculable
l'intuition, elle, peut être trompeuse
Dans la vie de tous les jours on attend pas d'avoir suffisament d'observations pour en tirer des résultats significatifs.
théorie Vs pratique
les calculs peuvent être effectués par une machine, mais le raisonnement qui vous poussera à utiliser une formule ou une autre doit être parfaitement maitrisé
ce raisonnement est logique et se passe d'un bagage mathématique
il est possible de s'en sortir avec des connaissances minimales de type "dans ce type de situation j'utilise telle formule" mais cela :
limite votre capacité d'adaptations à certains problèmes
et vous fait prendre des risques (incapacité de saisir l'absurdité d'une démarche) en effet une analyse superficielle d'un problème de stats peut induire très vite des erreurs, car on rentre dans un processus de solution non adapté
aptitude désirée
connaître les "recettes" et les raisons et conditions d'utilisation des recettes
Population et échantillon
2 classes de questions
à quel point je peux connaître la population en m'intéressant à un échantillon de cette population
ou
si je connais la population, à quel point les mesure que je prendrai dans l'échantillon sont proches
Laplace
Connaître l'urne à partir des billets qu'on tire
ou
prévoir les billets qu'on tire à partir de la connaissance de l'urne
vocabulaire important
différents indices
Indice concernant la population = paramètre
on la note en lettre grecque
c'est une constante
Topic
Indice concernant un échantillon = statistique
on la note en lettre latine
c'est une variable aléatoire qui suit une distribution
Topic
moyenne : m
ecart type : E
on l'apelle l'erreur-type
variance : s
fréquence : f
probabilité : p
contrairement au paramètre, la statistique est une variable aléatoire
statistique de test
forme normalisée d'une statistique (statistique avec des paramètres prédeterminés)
pourquoi recourir à une statistique de test
les statistiques suivent des distributions ont des paramètres, comme on peut pas prévoir toutes ces distribution, on met en place une transformation de la statistique pour que cette nouvelle statistique (statistique de test) suive une distribution avec des paramètres normalisés
lorsque on avait X ~ N (µ,s) on posait z=(X-µ)/s et on a alors z ~ N ( 0 , 1 ) ce qui permet de se ramener à des valeurs précalculées. (voir cours précédent ou exercices précédents si cet exemple ne vous dit rien)
distribution d'échantillonnage
= distribution d'une statistique
elle dépend de la taille de l'échantillon
son écart-type (appelé alors erreur-type) diminue en fonction de la taille de l'échantillon
en effet si par exemple on mesure un poids moyen, au plus on prend d'observations, au plus la probabilité que la moyenne mesurée soit proche de la moyenne véritable augmente
d'autres distributions sont décrites en fiche 7 il n'est pas utile des les avoir en tête, notez simplement ces différents points :
il ne faut pas confondre la distribution d'une statistique et d'une variable
lors des derniers exercices nous avons travaillé avec la distribution d'une variable en supposant par exemple que la note des élèves suivaient une loi normale ce cas est rare.
la distribution d'une statistique serait par exemple la distribution de la moyenne des notes prise sur un échantillon
la distribution d'une variable est quelque chose qu'on connait souvent mal -> pas d'équation mathématique
si on veut avoir une vue synthétique de la distribution de ces variables, il est d'usage de construire un histogramme
Cela n'empêche pas de connaître la distribution d'une statistique issue de ces variables
en d'autres termes on prévoit souvent mieux la moyenne des variables que les variables elles-mêmes
le "théorème central limite" explique par exemple que la distribution de la moyenne de variables issues d'une même distribution (dont on ne connait que la moyenne et l'écart type) va pouvoir être décrite par une gaussienne dont on a les paramètres
C'est ce qu'explique plus ou moins l'encadré DE1 en fiche 12 je vous propose en exercice une formulation plus claire et plus utilisable dans la pratique
intervalle de confiance
permet de fixer un intervalle dans lequel on est sur à (par exemple) N% que l'estimation est correcte
Exemple
" il y a 95% de chance que la population française aie des intentions de vote pour Mr X entre 40 et 50 %"
permet de quantifier l'imprédicitibilité d'une mesure
lien avec les tests d'hypothèses
SI
Ho
ALORS
on a un intervalle de confiance [P1, P2] de 95 %
OR
la statistique est en dehors de cet intervalle
DONC
on rejète Ho
c'est le raisonnement classique en test d'hypothèse
TEST DE SIGNIFICATION
la fiche 10 est excellente et suffisamment concise.
lisez là
quelques points qui me paraissent importants
on pose Ho de manière à pouvoir fixer un paramètre pour faire calculs
on parle bien ici de l'indice concernant la population (cf vocabulaire important)
ne pas pouvoir rejeter l'hypothèse nulle n'est pas synonyme d'acceptation
c'est pour cela qu'on effectue un raisonnement par l'absurde
"si je veux montrer H1, je montre que H0 (qui est sa négation) est aberrante d'un point de vue statistique"
analogie avec la justice
le risque de condamner un innocent est différent du risque d'innocenter un coupable
cas où on libère tout le monde
risque d'enfermer un innocent : 0
risque de libérer un coupable : élevé
cas où on enferme tout le monde
risque d'enfermer un innocent : élevé
risque de libérer un coupable : 0
limite de l'analogie
En statistiques un seul des deux risques est facilement calculable, c'est pourquoi il y a un cas ou on peut conclure (coupable), et un cas ou on ne peut rien dire (pas assez de preuve)
la démarche est de supposer innocent, et de regarder si les faits sont incompatibles (mauvais alibi etc..)
En justice la présomption d'innocence tient de l'éthique tandis que dans le cas des statistiques on choisit de se baser sur l'hypothèse qui fixe des paramètres pour un calcul.
généralement un seul des risques est calculable, celui de rejet Ho à tord : C'est la p value
il existe des cas où on peut calculer les 2 risques
Topic
les notes de Jean suivent une gaussienne N(12,3) celles de Pierre suivent un gaussienne N(16,1) Une copie sans nom avec la note 14 appartient soit à Jean soit à Pierre. On peut calculer les risques de rejeter H0 "la copie appartient à Jean" à tord où de l'accepter à tord.
Topic
on cherche à prouver qu'un médicament induit un effet sur les notes d'un élève (on suppose que en temps normal ses notes suivent une loi normale de moyenne 13 et d'écart-type 2. Après avoir pris ce médicament, il obtient un N, peut-on dire que cela a induit un effet ?
On prend l'hypothèse inverse : il n'y a pas d'amélioration
Cela fixe les paramètres de la distribution supposée de l'élève -> N(13,2)
En effet si on avait pris pour hypothèse qu'il y avait modification, on n'aurait pas pu fixer des paramètres proprement
On peut calculer P(X≥N)
exercice classique
2 cas
1
cette valeur est inférieure à 5%
on juge alors que cela ne peut être du au hasard
on rejette l'hypothèse nulle
=> on conclut "il y a amélioration"
2
cette valeur est supérieure à 5%
=> on ne peut rien dire
Topic
Si on se posait la question : "y a t-il modification du niveau après prise du médicament"
alors on est plus sévère sur les conditions de rejets
valeur inférieure à 5% sur la bilatérale externe
ou 2.5% sur l'unilatérale externe
explication mathématique :
on se demande si P(|X| ≥N ) < 5 %
donc 5% sur la bilatérale externe
or comme P( |X| ≥ N ) = 2x P ( X ≥ N )
donc 2.5% sur l'unilatérale externe
Base des statistiques inférentielles
Added: 2011-10-13 08:34:02
From: (Joined 2011-10-04 17:47:12)
411 views |0 downloads
Base des statistiques inférentielles