Introduction : Dans un étang cohabitent deux espèces de poissons (des truites et des carpes), avec une proportion de truites \(p\) inconnue. On souhaite estimer la proportion des truites dans cet étang.
Pour cela, on prélève un échantillon de poissons dans l’étang, et on compte le nombre de truites dans l’échantillon. L’objectif est de faire une estimation de la proportion des truites dans l’étang à partir de la proportion des truites présentes dans l’échantillon.
Si on prélève un seul poisson et que c’est une truite, on ne peut pas en déduire que 100% des poissons dans l’étang sont des truites. Si on prélève 20 poissons et que tous sont des truites, on ne peut pas non plus en conclure que l’étang ne contient que des truites, mais on peut tout de même conclure que l’étang contient probablement beaucoup plus de truites que de carpes. Ainsi, toutes les conclusions que l’on pourra tirer comporteront un risque d’erreur. Le seul moyen d’avoir une certitude serait de prélever la population tout entière.
On s’intéressera à deux types de questions :
Estimation : On cherche à estimer la valeur de \(p\). Pour un niveau de risque fixé, on obtiendra un intervalle de confiance pour \(p\). On peut aussi se poser la question du nombre de truites à prélever pour obtenir un intervalle de confiance d’amplitude donnée.
Test d’hypothèse : On fait une supposition sur la valeur de \(p\) (par exemple on suppose que \(p=67\%\)), puis on regarde si la proportion des truites dans l’échantillon est compatible avec cette hypothèse. Si cette proportion semble trop improbable ou exceptionnelle, on rejette l’hypothèse (avec un risque de se tromper).
I- Intervalle de fluctuation asymptotique
Définition
Soit \(X\) une variable aléatoire qui suit la loi binomiale \(\cal B(n;p)\), et \(\alpha\) un nombre réel de l'intervalle \(]0;1[\). Soit \(F=\frac XN\). Ainsi, \(X\) est le nombre de succès au cours de la répétition de \(n\) épreuves de Bernoulli identiques et indépendantes, et \(F\) est la fréquence des succès.
Un intervalle de fluctuation de \(X\) au seuil \(1-\alpha\) est un intervalle \([a;b]\) tel que \(P(a\leq X\leq b)\geq 1-\alpha\).
Un intervalle de fluctuation de \(F\) au seuil \(1-\alpha\) est un intervalle \([c;d]\) tel que \(P(c\leq F\leq d)\geq 1-\alpha\).
Remarque :
En général, on choisit un intervalle le plus étroit possible, ce qui donne le plus souvent un intervalle dont le centre est \(np\) pour \(X\) et \(p\) pour \(F\).
Exercice :
Dans un lycée, il y a 58% de filles. On choisit au hasard 50 élèves dans le lycée. Le nombre d’élèves du lycée est supposé être suffisamment grand pour que le tirage puisse être considéré comme un tirage avec remise.
A l’aide de la calculatrice, donner un intervalle de fluctuation au seuil de 95% le plus petit possible du nombre de filles et de la fréquence des filles dans l’échantillon.
Solution :
Soit \(X\) le nombre de filles dans l'échantillon de 50 élèves. \(X\) suit la loi binomiale \(\cal B(50;0,58)\).
A la calculatrice ou avec un logiciel spécialisé (Geogebra, tableur, ...), on obtient : \(P(23\leq X\leq 36)\approx 0,9538\) et \(P(22\leq X\leq 35)\approx 0,9543\). On ne peut pas trouver d'intervalle plus court dont la probabilité dépasse 0,95. Le premier intervalle est un peu meilleur car sa probabilité dépasse un peu moins la barre des 0,95 que le second intervalle.
On peut donc prendre comme intervalle de fluctuation au seuil de 95% : \([23;36]\) pour le nombre de filles dans l'échantillon et \([0,46;0,72]\) pour la fréquence des filles dans l'échantillon. Cela signifie que sur une centaine d'échantillons de 50 élèves (avec remise), la fréquence des filles dans l'échantillon devrait être la plupart du temps (grosso modo 95 fois) comprise entre 46% et 72%, et devrait sortir environ 5 fois de cet intervalle.
Propriété
Soit \(X_n\) une variable aléatoire qui suit la loi normale \(\cal B(n;p)\), et \(\alpha\) un nombre réel de l'intervalle\(]0;1[\). Alors on a : \(\lim\limits_{n\rightarrow +\infty}P\left(\frac{X_n}{n}\in\left[ p-u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt{n}}\right]\right)=1-\alpha \), où \(u_\alpha\) est l'unique réel tel que \(P(-u_\alpha\leq Z\leq u_\alpha)=1-\alpha\) si \(Z\) suit la loi normale centrée réduite \(\cal N(0;1)\) (voir le chapitre Loi normale).
Démonstration :
On pose \(Z_n=\frac{X_n-np}{\sqrt{np(1-p}}\) et on applique le théorème de Moivre-Laplace : \(\lim\limits_{n\rightarrow +\infty}P(-u_\alpha\leq Z_n\leq u_\alpha)=P(-u_\alpha\leq Z\leq u_\alpha)=1-\alpha\).
Or : \(-u_\alpha\leq Z_n\leq u_\alpha\)
\(\iff -u_\alpha\leq\frac{X_n-np}{\sqrt{np(1-p)}}\leq u_\alpha\)
\(\iff -u_\alpha\sqrt{np(1-p)}\leq X_n-np\leq u_\alpha\sqrt{np(1-p)}\)
\(\iff np-u_\alpha\sqrt{np(1-p)}\leq X_n\leq np+u_\alpha\sqrt{np(1-p)}\)
\(\iff p-u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt n}\leq \frac{X_n}{n}\leq p+u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt n}\)
Donc \(P(-u_\alpha\leq Z_n\leq u_\alpha)=P\left(p-u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt n}\leq \frac{X_n}{n}\leq p+u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt n}\right)\), d'où le résultat.
Définition
L'intervalle de fluctuation asymptotique au seuil de 95% de la fréquence \(\frac{X_n}{n}\) pour une variable aléatoire \(X_n\) qui suit la loi binomiale \(\cal B(n;p)\) est :
\(I_n=\left[p-1,96\frac{\sqrt{p(1-p)}}{\sqrt n};p+1,96\frac{\sqrt{p(1-p)}}{\sqrt n}\right]\).
Remarque :
Cet intervalle n'est pertinent que si \(n\) est assez grand (car le théorème de Moivre-Laplace n'est exact que si \(n\) est infini). En pratique, on peut utiliser cet intervalle dès que \(n\geq 30\), \(np\geq 5\) et \(n(1-p)\geq 5\).
L'intervalle obtenu est centré par rapport à \(p\).
L'intervalle de fluctuation vu en 2nde (un peu plus large) était \(\left[p-\frac{1}{\sqrt n};p+\frac{1}{\sqrt n}\right]\).
Pour obtenir un intervalle qui soit le plus petit possible, il faut travailler directement avec la loi binomiale (méthode vue en 1ère), mais cela nécessite beaucoup plus de calculs.
Exercice :
Reprendre l'exercice précédent (proportion de filles dans le lycée) et calculer l'intervalle de fluctuation asymptotique au seuil de 95%, ainsi que l'intervalle vu en 2nde. Arrondir les bornes à \(10^{-3}\).
Solution :
Vérifions d'abord les conditions d'utilisation : ici \(n=50\) et \(p=0,58\). \(np=29\) et \(n(1-p)=21\). On a bien \(n\geq 30\), \(np\geq 5\) et \(n(1-p)\geq 5\). Les conditions d'utilisation sont bien satisfaites.
L'intervalle de fluctuation asymptotique au seuil de 95% de la proportion de filles dans le lycée est \(I_{50}=\left[p-1,96\frac{\sqrt{p(1-p)}}{\sqrt n};p+1,96\frac{\sqrt{p(1-p)}}{\sqrt n}\right]\approx[0,443;0,717]\).
L'intervalle vu en 2nde donne \(I=\left[p-\frac{1}{\sqrt n};p+\frac{1}{\sqrt n}\right]\approx[0,439;0,721]\).
Dans les trois cas, on obtient des valeurs proches. L'intervalle obtenu dans l'exercice précédent est plus précis et plus pertinent, mais plus difficile à calculer.
Exercice : Prise de décision :
Dans un casino, il a été décidé que les machines à sous doivent être réglées sur une fréquence de gain du joueur de \(p=0,06\). Une fréquence inférieure est supposée faire fuir le client, et une fréquence supérieure est susceptible de ruiner le casino.
Trois contrôleurs différents vérifient une même machine. Le premier a joué 50 fois et gagné 2 fois, le second a joué 120 fois et gagné 14 fois, le troisième a joué 400 fois et gagné 30 fois.
En utilisant des intervalles de fluctuation asymptotiques au seuil de 95%, examiner dans chaque cas la décision à prendre par le contrôleur : accepter ou rejeter l’hypothèse \(p=0,06\).
Solution :
Dans chaque cas, notons \(X\) le nombre de gains au cours des \(n\) essais. \(X\) suit une loi binomiale \(\cal B(n;0,06)\), où la valeur de \(n\) dépend du contrôleur.
1er contrôleur : \(n=50\) et \(p=0,06\).
\(np=3\lt 5\) donc les conditions d'utilisation de l'intervalle de fluctuation asymptotique au seuil de 95% ne sont pas vérifiées. On doit donc passer par l'étude de la loi binomiale. On obtient : \(P(0\leq X\leq 6)\approx 0,971\).
Le premier contrôleur a gagné 2 fois, ce qui se situe dans l'intervalle de fluctuation \([0;6]\). Il accepte donc l'hypothèse \(p=0,06\).
2ème contrôleur : \(n=120\) et \(p=0,06\).
\(np=7,2\) et \(n(1-p)=112,8\). \(n\geq 30\), \(np\geq 5\) et \(n(1-p)\geq 5\). Les conditions d'utilisation de l'intervalle de fluctuation asymptotique au seuil de 95% sont bien respectées.
L'intervalle de fluctuation asymptotique au seuil de 95% de la fréquence des gains est \(I=\left[p-1,96\frac{\sqrt{p(1-p)}}{\sqrt n};p+1,96\frac{\sqrt{p(1-p)}}{\sqrt n}\right]\approx[0,018;0,102]\).
La fréquence des gains observée par ce contrôleur est \(f=\frac{14}{120}\approx 0,116 \notin I\).
Ce contrôleur rejette l'hypothèse \(p=0,06\) car la machine a gagné trop souvent.
3ème contrôleur : \(n=400\) et \(p=0,06\).
\(np=24\) et \(n(1-p)=376\). \(n\geq 30\), \(np\geq 5\) et \(n(1-p)\geq 5\). Les conditions d'utilisation de l'intervalle de fluctuation asymptotique au seuil de 95% sont bien respectées.
L'intervalle de fluctuation asymptotique au seuil de 95% de la fréquence des gains est \(I=\left[p-1,96\frac{\sqrt{p(1-p)}}{\sqrt n};p+1,96\frac{\sqrt{p(1-p)}}{\sqrt n}\right]\approx[0,037;0,083]\).
La fréquence des gains observée par ce contrôleur est \(f=\frac{30}{400}\approx 0,075 \in I\).
Ce contrôleur accepte l'hypothèse \(p=0,06\).
II- Intervalle de confiance
Dans toute cette partie, on suppose que \(n\geq 30\), \(np\geq 5\) et \(n(1-p)\geq 5\).
Propriété
Soit \(X_n\) une variable aléatoire qui suit la loi binomiale \(\cal B(n;p)\) avec \(p\) fixé mais inconnu.
Soit \(F_n=\frac{X_n}{n}\) la fréquence associée à \(X_n\).
Alors, pour \(n\) assez grand, l'intervalle \(\left[F_n-\frac{1}{\sqrt n};F_n+\frac{1}{\sqrt n}\right]\) contient \(p\) avec une probabilité supérieure ou égale à 0,95.
Démonstration :
On peut démontrer que, si \(n\) est assez grand, \(P\left(p-\frac{1}{\sqrt n}\leq F_n\leq p+\frac{1}{\sqrt n}\right)\geq 0,95\) (cela traduit le fait que l'intervalle de fluctuation asymptotique au seuil de 95% est contenu dans l'intervalle de fluctuation vu en 2nde).
Or \(p-\frac{1}{\sqrt n}\leq F_n\leq p+\frac{1}{\sqrt n}\)\(\iff F_n-\frac{1}{\sqrt n}\leq p\leq F_n+\frac{1}{\sqrt n}\).
On a donc bien \(P\left( p\in\left[F_n-\frac{1}{\sqrt n};F_n+\frac{1}{\sqrt n}\right]\right)\geq 0,95\).
Définition
On effectue \(n\) tirages indépendants de la même épreuve de Bernoulli, et on note \(f\) la fréquence des succès (ou la fréquence observée d'apparition d'un caractère).
L'intervalle \(\left[f-\frac{1}{\sqrt n};f+\frac{1}{\sqrt n}\right]\) est appelé intervalle de confiance de \(p\) au niveau de confiance 0,95.
Remarque :
L'amplitude de l'intervalle de confiance au niveau 0,95 est \(\frac{2}{\sqrt n}\).
Ainsi, plus la taille \(n\) de l'échantillon est grande, plus l'intervalle de confiance obtenu est précis (faible amplitude). Pour obtenir un intervalle deux fois plus petit, il faut un échantillon quatre fois plus grand.
Dans d'autres disciplines, on utilise parfois \(\left[f-1,96\frac{\sqrt{f(1-f)}}{\sqrt n};f+1,96\frac{\sqrt{f(1-f)}}{\sqrt n}\right]\) comme intervalle de confiance de \(p\) au niveau de confiance 0,95.
Dans ce qui prédède, \(\alpha\) représente le risque (de se tromper) et \(1-\alpha\) est le niveau de confiance ou le seuil. Par exemple, un risque de 5% correspond à un niveau de confiance ou un seuil de 95%.
Ne pas confondre fréquence et probabilité : dans l'exemple du jeu de Pile ou Face avec une pièce de monnaie bien équilibrée, la probabilité que la pièce tombe sur Pile est \(p=0,5\). Si on lance la pièce 10 fois et qu'elle tombe 6 fois sur Pile, la fréquence d'apparition du résultat Pile est \(f=0,6\). La probabilité reste cependant égale à 0,5.
Exercice :
Au second tour d'une élection présidentielle, il y a deux candidats A et B.
Lors d'un sondage effectué juste avant l'élection, on demande à 1000 personnes pour qui elles souhaitent voter. 523 personnes déclarent vouloir voter pour le candidat A, et les autres pour le candidat B.
1) Donner l'intervalle de confiance au niveau de confiance de 95% de la proportion des personnes qui souhaitent voter pour le candidat A.
2) Peut-on affirmer, au niveau de confiance 0,95, que le candidat A va remporter l'élection présidentielle ?
3) Combien de personnes aurait-il fallu interroger pour obtenir un intervalle de confiance d’amplitude inférieure à 0,04 ? inférieure à 0,01 ?
Solution :
1) L'intervalle de confiance au niveau de confiance 95% est : \(\left[f-\frac{1}{\sqrt n};f+\frac{1}{\sqrt n}\right]\)
\(=\left[\frac{523}{1000}-\frac{1}{\sqrt{1000}};\frac{523}{1000}+\frac{1}{\sqrt{1000}}\right]\)\(\approx[0,491;0,555]\).
2) On ne peut pas affirmer au niveau de confiance 0,95 que le candidat A va remporter l'élection, car l'intervalle de confiance contient des valeurs qui sont inférieures à 0,5.
3) L'amplitude de l'intervalle de confiance est \(\frac{2}{\sqrt n}\).
\(\frac{2}{\sqrt n}\leq 0,04\iff \sqrt n\geq \frac{2}{0,04}\iff n\geq 2500\)
Il aurait fallu interroger au moins 2 500 personnes pour que l'amplitude de l'intervalle de confiance soit inférieure à 0,04.
De la même façon, on obtient qu'il aurait fallu interroger au moins 40 000 personnes pour que l'amplitude de l'intervalle de confiance soit inférieure à 0,01.