Probabilité:
Adéquation à une Loi Equirépartie

I : Quel est le problème ?
Considérons une pièce de monnaie. Comme d'habitude, les deux côtés de cette pièce sont PILE et FACE.
Si on lance cette pièce, et si on fait l'hypothèse que celle-ci est parfaitement équilibrée, on peut dire que la probabilité d'obtenir Pile est ½ .
Mais qui peut assurer que cette pièce est vraiment bien équilibrée , ou autrement dit, qui peut assurer que la probabilité d'obtenir unPILE sur un lancer est bien ½ ?
Si une personne lance la pièce 10 fois et constate qu'elle a obtenue 1 "PILE" et 9 "FACE" , elle aura du mal à croire que la pièce en question n'est pas truquée.
Si cette même personne lance la pièce 100 fois et constate qu'elle a obtenue 55 "PILE" et 45 "FACE", elle aura tendance à penser que cette pièce n'est pas truquée.
Si maintenant elle lance la pièce 1000 fois et obtient 600 "PILE" et 400 "FACE", que peut-elle bien penser ?

En fait, le problème que se pose la personne est le suivant!
Devant l'expérience  "LANCER LA PIECE n FOIS et APRES OBSERVATION DES RESULTATS", peut-on dire si la pièce est oui ou non truquée ?

II: Une Démarche Possible!
Reprenons l'exemple de la pièce , avec 1000 lancers , 600 "PILE" et 400 "FACE".
A priori, si cette pièce n'est pas truquée, la probabilité d'obtenir "PILE" sur un lancer est ½ . Idem pour "FACE".
La fréquence d'apparition de "PILE", si le nombre de lancers est assez grand doit donc est assez proche de ½.
Dans l'exemple, la fréquence d'apparition de "PILE" est f1 = 0,6 et de "FACE" , f2 = 0,4.
Pour estimer l'écart entre ces fréquences observées et les fréquences "théoriques" que l'on pouvait attendre, calculons le nombre suivant:
                                                 (f1-½)² + (f2-½)² , nombre noté d²  : d² =   (f1-½)² + (f2-½)²
L'idée de ce calcul est la même que celle qui vient de la Variance.
Plus les fréquences d'apparition de "PILE" et "FACE" sont proches de ½, plus d² est proche de 0.
Dans l'exemple, on a d²=0,02.
Le problème de ce nombre d², c'est qu'il ne tient pas compte du nombre de lancers effectués.
Ainsi, que l'on lance le dé 1000 fois ou 10 fois, si les fréquences d"apparition de "PILE" et "FACE" sont respectivement 0,6 et 0,4, on obtientra la même valeur pour d².
Pourtant, les deux expériences (lancer 1000 fois ou lancer 10 fois) n'ont pas la même valeur!
Le resultat après 1000 lancers est certainement plus proche de la réalité du dé que le résultat après 10 lancers.
Pour palier à ce problème, au lieu de considérer uniquement la valeur d², on choisit de considérer la valeur nd² , où n est le nombre de lancers.

III: Cas Général!
Considérons qu'une expérience peut conduire à k situations distinctes , X1 , X2 , ... , Xk .
Dans le cas où il y a équiprobabilité des situations, la probabilité d'obtenir une situation donnée Xi est
Effectuons alors n fois de suite l'expérience .
Chaque situation Xi est apparue ni fois et sa fréquence d'apparition est
Pour savoir si on peut supposer que les k situations sont vraiment équiprobables, on calcule :
              
Ce nombre E sera d'autant plus proche de 0, et de façons significative, que les k situations sont équiprobables.

 

Une possibilité simple d'utilisation de ce nombre E est la comparaison entre deux expériences.
Imaginons que deux personnes possédent chacune un dé dont les faces sont numérotées de 1 à 6.
La première personne a lancé 1000 fois son dé et la seconde a lancé 500 fois son dé.
Elles ont noté les résultats et formé le tableau suivant:

  

Faces

1

2

3

4

5

6

TOTAL

Résultat
Personne 1

160

165

170

155

180

170

1000

Résultat
Personne 2

90

80

85

85

70

90

500

Fréquence
Observée
Personne 1

0,160

0,165

0,170

0,155

0,180

0,170

1

Fréquence
Observée
Personne 2

0,18

0,16

0,17

0,17

0,14

0,18

1

Pour chacune des faces des dés, la fréquence théorique d'apparition est 1/6 , si on fait l'hypotèse qu'il y a bien équiprobabilité.
Pour la première personne, on a  :
Pour la seconde personne, on a :
Les nombre E correspondants à leur observation sont alors
Pour la première personne, on a : E1 =  1000d² = 0,3833333...
Pour la seconde personne, on a : E2  = 500d² = 0,566666....
On a remarque alors que le dé de la première personne est probablement mieux équilibré que le dé de la seconde personne.

Il faut alors retenir le principe suivant:

Dans une expérience contenant k situations distinctes , X1 , X2 , ... , Xk  , si on a observé après n expériences indépendantes des fréquences respectives d'apparitions de ces k situations  f1 ,f2 , .... , fk , alors le nombre                        
est d'autant plus proche de 0 que les situations sont équiprobables.
De plus, pour n assez grand (dans la pratique , il s'agit avoir ) , la signification de E ne dépend pas de n

 

Exemples:
I : Deux populations A et B sont supposées être composées pour moitié de femmes et moitié d'hommes.
On observe 500 personnes de la population A et 10000 personnes de la population B.
On constate que sur les 500 personnes observées de A, on compte 260 femmes, et que sur les 10000 personnes observées de B, on compte 4900 femmes.
Laquelle de ces populations est la plus homogéne dans sa répartition d'hommes et de femmes?
Si on fait l'hypothèse de l'équirépartition des hommes et des femmes dans A et B, alors la probabilité de choisir une femme dans A est 0,5.
Idem pour les hommes, idem dans la population B.
L'observation nous dit que les fréquences observées dans A des femmes et des hommes , dans l'échantillion de 500 personnes sont respectivement F1 = 0,52 et  H1 = 0,48.
De même, les fréquences observées des femmes et des hommes dans l'échantillion de 1000 personnes de B sont : F2=0,49 et H2=0,51.

La calcul de E pour A donne  :E = 500d² = 500[(0,52-0,5)² + (0,48-0,5)²] = 0,4
Le calcul de E pour B donne :E = 10000d² = 10000[(0,49-0,5)² + (0,51-0,5)²] = 0,4
On ne peut donc pas dire qu'une de ces populations est plus homogéne que l'autre.

II: On tire au hasard et avec remise 2000 cartes de suites d'un jeu de 32cartes. On note la couleur des cartes tirées (coeur, pique,...etc).
     On résume le résultat de cette expérience dans le tableau suivant:

 

Coeur

Pique

Carreau

Trefle

Total

Effectifs Observés

550

450

530

470

2000

Fréquences Observées

0,275

0,225

0,285

0,215

1

Fréquences Théoriques

0,25

0,25

0,25

0,25

1

Sous l'hypothèse que le jeu est "normal", les fréquences théoriques de tirer une carte d'une couleur donnée sont 0,25.
Le calcul de E  = nd² donne ici : E = 2000[(0,275-0,25)²+(0,225-0,25)²+(0,285-025)²+(0,215-0,25)²] = 7,4
On verra par suite que l'ordre de grandeur de E permet de penser que ce jeu de cartes est certainement "truqué".

 

 

Risque et E:
Revenons au cas des k situations et des n expériences.
On se doute que si E = nd² est assez grand, il y a peu de chances que les probabilités des k situations soient identiques.
Mais comment mesurer ce "assez grand" et quel sens lui donné ?

En fait, dans le cas où les k expériences sont parfaitement équiprobables, tous les résultats des n expériences peuvent se réaliser avec différentes probabilités.

Prenons l'exemple de la pièce "Pile ; Face".
Si on lance cette piéce 5 fois de suite, on peut aussi bien obtenir (P,P,F,F,P) que (P,P,P,P,P).
Ces deux événements ont une probabilité de réalisation de (0,5)5 .
Maintenant, regardons quelles sont les valeurs possibles de E.
Par exemple, si l'expérience donne (P,P,F,F,P) alors la fréquence observée des "Piles" est 0,6 et des faces 0,4 .
Le calcul de E est alors nd² = 5[(0,6-0,5)²+(0,4-0,5)²] =  0,1.

On peut alors vérifier que les valeurs que peut prendre E, en fonction du nombre j de Piles obtenues, sont:

Nombre de Piles j

0

1

2

3

4

5

Valeur de E calculée

2,5

0,9

0,1

0,1

0,9

2,5

Ainsi, si le nombre de Piles est 2 , alors la valeur correspondante de E est 0,1.
Pour chacune de ces valeurs de E, on peut alors se poser la question de savoir quelle est la probabilité d'obtenir une telle valeur.
Remarquons que E n'est alors qu'une simple variable aléatoire dont on cherche la Loi de Probabilité.
Par exemple P(E=2,5) = P(5 Piles) + P(5 Faces) = (0,5)4 .
Le tableau de la Loi de Probabilité de E est :

E = x

0,1

0,9

2,5

Total

P(E = x)

0,625

0,3125

(0,5)4 = 0,0625

1

On constate alors la probabilité que E dépasse 1 est assez faible . P(E > 1) = 0,0625.
Si l'exprience de lancer 5 fois la pièce conduit à une valeur de E > 1, alors on se trouve dans un cas de figure qui n'a lieu que dans 6,25% des cas possibles.
Si l'expérience avait pour but de tester cette pièce, on peut alors dire la pièce est truquée , mais on a un risque de 0,0625 de se tromper. Effectivement, le fait d'avoir E > 1 est réalisable, même si la pièce n'est pas truquée, et ceci avec une probabilité de 0,0625.

Dans le cas général, avec k situations et n expériences, on ne calcule pas directement ces probabilités si n est grand !
Mais on possède des tables numériques qui fournissent la probabilité que E dépasse une certaine valeur.
Ces tables numériques résultent d'un calcul approximatif qui n'a de valeur que si n est assez grand.
En fait, on présente les tables en donnant la probabilité que E dépasse une certaine valeur.   Pr(E > a)
Voici comment peut se présenter une telle table.

 


 

 

Pr( E > a ) =

k =

 

0,900

0,500

0,300

0,200

0,100

0,050

0,020

0,010

0,001

2

0,008

0,228

0,537

0,821

1,353

1,921

2,706

3,318

5,414

3

0,070

0,462

0,803

1,073

1,535

1,997

2,608

3,070

4,605

4

0,146

0,592

0,916

1,161

1,563

1,954

2,459

2,836

4,067

5

0,213

0,671

0,976

1,198

1,556

1,898

2,334

2,655

3,689

6

0,268

0,725

1,011

1,215

1,539

1,845

2,231

2,514

3,419

7

0,315

0,764

1,033

1,223

1,521

1,799

2,148

2,402

3,208

8

0,354

0,793

1,048

1,225

1,502

1,758

2,078

2,309

3,040

9

0,388

0,816

1,058

1,226

1,485

1,723

2,019

2,232

2,903

10

0,417

0,834

1,066

1,227

1,468

1,692

1,968

2,167

2,788

Sur la colonne de gauche, on lit le nombre k de situations possibles, sur la ligne du haut, on lit la probabilité P(E > a),
et à l'intersection de la ligne et de la colonne ,la valeur a correspondante.

Par exemple,
   si k = 3 alors la probabilité d'avoir E > 0,462 est 0,500.
   si k = 5  alors la probabilité d'avoir E > 1,198 est 0,020
   si k = 8  alors la probabilité d'avoir E > 2,078 est 0,020.

Dans l'exemple II du jeu de cartes, on a : k = 4 et E = 7,4.
La probabilité d'avoir E > 4,067 est 0,001  donc il est très peu probable d'avoir E = 7,4 , si le jeu de cartes n'est pas truqué.
On peut alors dire que ce jeu est truqué, avec un probabilité  inférieure à 0,001 de se tromper.
On dit que l'on rejette l'hypothèse de l'équirépartion des couleurs dans ce jeu de cartes avec un risque inférieur à 0,001.

Applications Simples:
1)  Une urne contient des boules blanches, noires et rouges.
     On tire 600 boules de cette urne avec remise et on note que l'on a obtenu les résultats suivants:
       " 190 boules blanches  ,  180 boules noires  ,   230 boules rouges "
     Peut-on faire l'hypothèse qu'il n'y a pas équirépartition des couleurs parmi les boules dans l'urne au risque de 10%?  1% ?